自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(144)
  • 资源 (2)
  • 收藏
  • 关注

原创 ERROR: pip‘s dependency resolver does not currently take into account all the packages that are inst

所以,这个命令的目的是安装wxpy库,并确保安装最新版本,即使已经安装了旧版本或其他版本。是要安装或更新的Python库的名称。在这种情况下,它是一个用于微信机器人的库,可以让你编写Python程序来与微信进行交互。是一个用于在Python中安装或更新wxpy库的命令。忽略已经安装的同名包,即使已经存在旧版本的wxpy,也会继续安装最新版本。是Python的包管理工具,用于安装和管理Python包。升级已经安装的包到最新版本,如果已经存在的话。命令的一个子命令,用于安装Python包。

2023-10-13 20:21:15 201

原创 用Python和开源NLP工具库开发一个小型聊天机器人原型

请注意,这只是一个简单的聊天机器人原型,只能回答预定义的问题。这段代码首先加载spaCy英语模型,然后定义了一个简单的问题和答案字典。接下来,它进入一个循环,接受用户的问题输入,使用spaCy处理用户输入,然后尝试查找匹配的问题并返回相应的答案。在本示例中,我们将演示如何创建一个简单的问答聊天机器人,它可以回答一些基本问题。要扩展聊天机器人的能力,您可以考虑使用更强大的自然语言处理和对话管理工具,如NLTK、Rasa NLU、Dialogflow等,以构建更复杂和交互式的聊天机器人。

2023-10-13 15:11:07 220

原创 Pandas 入门指南

Pandas是Python数据科学领域中不可或缺的工具之一,它使得数据处理和分析变得更加容易。在本篇技术博客中,我们总结了Pandas的核心知识点,包括数据结构(DataFrame和Series)、数据的创建、数据的访问和操作、数据清洗和处理缺失值、数据可视化以及数据的导出。掌握Pandas可以让您更高效地处理和分析结构化数据,是数据科学家和分析师的重要技能之一。通过学习和实践,您可以逐渐掌握Pandas的使用,将其应用于您的数据项目,并加强您的数据分析和数据科学能力。希望这篇博客对您学习Pandas。

2023-10-13 15:02:20 218

原创 NumPy入门文档

NumPy是Python中不可或缺的库,用于数值计算和数据处理。它提供了强大的多维数组对象以及一系列数学函数,使得数据科学家、工程师和研究人员能够高效地执行各种数学和统计运算。掌握NumPy的基础知识是进行数据分析、机器学习和科学计算的重要一步。通过本篇技术博客,您应该已经了解了NumPy的核心概念,包括ndarray、数组的创建、基本操作、索引和切片、聚合操作和广播。进一步学习和实践将帮助您更深入地掌握NumPy,并将其应用于实际项目中。

2023-10-13 14:54:46 241

原创 Power BI 和 Tableau的区别

power BI tableau

2023-09-15 10:58:59 328

原创 ChatGPT给普通人带来的l0个赚钱机会

chatgpt 变现

2023-08-25 10:38:34 101

原创 bigquery json处理函数json_extract和json_extract_scalar的区别

bigquery处理函数 json_extract和json_extract_scalar的区别

2022-12-21 10:34:52 1277

原创 bigquey一行转多行

bigquery 一行转多行

2022-12-21 10:16:53 409 1

原创 python学习笔记

python 笔记

2022-09-25 10:32:48 1074

原创 维度建模--如何设计事实表与维表 以及如何评估数仓模型

数仓建模

2022-09-16 13:19:42 704

原创 hive优化

hive优化

2022-09-13 13:38:24 694

原创 拉链表及常见问题

拉链表

2022-09-13 10:53:48 990

原创 数仓经典案例-各个视频平均完播率、平均播放进度

数仓案例

2022-08-16 09:20:31 1530

原创 python函数

Python函数、参数

2022-07-13 16:45:55 147

原创 JAVA实现选择排序算法与插入排序

排序算法与插入排序

2022-07-07 15:39:12 257

原创 算法与数据结构--线性查找

线性查找代码实现

2022-07-06 13:43:43 155

原创 python变量与运算符

python变量与运算符

2022-07-04 15:59:30 350

原创 python的组:列表、元组、集合、字典

Python列表、元组、集合、字典简介

2022-07-04 13:45:41 84

原创 Python字符串的运算及转义字符

python字符串及转义字符串

2022-06-29 16:39:53 312

原创 python的进制转换

python进制转换

2022-06-23 13:51:32 197

原创 数仓遍历 array数据类型

需要处理的字段app_comment_score数据类型:array<structscore:double,num:bigint>app的分数和次数数据展现形式select app_id,app_score_num from dws.app_comment_score_di where dt='20211031' limit 2;app_idapp_score_num1[[7.0,1],[6.0,1],[10.0,26],[null,3],[8.0,1]]

2021-11-01 11:21:47 1085

原创 hive least() 和min()的区别

hive least() 和min()的区别select least(100,200,300,400) as min_num,greatest(100,200,300,400) as max_num--100 400共同点:都是求最小值的意思不同点:least(col1,col2,col3) --里面可以传多个参数min(slary) --仅可以传一个参数...

2021-10-19 10:14:25 1760

原创 crontab表达式,月末执行

0 010 L * ? 月末10:00执行0 15 10 ? * MON-FRI 周一至周五的上午10:15触发0 0 2 1 * ?表示在每月的1日的凌晨2点调整任务

2021-08-03 14:27:49 3789

原创 hive 求两个月之间的时间间隔(月留存)

最近在计算日留存和月留存日留存通常会用到的函数是datediff()使用格式如下:datediff(yyyy-MM-dd,yyyy-MM-dd)可以计算出两个日期间隔多少天月留存的话用这个就不太合适了,因为有的月份是29天有的是30天还有31天的,所以想要计算出间隔天数➗月份天数是不准确的因此我先用: show functions like '*month*';查出关于month的函数有如下几个:function0 add_months1 dayofmonth2 ...

2021-07-06 11:08:08 6384

原创 hive 高阶函数 array_sort()

由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可。sort_array就是对array进行排序,且只能升序这里我们首先将dt和mark字段拼接到一起然后转成list格式collect_list(concat_ws('|', dt, mark))得到的结果:[2021-06-13|0,2021-05-30|1,2021-04-18|0,2021-05-23|0,2021-05-09|1,2021-

2021-06-28 15:36:02 2870 1

原创 hive高阶函数(1)repeat、posexplode

1.repeat('ab',num)ab:要复制的字符串num:要复制的次数2.posexplode() 可以行转列,并把索引取出SELECT posexplode(split(repeat('1,', 9), ','))

2021-06-28 10:11:10 2937

原创 row_number()over 进行去重处理

一个ID对应多个账号,要取长度比较短的账号select * from(select *,row_number()over (partititon by account_id order by length(customer_name) asc) rankfrom dws.account_dimwhere dt='20210621')t where t.rank=1;

2021-06-23 09:55:27 1366

原创 hive--连续销售天数的最大记录

-- 求: 每家店铺连续销售天数的最大记录 (针对以下数据作答就好)id,tim,saya,2019-02-01,300a,2019-02-02,500a,2019-02-03,550a,2019-02-05,400a,2019-02-06,500b,2019-02-01,300b,2019-02-02,500b,2019-02-03,550b,2019-02-04,400b,2019-02-05,500参考示例:+-----+------+| id | _c1 |+-...

2021-02-26 11:26:18 338

原创 hive经典案例额---行转列汇总计数

案例 3数据如下:uid,eventu01,ad_clicku01,ad_show u01,favor_skuu01,ad_clicku01,pageviewu01,searchu02,ad_clicku02,ad_showu02,favor_skuu02,addcartu02,pageviewu02,pageview要求:需求1:假如数据中的事件类型是已知且固定的,求如下报表:+------+-----------+----------+-----------...

2021-02-26 11:11:20 240

原创 hive 经典案例--打地鼠连续命中次数问题

案例2:打地鼠游戏记录求连续命中次数 --beat 1 代表击中 0 代表未击中uid,seq,beatu01,1,1u01,2,0u01,3,1u01,4,1u01,5,0u01,6,1u02,1,1u02,2,1u02,3,0u02,4,1u02,5,1u02,6,0u02,7,0u02,8,1u02,9,1u03,1,1u03,2,1u03,3,1u03,4,1u03,5,1u03,6,0求:连续击中3次以上的用户参考示例:+------+.

2021-02-26 11:02:16 296

原创 hive udf案列,实战操作

转自:https://blog.csdn.net/zsigner/article/details/106885634?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242自己做了些小修改,添加了创建永久函数的方法,请大家参考1.数据格式实例:-------------------------------------1,zhangsan:18:beijing|na

2021-02-04 16:39:54 142

原创 hive--连续登陆天数问题

登陆表:login_table字段user_id,login_dt连续登陆 user_id login_dt a 2020-06-01 a 2020-06-02 a 2020-06-03 b 2020-06-01 b 2020-06-02 创建表:create table if not exists adm_sdk_activity_analysis_total( user_id ...

2021-02-04 15:37:20 427

原创 spark血统--宽窄依赖(史上最简单的解释)

Wide Dependencies (宽依赖):是指子RDD的分区依赖于父RDD的多个分区或所有分区(子rdd和父rdd的关系是一对多的关系)Narrow Dependencies(窄依赖):是指父RDD的每一个分区最多被一个子RDD的分区所用(一个子rdd和父rdd的关系理想情况下是一对一)...

2021-01-20 11:50:51 496

原创 hive解析json

获取json accountId内容:trim(get_json_object(data_line,'$.data.accountId')) json格式:{ "data":{ "has_social_security":"是", "sdk_type":"backend", "installment_account":93, "sdk_lib_method":"com.xx.data.analytics.Analy231

2021-01-19 18:26:59 88

原创 hive时间戳转换时间格式(yyyy-MM-dd HH:mm:ss),时间戳转小时

转化前格式:1607756309127转化后格式:2020-12-12 14:58:29转化方法:from_unixtime(cast(substr(event_timestamp,1,10) as bigint), 'yyyy-MM-dd HH:mm:ss')

2021-01-19 18:01:43 4743

原创 hive窗口函数--向上向下取值 lead()、lag()、first_value()、last_value()

典型的应用场景:对访问间隔时间进行统计获取上次访问时间:LAG(visit_time,1) OVER(PARTITION BY uid ORDER BY visit_time asc) AS last_visit_time 获取下次访问时间: LEAD(visit_time,1) OVER(PARTITION BY uid ORDER BY visit_time asc) AS next_visit_time 获取第一次访问的url,分组排序后第一个值: FIRST_VALUE(url) O..

2021-01-07 11:53:24 4360

原创 linux 运维入门--目录结构

目录结构:先来熟悉下linux系统中各个目录文件夹的大致功能/ 根目录/boot 存放内核以及启动所需的文件/dev 存放设备目录/etc 存放系统配置文件/home 普通用户的宿主目录,用户数据存放在其主目录中/lib 存放必要的运行库/mnt 存放临时的映射文件系统,通常用来挂载使用/proc 存放存储进程和系统信息/root 超级用户的主目录/sbin 存放系统管理程序/tmp 存放临时文件...

2021-01-06 10:42:58 97 1

原创 shell 后台运行脚本

nohup command > /xx/xx/log.file 2>&1 &

2021-01-05 17:38:12 172

原创 使用round函数,保存的数值仍然是整数

round函数的作用是对浮点数进行四舍五入,使用方法:round( x [, n] )x:数值n:数值表达式,表示从小数点位数请检查字段类型是否正确,使用单精度浮点型或者string都可以解决此问题。

2020-12-22 10:32:30 1768

原创 python--pandas 写数据到mysql

import pandas as pd from sqlalchemy import create_engine conn = create_engine('mysql+mysqldb://root:password@localhost:3306/databasename?charset=utf8') df = pd.DataFrame() df["A"] = [1,2,3,4] df["B"] = [11,22,33,44] df.to_sql('表名',con=engine,if.

2020-12-17 10:52:18 282

Flink应用案例介绍.pdf

flink学习资料ppt,应用案列介绍。flink的流式处理的是真正的流处理。流式数据一但进入就实时进行处理,这就允许流数据灵活地在操作窗口。它甚至可以在使用水印的流数中处理数据(It is even capable of handling late data in streams by the use of watermarks)。此外,flink的代码执行引擎还对现有使用storm,mapreduce等有很强的兼容性。

2019-11-19

GoogleChrome-72.0.3626.96.dmg

谷歌浏览器,mac版本,GoogleChrome-72.0.3626.96.dmg

2019-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除