自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(78)
  • 收藏
  • 关注

转载 使用Python快速进行Excel合并

本文记录工作中常遇到的几种Excel文件合并的情景,实际运到问题可以直接运行程序,输入要合并的文件所在的路径就可以实现自动合并,提升工作效率。

2023-08-12 11:54:23 711 1

转载 hive和presto获取数组长度函数的区别

presto的cardinality函数默认数组的下标从1开始。在计算数组长度的时候,hive和presto的函数不同。其中hive的size函数默认数组的下标从0开始。希望将类目信息拆分成3级类目的格式。3.2 presto用法。3.1 hive用法。

2023-06-01 15:28:30 493

原创 提升数据开发的效率

如何提高数据开发的效率

2022-12-22 16:19:33 235

原创 hive实现近6周的下单趋势分析

数据仓库建模

2022-12-22 16:13:36 792

转载 Presto 时间、日期及计算相关日期

由于工作中在数据迁移,大数据平台数据查询引擎使用Presto,和传统的数据库时间函数有区别,整理一版,供大家参考,一起学习,有错误欢迎指正。1、查询当前日期 select current_date;2、查询当前时间 select current_timestamp; _col0 --------------------------------------- 2022-01-02 20:45:58.551

2022-12-06 15:56:59 7398 2

原创 EXCEl设置图标坐标轴的单位

1.点击需要调整坐标单位的位置,选择页面右侧属性对话框的”坐标轴“菜单,在显示单位选择需要的单位;

2022-08-25 19:14:28 1551

转载 Hive in exists 区别

IN适合于外表大而内表小的情况;EXISTS适合于外表小而内表大的情况

2022-08-11 16:17:58 654

原创 excel 将科学计数法的格式换成文本

如果处理科学计数法转文本的问题

2022-07-13 21:33:01 8983

原创 excel打开的数据位数大的会变的科学记数法怎么解决

1.新建空白excel2.菜单:数据-》导入数据3.设置导入数据的类型为文本设置逗号分隔选择需要转化的设置成文本格式并完成

2022-03-16 21:09:30 439

原创 hive 如何解决到处数据限制

mysql可以通过分页方式批量导出数据,但是hive没有分页功能,如何面对大数据查询平台导出条数限制的问题呢?1.增加行号字段 row_number() over( order by key_id desc) rk2.根据行号分页分批导出 where rk>=100000 andrk<=200000...

2022-03-16 21:01:56 2901

原创 Visual Studio Code快捷键操作

1、代码缩进快捷键选中需要缩进的代码块,按快捷键:Ctrl + [ 和 Ctrl + ]2、代码放大和缩小快捷键选中需要缩进的代码块,按快捷键:Ctrl + 和 Ctrl -3、代码行注释和段落注释快捷键选中需要缩进的代码块,按快捷键:// 和 Shift + Alt + A4、代码对齐快捷键选中需要代码对齐的代码块,按快捷键:window:Shift + Alt + Fmac:shift+option+F...

2022-03-14 15:54:32 3972

原创 pyecharts实现数据可视化

1.概述pyecharts 是百度开源的,适用于数据可视化的工具,配置灵活,展示图表相对美观,顺滑。2.安装python3环境下的安装:pip3 install pyecharts3.数据可视化代码3.1 柱状图from pyecharts import options as optsfrom pyecharts.charts import Barfrom pyecharts.faker import Fakerc = ( Bar() .

2022-03-02 20:50:43 2563

原创 jupyter 执行代码出现ModuleNotFoundError: No module named pandas 问题

正常出现这个问题,通过pip install pandas 就能解决,但是安装完之后还是出现相同的问题,后来在网上说的原因是jupyter的环境变量python的路径和pip的安装的路径不一致,通过import sysprint(sys.path)输出python的目录的版本和在命令行输出的python的版本不一致。解决方法一:是修改python环境变量解决方法二:指定和jupyter输出的python版本安装pandas,比如,我的是python3.9 , ...

2022-02-17 16:16:41 4812

转载 Hive explain详解

HiveQL是一种声明式语言,用户会提交声明式的查询,而Hive会将其转换成MapReduce job。使用EXPLAIN可以帮助我们学习Hive是如何将查询转换成MapReduce任务的。在查询语句前面加上explain关键字,可以看到查询计划和其它一些信息。这个查询本身是不会执行的。一个Hive任务会包含一个或者多个stage(阶段),不同的stage会存在依赖关系。越复杂的查询会引入越多的stage,同样耗时也会越多。一个stage可以是一个MapReduce任务,也可以是一个抽象阶段,或

2022-02-17 15:57:43 541

转载 python中dataframe类型数据的复制

python中dataframe类型数据的复制dataframe类型数据的复制可以分为浅复制和深复制。1. dataframe类型数据的浅复制 浅复制有两种方式:一是,df1 = df;二是,df1 = df.copy(deep=False)。即df1与df所指向的数据地址是同一个地址,其中一个变量发生变化,另一个变量对应的元素也会发生变化。2. dataframe类型数据的深复制 dataframe类型数据深复制的方式为:df2 = df.copy(deep=True)。即...

2021-10-21 10:49:32 6814 2

原创 python 报错DataFrame object has no attribute dtype

错误信息:DataFrame object has no attribute dtype原因:在dataframe.astype(str) 的列的数据类型有object类型解决方法:将对象的列的数据先转成字符串

2021-10-13 11:24:03 6364

原创 moduleNotFoundError: No module named ‘模块名‘

问题:模块名通过pip install 安装过,但是还是在pycharm运行会报错moduleNotFoundError: No module named '模块名'原因:pycharm都能配置每个python的运行环境,解决方法:可以切换到安装模块的目录下面...

2021-09-26 11:34:09 461

原创 pycharm 创建spark的python开发环境

1.安装pycharm,python 进入pycharm官网,点击downloadpython根据自己的需求进行安装,python2和python3的差异还是有点大进入python官网,点击下载2.安装pyspark根据spark的部署版本下载相应的版本pip3 install pyspark==版本号我们的环境用的是python3的,所以这里是pip3,python2 的这里用pip3.异常处理在安装pysaprk 的时候会报错找不到这个版本解决方...

2021-09-01 21:33:20 212

原创 运行pyspark 代码提示Exception: Java gateway process exited before sending its port number

在运行pyspark 代码提示Exception: Java gateway process exited before sending its port number解决办法1.配置java的1.8版本环境变量2.在pycharm 的设置里面配置JAVA_HOME配置保存之后运行就可以了

2021-08-31 15:58:10 1878

原创 pyspark 和python问题总结

1.py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled does not exist in the JVM在用运行from pyspark import SparkContextfrom pyspark.streaming import StreamingContextsc = SparkContext("local")ssc = StreamingContext(sc,

2021-08-30 17:49:12 191

原创 mac 配置环境变量 关闭命令窗口就失效的问题

mac在配置环境变量的时候,souce 之后,在关闭控制台窗口,重新打开,又生效了。解决方法:将环境变量配置一次在~/..zshrc下面vi ~/..zshrc复制环境变量的内容就可以了

2021-08-27 10:44:38 881

原创 mac git安装和配置

1.先安装homebrew官网安装方式:会提示443/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"可以直接用下面命令安装/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"2.安装gitbrew .

2021-08-26 17:38:13 501

转载 Presto和Hive语法对比

工作中经常遇到些时间转换问题:1) log_date:20200110 需要转换为标准日期,或者与时间戳数据进行比较2) 工作环境涉及到presto与hive, 利用presto检查查询时速度更快,因此一般需要同时用presto和hive的语法对日期进行转换下面对最近用到的时间转换进行梳理问题1:时间格式转换(时间格式化)例子: 当前时间20200110 转化为2020-01-10 --输出 2020-01-10 --hive select to_date

2021-07-08 10:56:47 1935

原创 IntelliJ IDEA 功能之进入列式编辑模式

windown 快捷键:shift+alt+鼠标左键mac:

2021-05-13 11:43:22 661

转载 Lateral View语法

描述lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。例子假设我们有一张表pageAds,它有两列数据,第一列是pageid string,第二列是adid_list,即用逗号分隔的广告ID集合:string pageid Arra.

2021-05-08 10:35:38 2113

转载 Hive文件格式(表stored as 的五种类型)

hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)5、PARQUET1、其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用insert导入SequenceFile...

2021-04-16 16:29:55 269

转载 hive sql count(*) count(1) count(字段)

1、count(*)、count(1):  count(*)对行的数目进行计算,包含NULL,count(1)这个用法和count(*)的结果是一样的。  如果表没有主键,那么count(1)比count(*)快。表有主键,count(*)会自动优化到主键列上。  如果表只有一个字段,count(*)最快。  count(1)跟count(主键)一样,只扫描主键。count(*)跟count(非主键)一样,扫描整个表。明显前者更快一些。  count(1)和count(*)基本没有差别,

2021-04-12 20:43:03 2088

转载 Hive中使用 with as 优化SQL

背景:当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高SQL可读性,简化SQL~注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持!2019-05-31更新:MySQL8.0大量更新优化,支持Common table expressions,即支持 with 语法!一、介绍with as 也叫做子查询部分,首先定义一个sql片段

2021-04-12 20:40:49 631

转载 软件开发过程中常用的环境解释DEV FAT UAT PRO

1.DEVDevelopment environment开发环境,用于开发者调试使用2.FATFeature Acceptance Test environment功能验收测试环境,用于软件测试者测试使用3.UATUser Acceptance Test environment用户验收测试环境,用于生产环境下的软件测试者测试使用4.PROProduction environment生产环境转载于:https://www.cnblogs.com/zhaohado

2021-03-30 11:57:41 257

转载 flink MapState 更新存储对象问题

在使用flink中的状态管理器时,由于需求背景我选用了MapState存储结构,但是在使用过程中发现修改存储对象的时候并没有MapState中的值并没有自动更新,这让我产生了很大的疑惑,看官方文档和flink源码中我都一直把MapState认为是类似于Map结构的,那自然认为修改里面的存储对象时整个map会自动更新,但是实际使用和测试下来确发现不是这样。先贴一段官方文档:MapState<UK, UV>: This keeps a list of mappings. You can pu

2021-02-24 10:49:37 954

原创 数据仓库建设之数据规范(一)--sql编码规范

1.编码原则 (1)功能完善:结果输出正确。(2)执行效率最优:代码优化的方法。(3)可读性强:复杂的处理加上注解,代码结构整齐。(4)统一缩紧单位:4个空格为一个缩紧单位。(5)尽量不使用select*,需要明确指定列名。(6)对应的括号使用在同一列上对齐。2.编码规范 (1)增加头部注释,模版如下: ...

2021-02-18 15:36:44 816

转载 linux测试上下行最大网速和实时网速

1.安装speedtest-cli测试最大上下行网速  speedtest-cli是一个用Python编写的轻量级Linux命令行工具,在Python2.4至3.4版本下均可运行。它基于 Speedtest.net的基础架构来测量网络的上/下行速率。安装speedtest-cli很简单——只需要下载其Python脚本文件。 yum install python-pip –ypip install speedtest-cli执行以下命令即可测试最大上下行网速: speedtest-cli

2021-01-29 14:18:12 1188 1

原创 使用Charles抓包安卓模拟器(MuMu)

1. 下载Charles 官网上可以发现Charles支持Windows、Mac、Linux三个平台2. PC端配置证书配置 help->ssl proxy-> install charls rootcertificate选择对应的charls证书进行安装。 默认端口是8888,也可以自行设置。如果需要监听https 需要配置ssl proxyingpc的ip地址:cmd-》ipconfig...

2021-01-20 17:47:02 2642

转载 Android 7.0 之后抓包 报Client SSL handshake failed: An unknown issue occurred processing the certificate

如果你也遇到这个问题,就看看我的内容哦Client SSL handshake failed: An unknown issue occurred processing the certificate (certificate_unknown)客户端SSL握手失败:处理证书时出现未知问题(证书\未知)You may need to configure your browser or application to trust the Charles Root Certificate. See SS

2021-01-20 17:19:45 4312

转载 mac python3 利用mitmproxy抓取安卓手机流量包

最近试了一下利用mitmproxy来抓取安卓手机流量,用于分析。前面使用过Charles,但是是图形化界面的,不方便把数据存下来,mitmproxy支持python编程,容易把数据存放起来,所以这里分享一下使用方法。安装首先下载网易mumu模拟器,用于android手机模拟,这是因为真机有诸多的限制,所以用模拟器方便一点,下载链接为:http://mumu.163.com/ 然后需要安装mitmproxy,安装也很简单:pip install mitmproxy配置打开mumu模拟器.

2021-01-20 17:15:35 435

原创 解决 程序包org.apache.http.HttpResponse不存在

问题:导入maven项目到工程中,发现依赖的包都爆红,显示程序包org.apache.http.HttpResponse不存在原因:导入的项目的maven 打包的项目,maven的配置信息是同事的本地信息的,需要改成自己maven home信息解决方法:Intellij IDEA->preferences->meven-> meven...

2021-01-18 16:08:44 4727

转载 Flink 整合 Kafka (实现 Exactly-Once)

1.什么是Exactly-Once恰好处理一次的意思。不管在处理的时候是否有异常发生,计算的结果都一样。即使在发现机器或者软件故障时,都不会出现数据丢失以及重复处理的情况。(就是每条数据只会被处理一次)Flink 中哪些Source、Sink支持 Exactly-Once 呢,Flink官方文档(链接)为我们做了描述。如下图所示:Source:Sink:我们发现很多都是at least once(至少一次),我们可以基于幂等操作(幂等操作的特点是...

2021-01-07 11:04:02 1298 4

转载 airtest 获取分辨率 绝对坐标 相对坐标

airtest 获取当前屏幕分辨率width = G.DEVICE.display_info['width']height = G.DEVICE.display_info['height']print(width,height)已知相对坐标 [0.12,0.709],转换成绝对坐标x1 = 0.12*widthy1 = 0.709*heighttouch([x1,y1])已知绝对坐标[88.1060],转换成相对坐标x2 = 88/widthy2 = 1060/heightpo.

2021-01-05 16:32:18 2673

转载 Flink系列:自定义map Function

2020-12-27 14:23:43 899

转载 flink深入研究(08) flink的StreamExecutionEnvironment.execute()函数调用过程02

上一篇我们讲到了ClosureCleaner的clean函数,这一篇我们继续往下分析,在clean函数中又调用了另外一个clean函数clean(func, level, checkSerializable, Collections.newSetFromMap(new IdentityHashMap<>()));代码如下: private static void clean(Object func, ExecutionConfig.ClosureCleanerLevel l...

2020-12-27 14:22:36 717

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除