自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

转载 spark调优

set spark.sql.caseSensitive=FALSE; 设置不区分大小写

2021-10-10 17:22:16 144

原创 一些工作感悟

1. 关于合作工作中经常遇到需求反复变化 将所有需求落成文档,圈定需求范围,防止之后变化,需求方还不承认是需求变更。在开发之前一定要拿到需求方的确认。这点很重要。明明做了很多,但是还是会有问题 工作要量化。设计自测,然后需求方验收的工作,可以将自测的内容形成记录,在交付验收的时候,将测试记录交给需求方。一方面证明自己做过自测,且证明没有问题;另一方面防止重复测试,减少大家的工作量。...

2021-08-12 10:38:35 159

原创 spark报错整理

1. 报错:Diagnostic messages truncated.一个spark2的已知bug,当一个表被多次复用,形成菱形逻辑(比如select ... as a; select ... from a as t1; select ... from a as t2; select t1 join t2)就有一定概率会出现这个attribute missing的报错。1. spark3修复了该问题。2. 如果目前要在spark2任务中绕过该问题,可以尝试找出那些任务中被多次复用的临时..

2021-07-28 23:12:52 2214

原创 常用Spark SQL函数整理

1.if(条件判断,true,false)

2021-06-30 13:53:00 974

原创 面试题汇总

spark reduceByKey和groupByKey的区别 reduceByKey可以自定义函数,groupByKey不可以自定义函数 reduceByKey可以在shuffle之前将输出数据与一个共用的key结合,先在本地进行merge操作,减少了很多不必要的数据进行数据传输造成的IO reduceByKey更适合大数据上的操作2. spark和hadoop的区别3. hive中的mapjoin原理hive中join的方式有两种MapJoin和ReduceJoin.

2021-03-28 20:17:15 125

原创 kylin安装

1.kylin下载:https://mirrors.bfsu.edu.cn/apache/kylin/apache-kylin-3.1.1/apache-kylin-3.1.1-bin-cdh57.tar.gz2. 上传至你想要的文件夹中比如:ip: 172.16.1.91机器下的文件夹/usr/local/install/kylin/apache-kylin-4.0.0-beta-bin.tar.gz3. 解压(选择合适的解压缩方式)tar -zxvf apach...

2021-03-28 20:16:08 1411 1

原创 spark SQL知识点整合

1. dataframe和rdd的区别可以将dataframe理解成是RDD+schema元信息两个分别的优点和缺点:2. dataset的优点3.dataframe,dataset,和RDD的区别4. 之间的相互转化:5.堆外内存和堆内内存的定义和区别,各自的优势堆外操作系统的IO, 堆内内存建立再JVM上(会长生GC)6,spark on hive和hive on spark的区别7. hive和spark的整合8.thrith server ?????

2021-03-28 20:15:16 98

原创 hive表新增字段或者修改字段

1. hive表操作1. 修改表字段的数据类型或者修改表字段名字#如果表是外部表,需要先修改为内部表alter table 数据库名.表名set tblproperties('EXTERNAL' = 'FALSE');ALTER TABLE 数据库名.表名 CHANGE COLUMN 字段名 新的字段名(如果不变就保持原字段) 字段类型(若不变就采用原来的字段) COMMENT '新的字段备注';alter table 数据库名.表名set tblproperties('EXTERNAL

2020-12-09 15:52:27 25172 1

原创 spark dataframe坑点总结

1. joinxxxxx1 202009 x1 a1 null 5 null xxxxx2 202009 x2 a2 null null null xxxxx3 202009 x3 a3 null null 5 三条数据分别三个Dataframe中,join之后,发现数据并没有合并成一条,是以三条的形式显示的。将空值进行填充,问题解决。当是null的时候,会被认为不是相同的值。..

2020-11-19 21:10:17 230

原创 spark SQL 报错记录

1. 报错:resolved attribute(s) var multiInsuCountDf = multiInsuDf.select("req_id", "main_flag", "name", "idn") multiInsuCountDf = multiInsuCountDf.groupBy("req_id", "main_flag", "name", "idn").count() val multiInsuDfResult = multiInsuDf.join(mul

2020-08-19 19:33:35 450

原创 spark Dataframe数据处理常用方法总结

以下方法使用scala, df类型为Dataframe1. 新增一列df = df.withColumn("new col", lit(null)), //新的一列名字为"new col", 使用空值进行填充2. 列名重新命名df = df.withColumnRenamed("旧列名", "新列名")3. 根据条件进行判断来对Dataframe中某列的值进行填充df = df.withColumn("需要进行填充的列名", when(条件判断, $"用于填充的列名") ..

2020-06-23 17:50:23 1783

原创 python数据处理之数据读取

python数据处理简介在python中数据处理的库为:pandas,数据读取的类名为read_xxx, 最常用的是read_excel,read_csv代码示例:import pandas as pddf = pd.read_csv(filename)在使用的时候,需要注意以下几个常用参数的使用:dtype指定读入数据的数据类型为“str”,可以防止像身份证之类的数据...

2020-02-16 15:54:11 316

原创 跟我一起学python数据处理吧

从今天2020-01-13开始,总结一下这一年多使用python进行数据处理的一些心得。对自己的这段时间的积累的一个总结吧。

2020-01-13 21:05:49 179 1

原创 AttributeError: 'str' object no attribute ''items

这个错误发生在我进行pyinstaller打包的时候。通过更新setuptools解决了问题。但是在更新setuptools时,又遇到了坑,pip install setuotools不起作用,又尝试了下载setuptools whl文件进行安装,也不行。最后用pycharm的库升级的办法完成了setuptool库的更新。最后问题解决。之前打包的时候遇到了上面的问题,是在window...

2019-02-01 13:26:54 761

原创 python_project_pyqt5

主要用到QWidget,QComboBox,QDialog,QTabwidget,QTableWidget,和其他一些常用的控件。1, QWidget1), 可以作为独立的界面使用,也可以加到QMainWindow中,self就是QMainWindowself.from_widget = FormWidget(self) _widget = QWidget()

2018-01-09 15:27:11 293

原创 python_project_mysql Python与数据库交互

python中使用数据库mysql1,安装:pip install pymysql2, 原理:3,代码1),sql语句中有参数的 def selectDataFromMysql(self,sql, parm): conn = pymysql.connect(host='xxx', user='xxx', passwd='xxx', db='xxx'

2018-01-09 14:58:30 260

原创 python_project

最近做了一个为期两周的小项目,是一个很简单的工作流。内容包括员工的加班申请,组长进行加班审批和公布加班需求。代码实现包括:界面(pyqt5)后台逻辑数据库(mysql)对这次项目做一个简单的总结,内容分别在两篇文章中:python_project_mysql, python_project_mysql

2018-01-09 14:56:01 1324

原创 大数据分析学习之路—安装数据分析常用库

numpy, pandas,scipy,sklearn库一般安装,pip install 库名注意:1, 我在用pip install numpy 装完之后,import numpy时, 报错:ImportError: cannot import name 'NUMPY_MKL'在网站:https://www.lfd.uci.edu/~gohlke/python

2017-11-30 16:48:19 407

原创 大数据分析学习之路——Hive

大数据,hadoop,hive,概念什么是大数据?  大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。换句话数据量在TB,PB,甚至更大的多元化数据集合。多,杂的数据当今数据处理模式:离线处理(先收集数据,再处理)----Hadoop;流式处理(实时处理)---sparkHadoop1,The Apache Hadoop project d

2017-11-26 10:48:02 1119

转载 Python_re

Python正则表达式介绍:http://www.cnblogs.com/chuxiuhong/p/5885073.html

2017-08-02 09:44:07 230

原创 Python_Excel_02

Python_Excel_01中提到的xlwt库,如果你只想往Excel里写东西,那么这个库就足够了。但是如果还要设置对Excel的格式,字体等进行设置,那么建议换成:xlsxwriter.使用xlsxwriter进行Excel设置:安装: pip install xlsxwriter导入: import xlsxwriter新建,并打开一个Excel表格: file=xlsxwr

2017-08-01 15:37:22 270

原创 Python_Excel_01

1, 安装xlwt第三方库. 方法有二:       1):直接安装打开cmdpip install xlwt        2): 下载安装下载地址:下载地址cmd进入库文件,安装:python setup.py install2, 检验安装xlwt是否成功?        import xlwt3,  数据写入Excel         打开一个空的

2017-07-17 09:37:53 238

原创 Python_matlab_01

Python调用matlab第一步;1,安装Python(version:2.7或者3.3 支持,3.5经验证不能用)2, matlab version 2014b3, 用管理员权限打开cmd, 假设matlab装在了假设Matlab是Matlab的安装根目录$ cd Matlab\extern\engines\python$ python setup.py ins

2017-07-13 10:36:35 287

转载 shell 基础

Shell其实是一个有特殊功能的程序,主要是提供用户与内核交互操作的一个接口。它的位置介于用户界面和内核之间,工作流程是接收用户输入的命令并且进行解释(转换为计算机可以理解的机械码),然后将命令送入内核去执行。我们一般通过ssh远程登录系统并且打开shell,也有一些是直接在图形界面上直接打开终端的方式打开shell。后者主要用于ubuntu系统中。    这里主要介绍目前较为流行或者

2017-06-23 11:42:14 204

spark shuffle原理

spark shuffle原理, 总结,包括map, reduce的原理等

2023-04-21

hive 和 presto sql的对比

hive 和 presto sql的对比, 常见函数的写法区别和坑点

2023-04-21

常见业务场景的SQL解决方案

常见业务场景的SQL解决方案,也是常见的面试SQL题, 面过多个大厂的SQL题总结。窗口函数的灵活应用。

2023-04-21

hive表新增字段或者修改字段

hive表新增字段或者修改字段,原理和具体操作

2023-04-20

spark3.0优化总结

spark3.0优化总结

2023-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除