Ashley_JIANG-CSDN博客

转载 spark调优

set spark.sql.caseSensitive=FALSE; 设置不区分大小写

2021-10-10 17:22:16 144

原创一些工作感悟

1. 关于合作工作中经常遇到需求反复变化将所有需求落成文档，圈定需求范围，防止之后变化，需求方还不承认是需求变更。在开发之前一定要拿到需求方的确认。这点很重要。明明做了很多，但是还是会有问题工作要量化。设计自测，然后需求方验收的工作，可以将自测的内容形成记录，在交付验收的时候，将测试记录交给需求方。一方面证明自己做过自测，且证明没有问题；另一方面防止重复测试，减少大家的工作量。...

2021-08-12 10:38:35 159

1. 报错：Diagnostic messages truncated.一个spark2的已知bug，当一个表被多次复用，形成菱形逻辑（比如select ... as a; select ... from a as t1; select ... from a as t2; select t1 join t2）就有一定概率会出现这个attribute missing的报错。1. spark3修复了该问题。2. 如果目前要在spark2任务中绕过该问题，可以尝试找出那些任务中被多次复用的临时..

2021-07-28 23:12:52 2214

原创常用Spark SQL函数整理

1.if(条件判断,true,false)

2021-06-30 13:53:00 974

原创面试题汇总

spark reduceByKey和groupByKey的区别 reduceByKey可以自定义函数，groupByKey不可以自定义函数 reduceByKey可以在shuffle之前将输出数据与一个共用的key结合，先在本地进行merge操作，减少了很多不必要的数据进行数据传输造成的IO reduceByKey更适合大数据上的操作2. spark和hadoop的区别3. hive中的mapjoin原理hive中join的方式有两种MapJoin和ReduceJoin.

2021-03-28 20:17:15 125

原创 kylin安装

1.kylin下载：https://mirrors.bfsu.edu.cn/apache/kylin/apache-kylin-3.1.1/apache-kylin-3.1.1-bin-cdh57.tar.gz2. 上传至你想要的文件夹中比如：ip: 172.16.1.91机器下的文件夹/usr/local/install/kylin/apache-kylin-4.0.0-beta-bin.tar.gz3. 解压（选择合适的解压缩方式）tar -zxvf apach...

2021-03-28 20:16:08 1411 1

原创 spark SQL知识点整合

1. dataframe和rdd的区别可以将dataframe理解成是RDD+schema元信息两个分别的优点和缺点：2. dataset的优点3.dataframe,dataset，和RDD的区别4. 之间的相互转化：5.堆外内存和堆内内存的定义和区别，各自的优势堆外操作系统的IO, 堆内内存建立再JVM上（会长生GC）6,spark on hive和hive on spark的区别7. hive和spark的整合8.thrith server ?????

2021-03-28 20:15:16 98

原创 hive表新增字段或者修改字段

1. hive表操作1. 修改表字段的数据类型或者修改表字段名字#如果表是外部表，需要先修改为内部表alter table 数据库名.表名set tblproperties('EXTERNAL' = 'FALSE');ALTER TABLE 数据库名.表名 CHANGE COLUMN 字段名新的字段名(如果不变就保持原字段) 字段类型(若不变就采用原来的字段) COMMENT '新的字段备注';alter table 数据库名.表名set tblproperties('EXTERNAL

2020-12-09 15:52:27 25172 1

原创 spark dataframe坑点总结

1. joinxxxxx1 202009 x1 a1 null 5 null xxxxx2 202009 x2 a2 null null null xxxxx3 202009 x3 a3 null null 5 三条数据分别三个Dataframe中，join之后，发现数据并没有合并成一条，是以三条的形式显示的。将空值进行填充，问题解决。当是null的时候，会被认为不是相同的值。..

2020-11-19 21:10:17 230

原创 spark SQL 报错记录

1. 报错：resolved attribute(s) var multiInsuCountDf = multiInsuDf.select("req_id", "main_flag", "name", "idn") multiInsuCountDf = multiInsuCountDf.groupBy("req_id", "main_flag", "name", "idn").count() val multiInsuDfResult = multiInsuDf.join(mul

2020-08-19 19:33:35 450

原创 spark Dataframe数据处理常用方法总结

以下方法使用scala, df类型为Dataframe1. 新增一列df = df.withColumn("new col", lit(null)), //新的一列名字为"new col", 使用空值进行填充2. 列名重新命名df = df.withColumnRenamed("旧列名", "新列名")3. 根据条件进行判断来对Dataframe中某列的值进行填充df = df.withColumn("需要进行填充的列名", when(条件判断, $"用于填充的列名") ..

2020-06-23 17:50:23 1783

原创 python数据处理之数据读取

python数据处理简介在python中数据处理的库为：pandas,数据读取的类名为read_xxx, 最常用的是read_excel，read_csv代码示例：import pandas as pddf = pd.read_csv(filename)在使用的时候，需要注意以下几个常用参数的使用：dtype指定读入数据的数据类型为“str”，可以防止像身份证之类的数据...

2020-02-16 15:54:11 316

原创跟我一起学python数据处理吧

从今天2020-01-13开始，总结一下这一年多使用python进行数据处理的一些心得。对自己的这段时间的积累的一个总结吧。

2020-01-13 21:05:49 179 1

原创 AttributeError: 'str' object no attribute ''items

这个错误发生在我进行pyinstaller打包的时候。通过更新setuptools解决了问题。但是在更新setuptools时，又遇到了坑，pip install setuotools不起作用，又尝试了下载setuptools whl文件进行安装，也不行。最后用pycharm的库升级的办法完成了setuptool库的更新。最后问题解决。之前打包的时候遇到了上面的问题，是在window...

2019-02-01 13:26:54 761

原创 python_project_pyqt5

主要用到QWidget,QComboBox,QDialog,QTabwidget,QTableWidget,和其他一些常用的控件。1, QWidget1), 可以作为独立的界面使用，也可以加到QMainWindow中，self就是QMainWindowself.from_widget = FormWidget(self) _widget = QWidget()

2018-01-09 15:27:11 293

原创 python_project_mysql Python与数据库交互

python中使用数据库mysql1，安装：pip install pymysql2, 原理：3，代码1），sql语句中有参数的 def selectDataFromMysql(self,sql, parm): conn = pymysql.connect(host='xxx', user='xxx', passwd='xxx', db='xxx'

2018-01-09 14:58:30 260

原创 python_project

最近做了一个为期两周的小项目，是一个很简单的工作流。内容包括员工的加班申请，组长进行加班审批和公布加班需求。代码实现包括：界面（pyqt5）后台逻辑数据库(mysql)对这次项目做一个简单的总结，内容分别在两篇文章中：python_project_mysql, python_project_mysql

2018-01-09 14:56:01 1324

原创大数据分析学习之路—安装数据分析常用库

numpy, pandas,scipy,sklearn库一般安装，pip install 库名注意：1, 我在用pip install numpy 装完之后，import numpy时，报错：ImportError: cannot import name 'NUMPY_MKL'在网站：https://www.lfd.uci.edu/~gohlke/python

2017-11-30 16:48:19 407

原创大数据分析学习之路——Hive

大数据，hadoop,hive,概念什么是大数据? 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。换句话数据量在TB，PB，甚至更大的多元化数据集合。多，杂的数据当今数据处理模式：离线处理（先收集数据，再处理）----Hadoop；流式处理（实时处理）---sparkHadoop1，The Apache Hadoop project d

2017-11-26 10:48:02 1119

转载 Python_re

Python正则表达式介绍：http://www.cnblogs.com/chuxiuhong/p/5885073.html

2017-08-02 09:44:07 230

原创 Python_Excel_02

Python_Excel_01中提到的xlwt库，如果你只想往Excel里写东西，那么这个库就足够了。但是如果还要设置对Excel的格式，字体等进行设置，那么建议换成：xlsxwriter.使用xlsxwriter进行Excel设置：安装: pip install xlsxwriter导入: import xlsxwriter新建，并打开一个Excel表格： file=xlsxwr

2017-08-01 15:37:22 270

原创 Python_Excel_01

1, 安装xlwt第三方库. 方法有二： 1）：直接安装打开cmdpip install xlwt 2)：下载安装下载地址：下载地址cmd进入库文件，安装：python setup.py install2, 检验安装xlwt是否成功？ import xlwt3, 数据写入Excel 打开一个空的

2017-07-17 09:37:53 238

原创 Python_matlab_01

Python调用matlab第一步；1，安装Python（version：2.7或者3.3 支持，3.5经验证不能用）2， matlab version 2014b3, 用管理员权限打开cmd, 假设matlab装在了假设Matlab是Matlab的安装根目录$ cd Matlab\extern\engines\python$ python setup.py ins

2017-07-13 10:36:35 287

转载 shell 基础

Shell其实是一个有特殊功能的程序，主要是提供用户与内核交互操作的一个接口。它的位置介于用户界面和内核之间，工作流程是接收用户输入的命令并且进行解释(转换为计算机可以理解的机械码)，然后将命令送入内核去执行。我们一般通过ssh远程登录系统并且打开shell，也有一些是直接在图形界面上直接打开终端的方式打开shell。后者主要用于ubuntu系统中。这里主要介绍目前较为流行或者

2017-06-23 11:42:14 204

spark shuffle原理

spark shuffle原理，总结，包括map, reduce的原理等

2023-04-21

hive 和 presto sql的对比

hive 和 presto sql的对比，常见函数的写法区别和坑点

2023-04-21

常见业务场景的SQL解决方案

常见业务场景的SQL解决方案，也是常见的面试SQL题，面过多个大厂的SQL题总结。窗口函数的灵活应用。

2023-04-21

hive表新增字段或者修改字段

hive表新增字段或者修改字段，原理和具体操作

2023-04-20

spark3.0优化总结

2023-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Jacqueline_JIANG的博客

转载 spark调优

原创一些工作感悟

原创 spark报错整理

原创常用Spark SQL函数整理

原创面试题汇总

原创 kylin安装

原创 spark SQL知识点整合

原创 hive表新增字段或者修改字段

原创 spark dataframe坑点总结

原创 spark SQL 报错记录

原创 spark Dataframe数据处理常用方法总结

原创 python数据处理之数据读取

原创跟我一起学python数据处理吧

原创 AttributeError: 'str' object no attribute ''items

原创 python_project_pyqt5

原创 python_project_mysql Python与数据库交互

原创 python_project

原创大数据分析学习之路—安装数据分析常用库

原创大数据分析学习之路——Hive

转载 Python_re

原创 Python_Excel_02

原创 Python_Excel_01

原创 Python_matlab_01

转载 shell 基础

spark shuffle原理

hive 和 presto sql的对比

常见业务场景的SQL解决方案

hive表新增字段或者修改字段

spark3.0优化总结

空空如也