自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 hdfs目录报错

hdfs目录名称包含特殊符号会提示目录不存在hadoop fs -ls /user/jiamin/report/20210409/金虹桥国际中心_<1h/part-00000bash: 1h/part-00000: No such file or directory解决办法:加\ 进行转义hadoop fs -ls /user/jiamin/report/20210409/金虹桥国际中心_\<1h/part-00000...

2021-04-14 14:50:05 216

原创 spark textfile函数

textfile函数参数可以是目录,但目录下必须都是文件,读取改目录下所有文件若想读取不同目录文件可以传list_str参数,形如:文件1,文件2,文件3。。。

2021-04-14 14:40:34 305

原创 mysql计算拼接率

拼接率计算公式:key关联条数/非空key条数实现:通过将两个表进行left join关联,分别计算count(左表key)即为非空条数not_null_count,count(右表key)即为关联条数join_count,则左表key拼接率为join_count/not_null_count*100%。好处:通过left join可以一条sql完成拼接率分子、分母计算,而不用分别计算分子、分母。实例:计算order_product表外键customer_code的拼接率select cou

2020-10-23 17:13:18 210

转载 Linux 启动jupyter

https://blog.csdn.net/qq_41126685/article/details/105524741?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.non

2020-09-14 16:03:53 1552

原创 python中单引号、双引号、三引号 区别

1、单引号表示字符串,可以包含双引号,包含单引号需转义2、双引号也可以表示字符串,可以包含单引号,包含双引号需转义3、三引号可以包含多行的字符串,可以包含单引号、双引号,均不需要转义...

2020-09-02 17:50:08 1762

原创 hive与mysql中join语句执行对比

本文的目的主要在于研究hive中left join与inner join带条件查询的结果差异,由于hive环境此时不具备,恰巧在研究过程中又发现一个新的问题,就顺道记下来了,正题稍后再补。原本是看到网上关于hive中join与where执行顺序的争议,这里,先对mysql中二者执行顺序进行验证;首先,两个test表原始数据如下:test_left:test_right:以上数据存粹只为验证结论编造,无条理性可言对于第一条sql来说,先对test_left与test_right

2020-08-08 23:57:06 386

原创 hive之group by相关技巧

在使用hive进行分组查询时,疑惑的一些地方进行验证,特此记录,也希望能给大家带来一点帮助!hive进行分组查询时,select多个字段,则也需要按该多个字段进行分组,例:select year,id_type ,count(1)from tableNamewhere 条件group byyear,id_type;如果select多个字段(year、id_type),而group by只有某个字段(month),则会报错:但是,可以select 指定内容,可不用进行g

2020-08-08 18:14:39 558

转载 Win7平台Python3使用impala连接HiveServer2遇到的坑

win7平台上使用impyla连接hive的缘由是Linux系统上hive客户端安装的机器没有python3环境,无法快速对多条sql语句进行查询,于是想通过在windows机器上直接连接hiveserver2进行hive查询,通过网上查找各种资料,踩了各种坑,终于实现hive连接,以下是安装要点; https://mp.csdn.net/console/editor/html/107585548安装内容该博文写的很明白,但需注意几点:(1)切记python版本为3.6...

2020-07-25 22:00:02 949 3

原创 python之mysql安装

首先不同版本的python对应不同的模块:python3.6对应模块:pymysql;python2.7对应模块:mysqldb要先安装mysql,可以在mysql官网进行下载,下载下来的zip文件解压,里面可能会缺少my.ini文件(Mysql配置文件),需要在网上找到放到MySQL的路径下,文件中一些对应路径信息,也要进行修改,请自己仔细查看。可以在cmd下,检查Mysql是否启动:输入mys...

2018-03-24 15:28:26 483

原创 将libsvm格式数据转化成一般格式

不采用libsvmread函数,手写python代码实现以上功能,代码如下:

2018-03-15 16:30:02 1133

原创 安装feedparser

在python中,安装feed parser模块时,首先要将python安装路径加到path下,检测是否成功的标志时:在cmd下输入python,提示python相关信息,表示可以在命令行下使用python。然后将路径切换到feed parser所在文件夹,输入python setup.py install(前提是已在python中打开setup.py,并将第一行换成了from distutils...

2017-12-29 09:42:52 1139 4

转载 自定义模块导入错误

当在python2.7 导入自定义模块,发生Importerror:No module  named xxx时,可将模块所在路径拷贝到E:\xxx\python2.7\Lib\site-packages下,再进行导入则可解决问题。经过多方的摸索,花了半天时间终于解决了问题。

2017-10-19 16:15:29 1106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除