自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 【无标题】

azkaban

2022-09-19 14:06:07 101 2

原创 canal将mysql实时日志信息发送到kafka

canal将mysql实时日志信息发送到kafka的topic注意事项:1.注意看example.log和canal.log日志文件,有启动信息和日志。2.版本1.1.6调整为1.1.43.如果mysql服务器在windows本地,这里不用变动:canal.instance.master.address=127.0.0.1:33064.如果kafka需要Kerberos认证,注意目录不能加引号canal.mq.kafka.kerberos.enable = truecanal.mq.kafka.

2022-03-03 11:16:59 1852

原创 kettle挖坑记录

对于存在于转换里面的转换,在进行结果值判断真假时,存在不准确的情况。正常操作应是在insert_all_table中,表输出异常时,实时进行MONITOR的任务状态更新。但是原设计选择了对结果值进行判断,所以缺失红框中操作时,即使出现异常也不会将错误抛至父节点进行状态更新,因为虽然表输出错误,但是insert_all_table中的EXEC SQL语句正常,所以整体返回结果为成功。在指向write_result_error_all这一步时,要选择this output will contain exe

2022-01-07 14:36:00 197

原创 kettle挖坑记录

kettle挖坑记录问题1:数据通过kettle导入mysql时间戳字段时,报错Data truncation: Incorrect datetime value: 'NaN-NaN-NaN NaN:NaN:NaN' for column 'bulletinDate2' at row 1该字段在mysql建表的时候是建成可以为Null的bulletinDate2 timestamp NULL DEFAULT NULL问题来了:在windows上面kettle执行没问题,数据正常插入Null值,

2022-01-06 11:06:01 748

原创 kettle导出文本或者插入mysql时间戳快10几个小时

kettle导出文本或者插入mysql时间戳快10几个小时原因:kettle连接信息参数的问题解决办法:第一种办法:编辑数据库连接信息第二种办法:编辑kdb文件,新增三行。

2021-12-03 16:46:53 452 3

原创 2020-09-08

HIVE NULL值比较:SELECT IF(3 = NULL,1,0);+------+--+| _c0 |+------+--+| 0 |+------+--+SELECT IF(3 <> NULL,1,0) --结果也是0SELECT 3<>'' --NULLSELECT '3'<>''; --true结论:1.任何(包括NULL)和NULL进行比较的结果都为NULL2.和空字符串比较要用字符类型...

2020-09-08 09:43:33 63 1

原创 hive null值排序

create table udl.zgc_0903_test( name string, money string, update_time string);insert into table udl.zgc_0903_test values('AAA','200','2020-01-01 12:00:00'),('AAA','260','2020-02-01 12:00:00'),('BBB','100','2020-01-01 1

2020-09-03 15:48:21 919 1

原创 Hive的NULL值和空值关联小计

创建两个表,关联键有空值和null值CREATE TABLE GCZHU.ZGC_TEST_0708 ASSELECT 1001 AS ID,50 AS NUM UNION ALLSELECT '' AS ID,60 AS NUM UNION ALLSELECT NULL AS ID,70 AS NUM;CREATE TABLE GCZHU.ZGC_TEST_070802 ASSELECT 1001 AS ID,777 AS SCORE UNION ALLSELECT '' AS ID

2020-07-08 15:07:39 1576

原创 Hive修改表字段名,踩坑记录

Hive修改表字段名,踩坑记录:Hive修改表字段名,基于新模型的字段命名规范基本全部重命名:执行命令示例(其中一条命令): ALTER TABLE test.info_class change class_id id_class string;查询修改的字段内容时,全部为null,包括之前分区的数据修复办法: 1.创建一个临时表 tbl,结构为表info_class修改之前的表结构2.用Hdfs命令将info_class表下的目录拷贝到临时表下3.修复分区:msck repair table

2020-07-03 09:52:07 7104 1

原创 LINUX虚拟机系统下安装MYSQL

LINUX虚拟机系统下安装MYSQLhttps://www.jianshu.com/p/276d59cbc529

2020-06-21 13:31:38 315

原创 2020-01-19

数据SDI层dwd提供可信,一致,完整数据,丰富数据生态以最细粒度存放,为数据汇总提供一站式原材料Dws轻度数据汇总,跨域数据连接Dm数据集市,面向业务的数据资产...

2020-01-19 19:17:30 112

原创 spark driver节点的搭建,在集群之外搭建一个节点用于提交spark程序到spark集群

在集群之外搭建一个节点用于提交spark程序到spark集群说明:用于提交程序的节点ip: 192.168.1.188 spark集群Master节点ip:192.168.1.73(spark集群和hadoop集群是在一起的)1.保证该节点和集群的master节点是互通的,在该节点安装和集群同样版本的spark和hadoop程序,不需要启动,只用于提交作业时在driver端用于获取集群信...

2019-02-21 17:43:30 581

原创 如何kill掉spark standalone模式下的任务

找到需要删除的Application ID 如 : app-20190219171118-0060在master节点机器上执行命令curl -X POST “http://192.168.1.73:8080/app/kill/?id=app-20190219171118-0060&amp;terminate=true”(换成自己的master节点,把id 改成自己的Application ...

2019-02-20 15:22:16 2138

原创 正则匹配中.*和.*?的区别,即贪婪和非贪婪模式的区别

使用python re模块进行说明:import restr="&lt;aaa&gt;666&lt;bbb&gt;777&lt;bbb&gt;"res='&lt;aaa&gt;(.*)&lt;bbb&gt;'print(re.compile(res).findall(str))我们要得到str中的666,使用贪婪匹配.*得到的结果:['666&lt;bbb&gt;777']

2018-10-26 17:35:03 1053

原创 hive优化之去distinct

count(distinct ),在数据量大的情况下,容易数据倾斜,因为count(distinct)是按group by 字段分组,按distinct字段排序。1.单个distinctSelect device_name,count(distinct imei) from TableA group by device_name;使用group by替换:Select device_na...

2018-10-26 17:03:49 1031

原创 hive中关于SUM(COUNT(1))的用法实践测试用例

SELECT * FROM temp.tmp_20181026 T;+------------+-----------+-----------+----------+--+| t.classes | t.name | t.course | t.score |+------------+-----------+-----------+----------+--+| a1 ...

2018-10-26 16:30:45 2639 2

原创 hive函数lateral view explode小实验

SELECT device_name,COO FROM( SELECT device_name,SPLIT(cont,',') AS cont FROM ( SELECT 'ALP-AL00' AS device_name,'a,b,c,d' AS cont UNION ALL SELECT 'BLN-AL10' AS device_name,'Q,W,E,R' AS con...

2018-10-26 16:24:03 249

原创 python爬虫51job招聘信息下载

使用python选取51Job上Java,Php,C++等7项模块进行下载数据格式呈现如下:java.txt:(1):Java 南京擎天科技有限公司 南京 0.7-2万/月 职位描述: 1、负责公司自研产品应用软件的分析、设计、编码; 2(2):Java 江苏万全集团 南京-浦口区 0.7-2万/月 岗位职责:1.3年以上JAVA开发工作经验,具备扎实的JAVA基(3):Java 深圳前...

2018-10-26 16:14:04 377

原创 python爬虫爬取古诗词内容,并存入mysql

python爬虫爬取古诗词内容,并存入mysql爬取结果展示:代码如下:from urllib import requestimport re,osimport pymysqlimport timebase_url = &quot;https://so.gushiwen.org&quot;shiwen_url='https://www.gushiwen.org/shiwen/'def get...

2018-10-26 15:57:59 1831 14

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除