自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (10)
  • 收藏
  • 关注

原创 Flink Oracle CDC Connector源码解读

flink cdc是在flink的基础上对oracle的数据进行实时采集,底层使用的是debezium框架来实现,debezium使用oracle自带的logminer技术来实现。logminer的采集需要对数据库和采集表添加补充日志,由于oracle18c不支持对数据添加补充日志,所以目前支持的oracle11、12、19三个版本。

2023-04-25 19:32:54 3464

原创 基于Flink CDC实现实时数据采集(四)-Sink接口实现

基于Flink CDC实现实时数据采集

2022-08-02 20:13:40 876

原创 基于Flink CDC实现实时数据采集(三)-Function接口实现

基于Flink CDC实现实时数据采集

2022-08-02 19:57:42 494

原创 基于Flink CDC实现实时数据采集(二)-Source接口实现

基于Flink CDC实现实时数据采集

2022-08-02 19:45:58 558

原创 基于Flink CDC实现实时数据采集(一)-接口设计

基于Flink CDC实现实时数据采集工具开发

2022-08-02 19:35:29 938

原创 Flink和Spark中文乱码问题

近期开发Flink CDC 读取mysql数据写入到HDFS,发现写入中文乱码,排查了数据库编码和文件编码都没有问题,后来网上查了一些资料,修改flink.conf文件,新增如下内容Spark中文乱码也排查了数据库编码和文件编码没有问题,在程序启动参数中新增–conf spark.executor.extraJavaOptions=“-Dfile.encoding=UTF-8” --conf spark.driver.extraJavaOptions=“-Dfile.encoding=UTF-8”完整

2022-06-08 10:53:52 1587

原创 Flink Oracle CDC写入到HDFS

依赖包引用maven依赖包<oracle.cdc.version>2.2.0</oracle.cdc.version><hadoop.version>2.8.2</hadoop.version><avro.version>1.8.2</avro.version> <dependency> <groupId>org.apache.flink</groupId>

2022-04-08 09:12:24 2428

原创 通过Flink-Sql将Kafka数据写入HDFS

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、创建Hive Catalog二、创建表1.创建Kafka表2.创建Hive表3. 执行同步语句总结参考资料前言近期,公司有需求将Kafka的数据写入到Hive表中,当时看到Flink有一个File Connector可以将文件写入到HDFS,所以开始了解Flink-

2022-04-06 15:41:57 4616 2

原创 spark-DataFrame数据插入mysql性能优化

spark-DataFrame数据插入mysql性能优化简介结果插入mysql源代码解析总结总结简介最近在公司项目有使用spark做数据处理,数据的结果要求写入到mysql或者tidb。spark在做完一系列的rdd操作后得到的结果通过jdbc方式插入到数据,但是插入的数据非常慢。开始研究这一块的代码和寻找性能优化。结果插入mysqlspark给我们做了封装,插入mysql的代码使用非常简...

2018-12-29 11:16:20 2959 4

原创 SparkML-初探-文本分类

Spark机器学习文本分类背景相关知识分词TF-IDFWord2Vec回归和分类需求描述开发思路代码解析总结背景由于项目组需要对爬虫获取的文本进行归类,最初使用正则表达式按照想到的规则进行解析分类,后来发现这种方式不够灵活,而且不能穷举所有的可能。所以项目组觉得使用最近比较流行的机器学习相关的知识去处理。相关知识分词TF-IDFWord2Vec回归和分类需求描述开发思路代码解析...

2018-11-25 20:33:24 727

原创 Spark ML学习相关资料整理

语义分析的一些方法基于Spark Mllib的文本分类SparkML模型选择(超参数调整)与调优 读懂Word2Vec之Skip-Gram Spark的Ml pipeline 基于java的中文分词工具ANSJ ...

2018-11-15 09:22:35 253

原创 如何编写一个优雅的Shell脚本(三)

如何编写一个优雅的Shell脚本(三)Shell脚本之AWK介绍和总结简介awk语法awk常用命令awk工作介绍awk文件关联awk文件拆分总结Shell脚本之AWK介绍和总结简介awk语法awk常用命令awk工作介绍awk文件关联awk文件拆分总结...

2018-11-10 23:45:13 330

原创 如何编写一个优雅的Shell脚本(二)

简介继上一篇,本文主要描述一个shell脚本的基本组成公共模块## 自定义写日志函数function writelog() { echo "[`date -d '%Y-%m-%d %H:%M:%S'`][$$]: $1" |tess -a $tmplogfile}# 脚本的核心业务程序应该使用该函数去调用,控制程序的运行状态和日志管理function EXESH_CM...

2018-11-04 15:04:08 466

原创 如何编写一个优雅的Shell脚本(一)

简介   shell脚本是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,本文简述如何编写一个优雅的shell脚本。使用技术介绍eval命令   可以将一个字符串当作一个命令执行。   CMD="ls -ltr"eval $CMD内置参数变量$$  获取当前程序进程ID。$#  获取当前程序传入的参数个数,可以使用该内置变量对程序参数做判断...

2018-11-04 08:43:43 1491

转载 Hadoop管理员的十个最佳实践

前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop使用

2014-07-21 20:51:10 721

原创 java调用Hbase API 出现org.apache.hadoop.hbase.protobuf.generated.ClientProtos$Result overrides final 错误

java.io.IOException: java.lang.reflect.InvocationTargetException    at org.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:389)    at org.apache.hadoop.hbase

2014-07-19 16:51:11 13429 10

原创 Oracle压缩表修改字段的处理方法

今天在修改表,往表里面添加了几个字段

2014-07-08 15:12:07 1540

get_stock_list.py

爬取当前泸深两市所有股票和股票资金流向情况,爬取股票列表后,调用爬取股票K线代码可以爬取所有股票的K线数据,并保存到Mysql数据库 K线图数据爬取代码 https://download.csdn.net/download/IT_xhf/12838897

2020-09-12

get_stock_klinedata.py

爬取股票K线图数据.爬取的K线图包括5分钟、15分钟、30分钟、60分钟、日、周、月K线图数据 调用方法 import get_stock_klinedata get_stock_klinedata(code, begin)

2020-09-12

Hbase权威指南高清中文版本.pdf

1、HBase高清权威指南中文版本 2、文档包含目录结构 其他不多说

2017-10-17

TASKCTL-5.0-新手体验指南

TASKCTL是一款类似DataStage的ETL工具,该文档面向如何使用TASKCTL开发作业和数据流的用户

2017-10-17

Hbase中文文档

目录 序 1. 入门 1.1. 介绍 1.2. 快速开始 2. 配置 2.1. Java 2.2. 操作系统 2.3. Hadoop 2.4. HBase运行模式:单机和分布式 2.5. ZooKeeper 2.6. 配置文件 2.7. 配置示例 2.8. 重要配置 2.9. Bloom Filter 3. 升级 3.1. 从HBase 0.20.x or 0.89.x 升级到 HBase 0.90.x 3.2. 从 0.90.x 到 0.92.x 4. The HBase Shell 4.1. 使用脚本 4.2. Shell 技巧 5. 数据模型 5.1. 概念视图 5.2. 物理视图 5.3. 表 5.4. 行 5.5. 列族 5.6. Cells 5.7. Data Model Operations 5.8. 版本 5.9. 排序 5.10. 列元数据 5.11. Joins 6. HBase 和 Schema 设计 6.1. Schema 创建 6.2. column families的数量 6.3. Rowkey 设计 6.4. Number 数量 6.5. 支持的数据类型 6.6. Joins 6.7. 生存时间 (TTL) 6.8. Keeping Deleted Cells 12-5-30 HBase 官方文档 2/81 abloz.com/hbase/book.htm 6.9. Secondary Indexes and Alternate Query Paths 6.10. Schema Design Smackdown 6.11. Operational and Performance Configuration Options 6.12. 限制 7. HBase 和 MapReduce 7.1. Map-Task Spitting 7.2. HBase MapReduce Examples 7.3. Accessing Other HBase Tables in a MapReduce Job 7.4. Speculative Execution 8. HBase安全 8.1. 安全客户端访问 HBase 8.2. 访问控制 9. 架构 9.1. 概述 9.2. Catalog Tables 9.3. 客户端 9.4. Client Request Filters 9.5. Master 9.6. RegionServer 9.7. Regions 9.8. Bulk Loading 9.9. HDFS 10. 外部 APIs 10.1. 非Java语言和 JVM交互 10.2. REST 10.3. Thrift 11. 性能调优 11.1. 操作系统 11.2. 网络 11.3. Java 11.4. HBase 配置 11.5. ZooKeeper 11.6. Schema 设计 11.7. 写到 HBase 11.8. 从 HBase读取 11.9. 从 HBase删除 11.10. HDFS 11.11. Amazon EC2 11.12. 案例 12. 故障排除和调试 HBase 12.1. 通用指引 12.2. Logs 12.3. 资源 12.4. 工具 12.5. 客户端 12.6. MapReduce 12.7. NameNode 12.8. 网络 12.9. RegionServer 12.10. Master 12.11. ZooKeeper 12.12. Amazon EC2 12.13. HBase 和 Hadoop 版本相关 12.14. 案例 13. 案例研究 13.1. 概要 13.2. Schema 设计 13.3. 性能/故障排除 14. HBase Operational Management 14.1. HBase Tools and Utilities 14.2. Region Management 14.3. Node Management 14.4. HBase Metrics 14.5. HBase Monitoring 14.6. Cluster Replication 14.7. HBase Backup 14.8. Capacity Planning 15. 创建和开发 HBase 15.1. HBase 仓库 15.2. IDEs 15.3. 创建 HBase 12-5-30 HBase 官方文档 3/81 abloz.com/hbase/book.htm 15.4. Publishing a new version of hbase.apache.org 15.5. 测试 15.6. Maven Build Commands 15.7. Getting Involved 15.8. 开发 15.9. 提交补丁 A. FAQ B. hbck In Depth B.1. Running hbck to identify inconsistencies B.2. Inconsistencies B.3. Localized repairs B.4. Region Overlap Repairs C. Compression In HBase C.1. CompressionTest Tool C.2. hbase.regionserver.codecs C.3. LZO C.4. GZIP C.5. SNAPPY C.6. Changing Compression Schemes D. YCSB: The Yahoo! Cloud Serving Benchmark and HBase E. HFile format version 2 E.1. Motivation E.2. HFile format version 1 overview E.3. HBase file format with inline blocks (version 2) F. Other Information About HBase F.1. HBase Videos F.2. HBase Presentations (Slides) F.3. HBase Papers F.4. HBase Sites F.5. HBase Books F.6. Hadoop Books G. HBase History H. HBase and the Apache Software Foundation H.1. ASF Development Process H.2. ASF Board Reporting Index 表列表 5.1. Table webtable 5.2. ColumnFamily anchor 5.3. ColumnFamily contents 8.1. Operation To Permission Mapping

2014-08-25

数据仓库与OLAP

介绍数据仓库的基本概念,数据仓库和OLAP的关系,BI的基本入门知识。感兴趣的朋友可以下下来看看,概念东西都是比较枯燥的,但是没有却不行,希望对你有帮助。

2013-07-27

spring-data-应用源码

spring-data不必介绍,附件中包括spring-data一些例子,包括整合jpa,mongodb,neo4j,redis的应用,有兴趣的朋友可以参考一下。

2013-07-24

修改core-render.jar源码让itext中文换行

近段时间在使用itext导出报表。导出报表用itext字段的PdfPtable类,没什么大问题。但是导出一篇文章到pdf里面,就需要借助core-render.jar包,但是一行中文过长,不会自动换行,在pdf文件里面把过长的字符给截取,这样很不友好,修改Flying Saucer的源码,解决了这个中文不换行问题。希望能给大家有所帮助。 注意:改包配合itext-2.0.8使用没什么问题,其他版本的itext没尝试过。 Flying Saucer资料可以参考:http://code.google.com/p/flying-saucer/

2013-06-05

mongo的jar驱动jar包

mongoDB的jar驱动程序。 用java文件连接mongoDB的驱动程序。 将jar包导入到lib库里面。

2012-02-09

plsql将复制的文本格式化为in格式

plsql将复制的文本格式化为in('A','B')格式 比如你复制了 10011272 10004335 10010907 10019194 10016917 10002325 10000025 10011272 10010974 10011574 点击ExPaste ('10011272','10004335','10010907','10019194','10016917','10002325','10000025','10011272','10010974','10011574'). 安装后,ExPaste不会自动出现,需要自定义调出来。

2012-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除