自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 linus命令行实时打印时间戳

while true;sleep 0.01;done。

2023-09-01 14:30:21 121

原创 全球地图geojson数据下载

下载路径https://gadm.org/download_country_v3.html

2020-08-13 11:56:17 8129 3

原创 Flink消费kafka数据消费一部分后就卡住了,原因排查

最近写flink消费kafka数据的时候,一直出现消费一部分数据成功后,后面的数据就不消费了,开始一直认为是kafka数据阻塞或者是数据单条过单导致的(之前用storm消费kafka出现过单条数据10M的情况),所以一直在怀疑是不是kafka的问题,我将所有代码注释掉只留消费kafka的代码,发现数据既然正常消费了,why?原因在我的代码中使用了异步IO (AsyncDataStream)...

2020-03-30 17:46:44 6382 1

原创 一、Flink 应用开发模块

一.:用开发模块应1、项目构建设置2、基础api概念3、Datastream api4、Dataset api(batch)5、Table Api& SQL6、数据类型以及序列化7、管理执行8、类库

2020-03-11 10:02:24 395

原创 flink学习路线模块分类

flink学习分为三个模块:一.:应用开发模块1、项目构建设置2、基础api概念3、Datastream api4、Dataset api(batch)5、Table Api& SQL6、数据类型以及序列化7、管理执行8、类库二: 部署运维模块1、集群与部署2、高可用(HA)3、状态与容错4、配置参数5、Memory configuration6、生成就绪...

2020-03-11 09:21:17 611

原创 flink分布式运行时环境、词汇表

Job Managers、Task Managers、客户端(Clients)jobmanagers(也称masters)协调分布式计算,负责调度任务、协调checkpoints、协调故障恢复等,每个job至少有一个jobmanager,高可用部署下会有多个jobmanager,其中一个为leader,其余为standby状态。TaskManagers(也称为 workers)执行 dataf...

2020-03-10 16:59:03 130

原创 hdfs TEXTFILE和PARQUET 格式推送数据到mysql

首先清理mysql目标表sqoop eval -driver com.mysql.jdbc.Driver \--connect jdbc:mysql://****:3306/basicdata?characterEncoding=UTF-8 \--username root \--password '****' \--query "TRUNCATE TABLE DAILY_RATES...

2020-03-07 12:00:10 554

原创 linux /var/log/ 目录下日志格式类型

debug  ##有调试信息的,日志通信最多/var/log/message 系统信息日志,包含错误信息等 /var/log/secure 系统登录日志 /var/log/cron 定时任务日志 /var/log/maillog 邮件日志 /var/log/boot.log 系统启动日志...

2019-10-15 17:22:38 479

原创 Linux系统内存占用90%以上——解决方法

Linux系统内存占用90%以上——解决方法 </h2> <div class="postbody"> 问题:[root@dbserver01 zx_epp_db]# free -m total used free shared buffers cac...

2019-09-02 16:47:15 3189

转载 通用数据库连接工具DBeaver

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 ...

2019-08-24 07:58:57 1673

原创 在CDH集群安装Flink

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 ...

2019-08-22 17:25:24 2123

原创 数仓建设过程中DB层增量到ODS层情况解析

to_date(days_sub(NOW(), 1)) 前一天日期背景:每5个小时抽取一次oracle里面6个小时内的数据到DB层,抽完之后,将数据增量到ODS层DB层是textfile文件表,ODS层是parquet按天dt分区的表,每个dt里面存的是增量数据,总ODS层表示一份全量数据增量过程中有两种情况,能生成唯一键和没有唯一键的情况1、对于有唯一键的数据我们...

2019-08-07 11:17:36 1097

原创 本地eclipse执行代码 hdfs数据写入elasticsearch中报错

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V at org.apache.hadoop.io.nativeio.NativeIO$W...

2019-07-05 11:01:40 154

原创 提升github的下载速度

对于国内的用户,下载github上的代码可能比较慢,可以在/etc/hosts中增加如下配置,可以显著提升github的下载速度151.101.72.133 assets-cdn.github.com151.101.73.194 github.global.ssl.fastly.net192.30.253.113 github.com11.238.159.92 git.node...

2019-06-18 14:46:33 1202 1

原创 java 读取hdfs文件,注意事项

昨天在写java读取hdfs文件的时候一直报错java.io.IOException: No FileSystem for scheme: hdfs,这个问题纠结了很长时间(尝试添加core-site.xml,hdfs-site.xml,map-site.xml.等等)都尝试了,还是失败,最终问题原因找到了在于https://www.cnblogs.com/justinzhang/p/49...

2019-06-18 14:06:46 6990

原创 impala执行任务,出现错误情况分析过程

[2019-06-14 06:41:37,995] {bash_operator.py:110} INFO - ERROR: ExecQueryFInstances rpc query_id=ad436a66e8edf461:1f40b0a200000000 failed:Failed to get minimum memory reservation of 108.00 MB on daem...

2019-06-14 14:57:32 7413

原创 neo4j使用

导入数据/opt/neo4j-community-3.5.3/bin/neo4j-import --into /opt/neo4j-community-3.5.3/data/databases/graph.db --id-type string --nodes:Bom /opt/neo4j-community-3.5.3/import/Bom.csv --relationships:ReShi...

2019-06-04 17:05:50 110

转载 hue解决下载10万行的限制

二、问题原因:Hue默认配置原因,默认现在行数为10万行,列数为100列注意:应该以hue管理员账户登录,否则看不到配置 三、解决方案:修改hue所在机器的默认配置后,重启hue即可[root@cdh-001 ~]# find / -name beeswax     查找配置文件所在路径,选择src那个路径vi /opt/cloudera/pa...

2019-05-31 16:26:05 603

转载 Java实现基于token认证

随着互联网的不断发展,技术的迭代也非常之快。我们的用户认证也从刚开始的用户名密码转变到基于cookie的session认证,然而到了今天,这种认证已经不能满足与我们的业务需求了(分布式,微服务)。我们采用了另外一种认证方式:基于token的认证。一、与cookie相比较的优势:1、支持跨域访问,将token置于请求头中,而cookie是不支持跨域访问的;2、无状态化,服务端无需存...

2019-05-23 18:42:48 301

转载 Spring MVC风格的restful接口开发

项目的目录结构如下:1.流程图略。。 2.服务端代码①实体类package com.bjsxt.model; import java.io.Serializable; public class Person implements Serializable{ /** * */ private static final long ser...

2019-05-13 07:55:20 808

转载 java web,从零开始,一步一步配置ssm(Spring+SpringMVC+MyBatis)框架

原文:https://blog.csdn.net/wzj0808/article/details/53791922版权声明:本文为博主原创文章,转载请附上博文链接!1、安装JDK:安装之后要配置环境变量,在系统变量里:新建变量名JAVA_HOME,变量值C:\Program Files\Java\jdk1.8.0_77;新建变量名CLASSPATH,变量值.;%...

2019-05-11 06:51:27 240

转载 关于ES字符串类型(Text vs keyword)的选择

关于ES字符串类型的选择ElasticSearch 5.0以后,string类型有重大变更,移除了string类型,string字段被拆分成两种新的数据类型:text用于全文搜索的,而keyword用于关键词搜索。ElasticSearch字符串将默认被同时映射成text和keyword类型,将会自动创建下面的动态映射(dynamic mappings): { ...

2019-05-10 09:18:06 866

转载 hadoop跨集群之间迁移HDFS数据

Hive跨集群迁移数据工作是会出现的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等。1. 迁移hdfs数据至新集群hadoop distcp -skipcrccheck -update hdfs://xxx.xxx.xxx.xxx:8020/user/risk hdfs://xxx.xxx.xxx.xxx:8020/user/-skipcrccheck 因本次迁移...

2019-05-05 17:31:42 903

原创 elasticsearch unassigned错误解决

elasticsearch 重启后出现了elasticsearch Unassigned 异常出现这个问题的原因是表明该数据分片的异常,那么需要重启这个数据分片1、首先走命令行,查看目前有哪些es节点分片有问题curl -s "http://localhost:9200/_cat/shards" | grep UNASSIGNED2、2、查看节点为master的节点...

2019-04-18 09:30:30 9935

原创 Elasticsearch查询优化方案

资料来源:http://developer.51cto.com/art/201903/593835.htm?mobile1、集群规划 Nodes 之间做读取分离 Master 的配置:这样 Master 不参与 I、O,从数据的搜索和索引操作中解脱出来,专门负责集群的管理工作 node.master: true node.data: fals...

2019-04-17 14:00:10 1101

原创 com.cloudwise.toushibao包找不到 模拟数据生成器

original-simulatedata-generator-0.0.1.jarsimulatedata-generator-0.0.1.jar<dependency> <groupId>com.cloudwise.toushibao</groupId> <artifactId>simulatedata-genera...

2019-04-16 14:09:00 1276

原创 linux服务器之间 ssh 免密配置

hadoop1、hadoop2 相互免密hadoop1上:设置免密码登录SSH 生成秘钥,切换至/root/.ssh/ssh-keygen -t rsa将秘钥发至远程服务器: ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected] ...

2019-04-10 14:45:52 115

转载 ssh配置免密码登录

1.Hadoop中为什么要配置免密码登录最近在学习Hadoop,在集群中,Hadoop控制脚本依赖SSH来执行针对整个集群的操作。例如,某个脚本能够终止并重启集群中的所有守护进程。所以,需要安装SSH,但是,SSH远程登陆的时候,需要密码验证,集群中数千台计算机,数千台计算机都需要手工输入密码,这是不太现实的,所以,就需要配置SSH无密码登录。2.环境Hado...

2019-04-03 19:08:56 11990 1

原创 解决方案直接强制更新软连接:

linux 无法进入vi /etc/profile在命令行终端执行:export PATH=/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin今日cdh集群搭建,原先这些服务器有一个集群,删除了,这次重新建一个新的版本cdh集群,结果输入hadoop,无法识别报错command not foundcdh集...

2019-03-28 16:50:00 3598

原创 工作小记录

linux 无法进入vi /etc/profile在命令行终端执行:export PATH=/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin

2019-03-28 15:38:29 68

原创 sqoop 导入数据导出数据jdbc找不到或者版本问题

sqoop jdbc.jar 放入三个目录下 /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/lib/sqoop/jdcb.jar /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/lib/sqoop/lib/jdcb.jar /usr/local/j...

2019-03-28 09:03:32 1246

原创 impala c3p0 nginx 连接池 负载均衡

首先配置spring中配置c3p0 <!-- c3p0配置nginx,nginx随机连接hadoop4/hadoop5/hadoop8/hadoop9/hadoop10 --> <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" destroy-method="cl...

2019-03-26 10:53:00 423

原创 flink 源码编译 异常处理

跳过测试、qa插件和javadoc以加速构建,默认会吧hadoop2 的支持编译:mvn clean install -Dmaven.test.skip=true -Dfast错误一:错误二:手动安装缺失的包到本地仓库错误三:错误4:错误5:...

2019-03-20 11:55:17 1018

原创 flink知识笔记

windows类型count Windowstime window: tumbling window (翻滚窗口,无重叠) sliding window(滑动窗口,有重叠) session window (类型与web编程里的session,以不活动间隙作为分隔)各种Time event time (事件产生事件) ingestion time(摄取事件,e...

2019-03-15 13:00:45 171

转载 解决每次进入命令都要重新source /etc/profile后,Java等命令才能生效

在Ubuntu中其实是有几个profile这样的文件存在的,我们通常将环境变量设置在/etc/profile这个文件中,这个文件是全局的。看了Ubuntu中几个文件的简要介绍你就明白了。/etc/profile:在登录时,操作系 统定制用户环境时使用的第一个文件 ,此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行。/etc /environment:在登录时操作系统使用...

2019-03-08 17:09:56 3540

转载 大数据技术扫盲,你必须会的这些点

虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识,寻找自身的不足,查漏补缺非常重要。****今天小编给大家带来的是绝对的干货!以下是我自己这些年爬过的那些坑。在大数据开发这一块来说还算是比较全面的吧!废话不多说,直接上干货!**1、Java编程技术Java编程技术是大数据学习的基础,Ja...

2019-03-05 08:52:57 188

转载 Hdfs 数据块丢失处理

1、查看节点、hdfs、丢失的数据块 命令:hadoop dfsadmin -report用这个命令可以快速定位出哪些节点down掉了,HDFS的容量以及使用了多少,以及每个节点的硬盘使用情况。当然NameNode有个http页面也可以查询,但是这个命令的输出更适合我们的脚本监控dfs的使用状况;具体如图:[root@66666logs]# hdfs dfsadmin -r...

2019-03-04 16:21:54 3463

转载 CentOS 7安装Teamviewer 12

CentOS 7安装Teamviewer 121 下载teamviewer 12的rpm包  方法一:访问官网 https://www.teamviewer.com/en/download/linux/  方法二:wget https://download.teamviewer.com/download/teamviewer.i686.rpm2 使用yum安装teamviewer的...

2019-02-23 20:07:55 334

原创 VNC在线离线安装

一、VNC(除)在线安装:1.安装tigervncyum updateyum install tigervnc-server离线安装:1.安装tigervncrpm -ivh tigervnc-1.1.0-24.el6.src.rpmrpm -ivh tigervnc-server-1.1.0-24.el6.x86_64.rpm2.关闭防火墙service iptable...

2019-01-30 17:49:54 4839

原创 impala使用过程中concat 字段拼接中的坑

impala 使用的时候concat 做字段拼接的时候对于int类型的字段拼接,                               需要将int先转为string类型cast(a.transaction_id as string)另外如果拼接的字段为null,那么拼接之后整个字段都为null,需要将null字段先转为空字符串,用ifnull处理                ...

2019-01-18 16:34:25 12695

hadoop2.6,hadoop.dll、winutils.exe下载

64位 hadoop2.6,hadoop.dll、winutils.exe下载

2017-11-09

pycharm windows spark 环境的安装

在windows下配置spark环境,并读取hdfs文件,anconda spark pycharm

2017-10-19

hadoop2 winutils下载

hadoop2 winutils下载 用于hadoop环境搭建时候,放置hadoop bin目录下面

2017-10-19

微信公众号二次开发java版URL验证,以及自定义菜单设置

微信公众号二次开发java版URL验证,只需填写AppID(应用ID),AppSecret(应用密钥),以及token,即可完成验证,以及自定义菜单设置

2015-08-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除