自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Git(2)

本篇博客主要两个方面的内容,fork分支同步问题和多次commit合并问题。fork同步方法,怎么去同步主分支的代码或者其他分支代码:配置源仓库地址 git remote add upstream 源仓库地址查看是否添加成功远程仓库 git remote -v使用fetch命令更新,fetch后代码将更新存储在本地的upstream/master...

2019-11-23 15:42:44 119

原创 hive记录中包含换行符时存储格式为textfile导致多行记录问题

在处理hive数据记录时发现orc格式时本来一行记录,但是在转textfile文件时导致多行错误记录;在排查中发现textfile使用‘\n’来识别行数据,数据中包含换行符导致这样的错误。处理方式,一:使用SQL的方式过滤掉这类字符(regexp_replace(column_name,'\n|\t|\r','');二:在处理etl阶段过滤这类字符。...

2019-02-19 11:54:58 3433

原创 datax的数据缺失的一次处理

应用场景:hive to gp 的数据抽取,在实践中发现存在大量的数据缺失,hive数据完整,而往gp抽数后gp数据存在数据缺失的问题。在datax官方github上有人讨论是hive 的orc数据格式的问题。这感觉很坑啊!后面试了很多种数据存储格式依然也存在这样的问题。后面带我的导师,通过经验和尝试的思路发现是hdfs文件存在过大也会产生这样的问题。规避方案是重新均衡hdfs 文件大小,这种规避...

2019-02-15 12:26:45 3469 2

原创 hive 开窗日期类型错位导致无法排序

错误:Underlying error: Primitve type DATE not supported in Value Boundary expression解决方式将date 类型转换成string,cast(column as string)

2019-01-10 11:52:54 470

原创 hive学习中错误总结(二)

错误原因:hive表做了分区,项目需要统计当月的数据,我们将数据按月进行了加工然后做了存储。相当于ODS-->DW-->APP的过程。整个逻辑已经实现,需要做一个工作流的调度,项目组使用的airflow;坑就出现在airflow的调度,让我搞了五个小时(实际太菜),逻辑代码运行一点没问题,放在airflow调度就报错,一度崩溃。每次导数都是静态分区的导数,需要动态传参数,airfl...

2018-11-03 13:33:41 182

原创 大数据之kylin(一)----kylin的搭建分类和多节点的搭建实战

本篇博客主要介绍kylin的搭建方式的分类和部署多节点的方式实战kylin主要作为一种预计算的大数据工具来提高大数据下的查询速度工具,在实际的应用中入门较快,上手容易。具体的相关知识可以参考http://kylin.apache.org/cn/。1,一般在企业中有多种种部署方式,下面做一个简单的介绍:第一种:单列部署(单点部署形式)在已经部署了Hadoop、hive、hbase等的...

2018-09-07 17:18:34 1417 2

原创 编程工具之IDEA----Idea下java环境支持scala

1、对于idea的Scala配置有两种方式,第一种直接在idea的plugins下搜索Scala就可以完成安装(注:这样安装存在两个问题,会自动安装最近版本的Scala,可能导致版本的不兼容问题;同时这样安装会存在国内安装镜像文件巨慢无比,在公司可能是网络限制根本就下载不了,这是可以直接到idea插件官网下载,有点小慢但是比下不了好);第二种,到idea插件官网下载,注意自己的idea版本;2...

2018-09-07 14:39:16 310

原创 大数据之流处理----流处理中的消息投递方式

消息投递中的可达性保证,一般是三种方案分别为:at most once(至少一次),at least once(至多一次),exactly once(恰好一次)。at most once:在消息投递中每个消息投递0次或者1次,存在数据丢失的风险;at least once:保证每个消息会默认投递多次,至少保证有一次被成功的执行,存在消息重复的情况;exactly once:每个消息恰好...

2018-09-07 14:36:04 476

原创 远程服务器项目发布

一下是两种方法:(一)JavaWeb 项目发布三个基本要素:JDK环境,web服务器(例如:Tomcat),数据库(例如:MySQL)注:如果是查询较为频繁数据库中间加一层缓存数据库,例如:redis一般项目通过Maven进行管理,在maven中将项目打包成*.war格式;提取数据.sql文件,没有数据怎么跑,裸奔也没办法啊!这步很重要哦!将.sql上传服务器执行就行了;将

2017-05-23 10:29:03 256

原创 自己的一些感想(1)

在大学期间,读了一个比较一般的大学,学了一个在学校排名倒数的专业计算机(被调剂了还有什么办法,没关系没钱),算是入坑了。曾经有这样一句话:“大学是一片草原,而我们就是一匹匹野马,让沉者更沉,让浮者更浮”,所以这样的环境那就是九分靠自己一分靠运气了。大学老师自己都不知道自己在讲什么,下面学生一片片的倒在上课的课堂上,更或者没去就倒下了。在这样的环境下,那真的是靠自己了,在大学我意识到这样下去真不行,

2017-04-17 08:58:59 152

原创 Git记录(1)

对于项目协同开发,git是很不错的使用,对于一般的开发一般分为以下几个步骤:1,创建本地仓库mkdir your dir2,实例化本地仓库 git init (ls时会有-------git的文件)3,检出项目(你入职的时候项目已经开始了,你需要将项目down下来) git clone path(repository)4,开始自己模块开发,将写出的代码提交缓存区 git a...

2017-04-15 17:34:09 207

原创 HashMap入坑

在实现Java字典形式时,遇见了k,v形式覆盖问题,内心很崩溃。python转到java还真的很多不习惯,最后解决方式为重新定义实例化。问题就解决了。public HashMap> getDigraphNodeMap() { HashMap> nodeLink = new HashMap<>(); TreeSet matirxLabel = new TreeSet<>();

2017-04-12 19:43:30 447

原创 软件重装问题

很多时候会遇到这样一个问题,安装的软件突然无法使用了,一般情况恢复或者重装。如果这个软件里的数据很重要,如:Mysql,这是首选恢复办法,网上一大推自己看看就行。在第二种情况下,软件重装问题,很多时候重装的软件无法使用。这时一般人回事kao神马情况,不行我再试,kao还是不行那我再试,结果尝试若干遍失败想放弃了。哈哈哈!没事,你就做好三不就行。第一:卸载原始软件,删除遗留的和它相关的文档;第二

2017-03-13 21:03:22 265

原创 python install numpy+scipy+matplotlib

本篇文章将讲解python第三方库的安装及本人遇到的一系列问题,主要针对windows版本的安装。首先,在安装第三方版本的时候需要特别注意自己安装python的版本号,我安装的是python2.7——64位,在这里建议大家安装64位,32位存在一个内存限制的问题,如果处理数据量较少则没什么问题,一旦处理数据量较大,则会出现物理内存足够,但为什么还是报内存溢出的错误,这就是版本的问题了。这里将不

2016-12-29 14:48:14 293

原创 Python列表问题解决

在做社交网络分析中,遇到这样一个问题:针对无向图,节点间存在共同的边,1,2)=(2,1)。这时我需要删除重复的一条边,如:(1,2)=(2,1)移除其中的一条。对于列表的操作这里不再累述,网上已经有很多了。这里考虑到直接使用remove方法无法删除原油列表,会导致原列表无法更新的情况。如:list1=[(1,2),(2,1),(2,3)]的列表,for id in list1:

2016-12-26 09:41:38 289

原创 hive学习中错误总结(一)

错误提示:[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expectedat jline.TerminalFactory.cre

2016-05-08 01:04:52 404

原创 Spark和Hadoop的关系

直到现在BAT等一些互联网公司对大数据炒得很火,但很多人并不知道Spark和Hadoop的关系。很大一部分人说Spark会取代Hadoop,当然也有一部分人对其持反对意见。那到底会不会呢?下面我们先分别对Spark和Hadoop进行结构化的分析,然后通过对比分析得出分析。Hadoop主要提供的是:HDFS:分布式存储系统。(Hadoop提供的最重要的东西----灵魂)MR:大数据分布式

2016-02-12 18:53:48 905

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除