宛风轻云-CSDN博客

原创 Git(2)

本篇博客主要两个方面的内容，fork分支同步问题和多次commit合并问题。fork同步方法，怎么去同步主分支的代码或者其他分支代码：配置源仓库地址 git remote add upstream 源仓库地址查看是否添加成功远程仓库 git remote -v使用fetch命令更新，fetch后代码将更新存储在本地的upstream/master...

2019-11-23 15:42:44 119

原创 hive记录中包含换行符时存储格式为textfile导致多行记录问题

在处理hive数据记录时发现orc格式时本来一行记录，但是在转textfile文件时导致多行错误记录；在排查中发现textfile使用‘\n’来识别行数据，数据中包含换行符导致这样的错误。处理方式，一：使用SQL的方式过滤掉这类字符（regexp_replace(column_name,'\n|\t|\r','')；二：在处理etl阶段过滤这类字符。...

2019-02-19 11:54:58 3433

应用场景：hive to gp 的数据抽取，在实践中发现存在大量的数据缺失，hive数据完整，而往gp抽数后gp数据存在数据缺失的问题。在datax官方github上有人讨论是hive 的orc数据格式的问题。这感觉很坑啊！后面试了很多种数据存储格式依然也存在这样的问题。后面带我的导师，通过经验和尝试的思路发现是hdfs文件存在过大也会产生这样的问题。规避方案是重新均衡hdfs 文件大小，这种规避...

2019-02-15 12:26:45 3469 2

原创 hive 开窗日期类型错位导致无法排序

错误：Underlying error: Primitve type DATE not supported in Value Boundary expression解决方式将date 类型转换成string，cast(column as string)

2019-01-10 11:52:54 470

原创 hive学习中错误总结（二）

错误原因：hive表做了分区，项目需要统计当月的数据，我们将数据按月进行了加工然后做了存储。相当于ODS-->DW-->APP的过程。整个逻辑已经实现，需要做一个工作流的调度，项目组使用的airflow；坑就出现在airflow的调度，让我搞了五个小时（实际太菜），逻辑代码运行一点没问题，放在airflow调度就报错，一度崩溃。每次导数都是静态分区的导数，需要动态传参数，airfl...

2018-11-03 13:33:41 182

原创大数据之kylin(一)----kylin的搭建分类和多节点的搭建实战

本篇博客主要介绍kylin的搭建方式的分类和部署多节点的方式实战kylin主要作为一种预计算的大数据工具来提高大数据下的查询速度工具，在实际的应用中入门较快，上手容易。具体的相关知识可以参考http://kylin.apache.org/cn/。1，一般在企业中有多种种部署方式，下面做一个简单的介绍：第一种：单列部署（单点部署形式）在已经部署了Hadoop、hive、hbase等的...

2018-09-07 17:18:34 1417 2

原创编程工具之IDEA----Idea下java环境支持scala

1、对于idea的Scala配置有两种方式，第一种直接在idea的plugins下搜索Scala就可以完成安装（注：这样安装存在两个问题，会自动安装最近版本的Scala，可能导致版本的不兼容问题；同时这样安装会存在国内安装镜像文件巨慢无比，在公司可能是网络限制根本就下载不了，这是可以直接到idea插件官网下载，有点小慢但是比下不了好）；第二种，到idea插件官网下载，注意自己的idea版本；2...

2018-09-07 14:39:16 310

原创大数据之流处理----流处理中的消息投递方式

消息投递中的可达性保证，一般是三种方案分别为：at most once（至少一次），at least once（至多一次）,exactly once（恰好一次）。at most once:在消息投递中每个消息投递0次或者1次，存在数据丢失的风险；at least once:保证每个消息会默认投递多次，至少保证有一次被成功的执行，存在消息重复的情况；exactly once:每个消息恰好...

2018-09-07 14:36:04 476

原创远程服务器项目发布

一下是两种方法：（一）JavaWeb 项目发布三个基本要素：JDK环境，web服务器（例如：Tomcat），数据库（例如：MySQL）注：如果是查询较为频繁数据库中间加一层缓存数据库，例如：redis一般项目通过Maven进行管理，在maven中将项目打包成*.war格式；提取数据.sql文件，没有数据怎么跑，裸奔也没办法啊！这步很重要哦！将.sql上传服务器执行就行了；将

2017-05-23 10:29:03 256

原创自己的一些感想（1）

在大学期间，读了一个比较一般的大学，学了一个在学校排名倒数的专业计算机（被调剂了还有什么办法，没关系没钱），算是入坑了。曾经有这样一句话：“大学是一片草原，而我们就是一匹匹野马，让沉者更沉，让浮者更浮”，所以这样的环境那就是九分靠自己一分靠运气了。大学老师自己都不知道自己在讲什么，下面学生一片片的倒在上课的课堂上，更或者没去就倒下了。在这样的环境下，那真的是靠自己了，在大学我意识到这样下去真不行，

2017-04-17 08:58:59 152

原创 Git记录(1)

对于项目协同开发，git是很不错的使用，对于一般的开发一般分为以下几个步骤：1，创建本地仓库mkdir your dir2，实例化本地仓库 git init (ls时会有-------git的文件)3，检出项目（你入职的时候项目已经开始了，你需要将项目down下来） git clone path(repository)4，开始自己模块开发，将写出的代码提交缓存区 git a...

2017-04-15 17:34:09 207

原创 HashMap入坑

在实现Java字典形式时，遇见了k,v形式覆盖问题，内心很崩溃。python转到java还真的很多不习惯，最后解决方式为重新定义实例化。问题就解决了。public HashMap> getDigraphNodeMap() { HashMap> nodeLink = new HashMap<>(); TreeSet matirxLabel = new TreeSet<>();

2017-04-12 19:43:30 447

原创软件重装问题

很多时候会遇到这样一个问题，安装的软件突然无法使用了，一般情况恢复或者重装。如果这个软件里的数据很重要，如：Mysql，这是首选恢复办法，网上一大推自己看看就行。在第二种情况下，软件重装问题，很多时候重装的软件无法使用。这时一般人回事kao神马情况，不行我再试，kao还是不行那我再试，结果尝试若干遍失败想放弃了。哈哈哈！没事，你就做好三不就行。第一：卸载原始软件，删除遗留的和它相关的文档；第二

2017-03-13 21:03:22 265

原创 python install numpy+scipy+matplotlib

本篇文章将讲解python第三方库的安装及本人遇到的一系列问题，主要针对windows版本的安装。首先，在安装第三方版本的时候需要特别注意自己安装python的版本号，我安装的是python2.7——64位，在这里建议大家安装64位，32位存在一个内存限制的问题，如果处理数据量较少则没什么问题，一旦处理数据量较大，则会出现物理内存足够，但为什么还是报内存溢出的错误，这就是版本的问题了。这里将不

2016-12-29 14:48:14 293

原创 Python列表问题解决

在做社交网络分析中，遇到这样一个问题：针对无向图，节点间存在共同的边，1,2）=（2,1）。这时我需要删除重复的一条边，如：（1,2）=（2,1）移除其中的一条。对于列表的操作这里不再累述，网上已经有很多了。这里考虑到直接使用remove方法无法删除原油列表，会导致原列表无法更新的情况。如：list1=[(1,2),(2,1),(2,3)]的列表，for id in list1:

2016-12-26 09:41:38 289

原创 hive学习中错误总结（一）

错误提示：[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expectedat jline.TerminalFactory.cre

2016-05-08 01:04:52 404

原创 Spark和Hadoop的关系

直到现在BAT等一些互联网公司对大数据炒得很火，但很多人并不知道Spark和Hadoop的关系。很大一部分人说Spark会取代Hadoop，当然也有一部分人对其持反对意见。那到底会不会呢？下面我们先分别对Spark和Hadoop进行结构化的分析，然后通过对比分析得出分析。Hadoop主要提供的是：HDFS：分布式存储系统。（Hadoop提供的最重要的东西----灵魂）MR：大数据分布式

2016-02-12 18:53:48 905

u012105422的博客