公众号【禅与大数据】，欢迎订阅-CSDN博客

原创代码执行步骤跟踪的研究

导语一部分工作原因，一部分觉得收益低，没怎么写博客。在做大数据的一些事情，与其是做事，不如是找虐。趁着最近对自己做了点思考，写点总结。内容还没想好，后续再添。

2021-02-18 08:54:35 164

原创大数据开发中遇到的鬼魅魍魉，清除30%以上经验总结

大数据开发中遇到的鬼魅魍魉，清除50%以上经验总结@TOC导语一部分工作原因，一部分懒，一部分觉得没收益，没怎么写博客。在做大数据的一些事情，与其是做事，不如是找虐。大数据这些开源组件与工具，看上去很美好，实际问题多多，受虐多多。趁着最近对自己做了点思考，写点总结。内容还没想好，后续再添。小鬼山鬼音狱鬼毒鬼鬼城主红邪鬼蛊之鬼炼狱鬼鬼城主宝仙鬼宝塔巨鬼死神鬼...

2021-01-25 21:33:40 207 2

原创使用Spark rdd 开发spark程序

文章目录1.常用的rddrdd的输入和输出，scala版，java版每个rdd函数的使用场景特殊rdd的使用选择reduceByKey,groupByKey,的使用选择collect，count的使用选择总结1.常用的rdd函数说明map(func)返回一个新的分布式数据集，由每个原元素经过func函数转换后组成filter(func)返回一个新的数据集，由经过f...

2019-05-30 12:01:13 389

原创 ThoughtWorks笔试题大致解题思路总结

收到ThoughtWorks的面试邀请，HR电话初面后，说是要做题。给发了3道题，任选一道。ThoughtWorks是什么样的公司呢？外企，听说很牛，什么“敏捷开发模式”就是那公司首创的概念。出的题目也有些奇怪，选取第一道如下：Problem one: TrainsThe local commuter railroad services a number of towns in Kiwi...

2019-01-02 18:57:01 10047 2

原创 spark复习2

包含spark开发流程和常用技术代码

2018-12-04 21:25:12 292

原创大数据采集的几点问题的思考

最近去面试，遇到面试官提到了几个关于“数据采集”方面的问题。一般大数据处理流程的共识是：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。其中，数据采集是第一步。有这么几个情况：（1）日志类型的数据采集；（2）接口类型的数据采集；（3）爬虫数据采集；（4）传感器数据采集等等。。当然有别的分类，这里暂...

2018-12-04 21:10:52 1547

原创 spark集群调优心得

最近公司搞一个spark集群项目,期间会对spark集群进行调优.虽然调优的建议网上有很多,但是通过具体实践,发现不同的场景,调节的参数还是有不一样的地方.现记录一下最近学到的一些实践手段吧.(1)要留一点资源给除spark以外的应用.我们用的是Spark-On-Yarn资源调度,每台机器有24核心,每台机器最大内存有128G,在yarn-site.xml里面,有人很可能把核心数和资源

2018-11-14 10:30:21 1179

原创使用JMC工具对spark 程序调优（一）

spark调优是一个头疼的事，这个疼在什么地方呢？（1）spark将内部几乎完全封装，类似黑箱，不了解内部机理；（2）spark 调优参数众多，参数之间关联很多；（3）spark运行在集群上，本地调试功能有限。...

2018-07-16 11:39:44 750

原创处理大量csv数据和模型数据有关大数据组件选型的例子分析

大数据技术对处理大批量数据和在分布式计算上，较传统技术优势明显。那么，借大数据技术在处理航空数据上是否有用武之地？本文接下来讨论使用大数据组件来处理航空数据。航空数据有的数据以csv文件格式存储，统计分析航空数据有很多潜在价值，尽管有可观的分析价值，但这里仍跟大数据技术扯不上关系。所以，笔者准备从案例的角度，来尝试讨论下自己的观点。案例一假设一个航空公司的某业务一天生成100个...

2018-06-21 21:55:47 2602

原创 spark常见操作系列(3)--spark读写hbase(2)

接着上一篇, 问题(2):scan有scan.setCaching(10000)scan.setCacheBlocks(true)等设定.setCaching ,个人感觉不够用.hbase 默认是在内存里面放一块数据用来读取,所以读取效率比较高,可是,其余大部分数据还是在硬盘中,这个内存数据块的设定和意义,待清晰研究.单节点hbase的写入效率,有人粗估计,在3万-5万,这个...

2018-06-21 21:35:19 2052

原创大量csv数据的查询和计算的技术实现路径分析(2)-HDFS存储查询探讨2

上一篇讲了java split的使用弊端，虽是字符串处理中一个很小的操作，不过却避不开。接下来，主要探讨HDFS存储查询方面的问题和解决思路。随着每天的业务运作，每天会生成很多csv文件，目前csv文件存储在hdfs文件系统里面。在使用csv文件数据时，遇到一个问题: 如何高效查询HDFS中的csv数据？基于HDFS文件系统的特性，笔者经由以前的探讨和一些资料，作了一些思考，如图： ...

2018-06-21 21:30:10 589

原创使用Apache atlas api创建血缘关系

使用Apache atlas api创建血缘关系

2018-05-20 22:34:09 11442 11

原创记一次ajax接收后端大量数据的优化

最近在做前端的一些事情。使用echart绘图。遇到一个问题，就是用ajax 接收后端返回的json数据。测试发现速度很慢，调试发现后端返回的数据有54.7M，ajax接收时间在32-43秒左右，如图：项目使用spring mvc框架，服务端使用@ResponseBody 自动打包 HttpServletResponse的返回内容，return HashMap，返回类型是applicat...

2018-04-22 11:49:24 20219 10

笔者最近参加了2场大数据技术开放活动，在技术分享的时候，发现，2场分享活动，有人不约而同的推荐了Apache atlas 组件，所以，就像介绍一下这个组件。Apache atlas 是个什么样的工具？它有哪些功能和作用？其实，在本人之前的文章中有介绍，它是一个用在hadoop上的数据治理和元数据框架工具。它是基于hadoop平台上，能无缝对接hadoop平台的组件。前端UI默认使用solr5，...

2018-04-14 21:09:20 45312 10

原创大量csv数据的查询和计算的技术实现路径分析(1)

在工作中，会有处理很多数据的场景。比如，用户需求：我有大量数据，（1）我想要高效查询我想要的数据。（2）我想要高效计算出我想要的结果数据。为了存储数据，我们使用的数据存储方式有：mysql，oracle，表；csv文件excel文件hdfs文件系统hbaseredis，ehcache把数据从存储区拿出来作分析，我们使用的数据分析手段有：jav...

2018-04-14 12:23:01 2125

原创记《魅族大数据治理》分享讲座之本人感想分析

昨天参加了魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容,现整理一些如下. 首先,他们整理了一个治理流程,架构图(本人整理,非原版,下文图片亦是如此)如下:然后，依照架构图，大致讲了架构图中的每个模块，以及将模块串联起来的一个管理流程，流程图如下：流程图上面，其中，“主数据管理” 模块是本人根据理解加的，...

2018-04-01 11:54:22 2797

原创 spark常见操作系列(3)--spark读写hbase(1)

spark读写hbase,先写一下hbase的常用操作方式.hbase建表:create 'hbase_test_table', 'info', {NAME=>'info', SPLITALGO => 'HexStringSplit', REPLICATION_SCOPE =>0}, SPLITS => ['S0','S1','S2', 'S3', 'S4'...

2018-03-18 23:23:39 1501

原创 spark常见操作系列(2)--spark读写hadoop

真正开发大数据之前,本人折腾过hadoop,spark组件,其中把之前公司的日志放到hadoop 和hive里面去读写.但实际上,真正开发spark程序,遇到的坑,是十分多的.本篇主要介绍spark读写hadoop.hadoop的读写,有java方式,也有scala方式. 虽scala可以嵌入java代码,并不意味着直接把java 操作工具类放到scala程序就行了. hadoop 一般...

2018-03-10 19:14:58 3003

原创 spark常见操作系列(1)--spark scala 以及hadoop不同版本的api区别

spark常见操作系列做数据处理有一段时间了,现把工作中遇到的问题和处理思路做个整理.文章分为5块,依次是:1. spark hadoop,hbase 版本划分, 以及spark1.5.2,scala2.10.4 与spark2.0, scala2.11版本区别 2. spark读写hadoop 3. spark读写hbase 4. spark广播变量的应用 5. spar...

2018-03-10 16:57:16 2015

原创 Elasticsearch+hbase 实现hbase中数据的快速查询(三)

前2篇介绍了Elasticsearch的安装和工具类,虽然这样能用,但是还留有几个问题,对此有些困扰.多条件查询工具类里面有个get精确查询和search搜索,但是那个只用来查询单一条件,如果查询界面上需要查询多个条件,那这个显然不够用.在网络上搜索了半天,发现没有比较好的java写的api参考,觉得有些奇怪,难道这种场景不常见吗? 官方文档中,有类似搜索api,比如MultiSear...

2018-03-07 23:15:16 8223 3

原创 Elasticsearch+hbase 实现hbase中数据的快速查询(二)

接下来是Elasticsearch (版本5.x)中数据的CRUD 操作,为此,根据ES官网上的资料总结了一个工具类. 具体如下: (1)maven 添加依赖 (2)工具类代码:public class ESClientUtils { protected static Logger logger = Logger.getLogger(ESClientUtils.class); ...

2018-03-05 20:42:30 4035 1

原创通过jupyter远程编写代码,并远程提交到spark集群执行

几个月前折腾了一番jupyter(web 代码编辑器),感觉jupyter在编写某些科学文章是比较灵活.不过几乎是单机版的,在生产环境应用有限.之前因为需要在集群上执行编辑的代码,遂查找资料,又折腾了一番,使得jupyter可以应用于集群环境.我们的需求类似使用者可以写点简单的程序,然后在集群上面执行代码. 程序是python语言的.所以,集群是pyspark集群.在spark包下面,会有pysp...

2018-03-03 18:08:32 6002 1

原创 Elasticsearch+hbase 实现hbase中数据的快速查询(一)

之前虽做了solr-hbase构建二级索引以及快速查询,但是考虑到以后生成的数据可能会很多,一旦到了亿级以上,solr查询效率会渐渐慢下来.老板不满意,又听了几位专家的建议,采用Elasticsearch+hbase 来实现hbase中数据的快速查询.首先,安装Elasticsearch. CDH中没有集成Elasticsearch,所以只好独立安装. 1.下载elasticsearch-...

2018-03-03 15:33:56 7822

原创 solr-hbase二级索引及查询解决方案(二)

上一篇搭建了hbase的二级索引功能,只要hbase中有写数据,其就会自动的增量同步索引. 接下来是根据索引查询hbase中数据. 实测,查询索引数据,确实相当快,main方法测试,7200条数据,只需要1秒.查询hbase数据,同样数量数据,25个列,用了5秒,之前我们在3台集群上测试hbase查询,1万条,用了3秒,这里应该还有提升空间. 一般情况下,如果设置分页,那么这种速度是够用的,...

2018-02-28 22:27:12 509

原创 solr-hbase二级索引及查询解决方案(一)

最近要搞一个查询功能,是把hbase中的数据方便的查询出来.之前根据rowkey的查询方式,尽管有针对性设计过rowkey,有前缀查询,后缀查询,以及正则查询,但是实际上不够用. 参考了网络上的设计,建立二级索引是比较好的思路.于是就以solr存储hbase里面的列索引,实现了这个功能.需要的组件有: 1.hbase 2.solr 3.key-value store indexer ...

2018-02-28 21:41:50 4333 2

原创 java python之间数据交互(使用jython)

最近有个功能需要java与python之间的数据交互,java需要把参数传给python,然后python计算的结果返回给java.于是就写了一个工具类.首先,maven 需要加载jython的依赖.工具类代码如下:import java.util.List;import java.util.Map;import java.util.Properties;import org.apache....

2018-02-27 23:22:04 10344 4

原创 spark查询任意字段,并使用dataframe输出结果

spark查询任意字段,并使用dataframe输出结果

2017-11-27 09:18:04 12195 1

原创安装流行脚本编辑器(jupyter notebook)流程

jupyter notebook是一个流行的轻量的在线代码编辑器,可支持几十种程序语言. jupyter notebook 功能也很丰富,做文档,数据科学分析,计算都非常方便. jupyter notebook在window|linux上都有发行.window安装非常简单,linux安装比较复杂,本人为了安装jupyter notebook花了不少时间,现把教程分享一下.安装python2.7安

2017-11-26 13:24:43 2565

原创用ant自动compile|run|package spark程序

前段时间,需要写一个用户在前端编辑代码,后台自动生成scala程序的例子.其功能类似与web在线写代码,在线执行,出结果.一开始,不知从何下手,经同事提醒,可以用ant来自动编译程序,再结合sh脚本执行新的scala 编译后的程序. 于是折腾了一天,写了一个build.xml编译工具:

2017-11-26 11:38:09 473

转载 spark1.5.2 spark-shell报错：java.util.concurrent.RejectedExecutionException

ERROR util.SparkUncaughtExceptionHandler: Uncaught exception in thread Thread[appclient-registration-retry-thread,5,main]

2017-11-17 14:24:28 2284 3

原创 hive对电商用户订单行为特征分析(二)

hive对电商用户订单行为特征分析

2017-08-16 08:54:45 2596

原创 spark对电商用户订单行为特征分析(一)

最近在整理spark技术的应用,觉得行为特征归类, 相似产品或相似功能推荐这块比较热门. 网上发现一个网上大数据实验室,是厦门大学建立的一个网站,发布一些大数据的知识.其中有一个案例,叫 "淘宝双11数据分析与预测课程案例" ,我就用它练手.实验室网站链接: http://dblab.xmu.edu.cn/blog/spark/案例主要要求如下:对文本文件形式的原始数据集进

2017-08-11 18:47:53 4017

hadoop统计服务器kpi

2017-07-05

用Ext js,Hibernate,Struts2,json,Session,iterator构建的Demo。iterator_jsonDemo2的升级版。

1.用Ext js,Hibernate3,Struts2,json,Session,iterator构建的Demo。2.iterator_jsonDemo2的升级版。iterator_jsonDemo2的链接：http://download.csdn.net/detail/cafebar123/8894139 3.将数据库中数据从后台传到Extjs表现层（自带json相关jar包）。 4.学习ERP和Web的同学可以参考下。 5.自带相关类包，注释详细，供参考。

2015-07-13

一个运用Extjs，Struts2, json，iterator技术构建的iterator_jsonDemo2。将数据从后台传到Extjs表现层。

一个运用Extjs，Struts2, json，iterator技术构建的iterator_jsonDemo2。iterator_jsonDemo1的链接：http://download.csdn.net/detail/cafebar123/8816409 运用了Extjs，Struts2, json，iterator技术，将数据从后台传到Extjs表现层（自带json相关jar包）。注释详细，供参考。 Use Extjs,Struts2, JSON,iterator Technology Demo. Use Extjs,Struts2, JSON,iterator technology, Data to Extjs from the background layer. Comment more, for your reference.

2015-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

hadoop统计服务器kpi

用Ext js,Hibernate,Struts2,json,Session,iterator构建的Demo。iterator_jsonDemo2的升级版。

一个运用Extjs，Struts2, json，iterator技术构建的iterator_jsonDemo2。 将数据从后台传到Extjs表现层。

一个java写的爬虫Demo，可以抓取果壳网的果壳问答栏目中的首页标题，注释详细，供参考。

这是一个后台管理程序的DEMO。具有管理员管理、图片上传管理功能。

一个简单servlet后台管理员管理的系统

一个运用iterator和json技术的实例

一个使用iterator和json技术的实例

一个基于struts的重定向和转发实例

一个extjs表格的实例

一个简单的二级目录树

自制的简易“教师工具”小软件

空空如也

一个运用Extjs，Struts2, json，iterator技术构建的iterator_jsonDemo2。将数据从后台传到Extjs表现层。