自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 idea JRebel 自动编译 idea fatal error initializing plugin odpsstudio

JRebel 自动编译 (自动安装 jrebel for ideal 结果打不开工程 卸载才行)https://www.jianshu.com/p/d177316890e3出现异常idea fatal error initializing plugin odpsstudio解决cmd 中mkdir copy522 cd /Users/penghaoyou/Library/A...

2019-02-21 16:23:35 840

转载 只是图谱地址

http://lib.csdn.net/home 

2018-08-23 17:58:14 199

原创 剑指offer学习记录

我面试了 三家公司,在面试的过程中遇到了很多的算法问题,在选择事业发展的过程中我发现自己喜欢上了算法,因此更加确定选择大数据方向,学习剑指offer的算法开始。学了一部分 继续git 代码地址https://github.com/penghaoyou5/SwordOfferJava.githttps://github.com/penghaoyou5/SwordOfferJava.githttps:...

2018-03-17 08:19:26 203

原创 python 爬取天眼查数据

没啥事帮朋友忙,直接抓包解析请求git地址:https://github.com/penghaoyou5/DemoTianYanCha.git

2018-03-02 11:03:10 5882

原创 大数据日志分析系统-python脚本利用es聚合计算

    之所以不进行es聚合实时查询一个是查询数量过大,另一方面是实时查询要保存大量的原始日志,现在只有5台es data节点,不能承受这么大的原始日志量。原始日志保留一定的天数要进行删除。    当然也有的数据只是查询几天内的数据就直接用es的自身聚合能力了        python部分脚本示例:    def main_statistic(domain,userId):    body = ...

2018-02-28 15:43:31 1087

原创 大数据日志分析系统-hdfs日志存储

先补充spark的博客链接,没在目录显示hdfs简介:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。项目需求:使用hdfs进行客户需要的指定域名时间打包日志 以及原始日志存储进行离线计算遇到的问题:在这一步遇到的一个重要的问题:问题:从kafka中日志直接按域名时间分类存入hdfs时速度不够,主要时数据量太大,当数据量减...

2018-02-28 05:43:17 5130

原创 大数据日志分析系统-spark进行日志计算

spark简介:Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。需要满足的项目需求:用spark进行实时统计,从kafka中获取数据,流式计算每分钟一次将计算结果存入es,供客户进行查询。说一次啊这里不用原来直接存入es的方式进行聚合或者存入es之后再进行计算的原因:1.直接存入es进行聚合的话es中会随着时间的推移保存大量的原始日志,es存入数据量太大的数据会产生性能问...

2018-02-27 16:52:17 1752

原创 大数据日志分析系统-elasticsearch

elasticsearch简介Elasticsearch 是一个分布式、可扩展、实时的搜索与数据分析引擎。两种架构的es配置差不多选用es存储结果数据的理由:1.曾经考虑过hbase选用,也进行过真正的测试,用hbse的问题是这种键值对的数据库,不一定能够保证唯一的键(虽然能把时间戳加入key中),而且es本身只存储结果数据完全符合线上需求,并且es自身带有聚合功能,可以多个条件查询而不只是键值对...

2018-02-27 15:43:15 3334

原创 大数据日志分析系统-logstash

logstash简介Logstash 是一个开源的数据收集引擎,它具有备实时数据传输能力。它可以统一过滤来自不同源的数据,并按照开发者的制定的规范输出到目的地。logstash-2.2.2的配置:从logstash-forward        到kafka的配置ubuntu@sp1:~/logstashBeforeChangeConf$ cat /home/ubuntu/logstash-2.2...

2018-02-27 14:52:57 3132 1

原创 大数据日志分析系统-缓存组件kafka

kafka简介是一种高吞吐量的分布式发布订阅消息系统,当数据量不稳定,数据量大的时候想到它就对了。zookeeper简介是一个分布式的,开放源码的分布式应用程序协调服务,很多地方用到, 最常见的是为集群提供基础的、高可用HA(High Availability)服务是kafka集群的基础依赖,同时也是hadoop系列中实现HA的基础组件。实现HDFS的NamaNode和YARN的ResourceM...

2018-02-27 13:20:27 1105

原创 大数据日志分析系统边缘节点日志上传-flume,filbeat,logstash-forward

上传组件简介:它们都是很好的资源上传工具,直接指定目录、文件就可以上传,通用功能不多说,区别除了与本公司产品兼容性好以外:filbeat elastic(ELK)官网推荐:占用资源少flume    apache官网产品:可定制性强logstash-forward  已经过期的产品不多说。因为需求简单,只是边缘节点日志上传最终选用了filbeat 正确格式原始日志示例:1512231002.276...

2018-02-27 12:03:02 668

原创 大数据日志分析系统-介绍 二-整体架构介绍

    首先说:技术为了需求而服务,公司的需求就是进行日志分析。        公司现状:CDN公司(可以百度一下),边缘节点服务器会产生很多用户请求日志,要对日志进行各种分析和原始日志打包,最终分析结果进行收费、让客户可以获取请求日志各种分析结果、为客户进行原始日志按域名按天按小时分割打包。    先说满足这样的大数据实时计算需要的几个基本组件(一定要注意版本问题,java大数据机器间通信用的是...

2018-02-25 08:55:26 1568

原创 大数据日志分析系统-介绍

刚从公司离职-需要求职新公司 对做过的项目做一个记录(这个记录会有一个完整的流程实现,但是具体安全细节与各种组件的基础学习不进行介绍,所有ip均不是真实ip做点保密喽),这个记录主要是每一步的实战记录,不进行逻辑分析。经过了CDN公司日志分析实战日志日志分析系统:1.原始日志量: 每小时高的是否达到了 45303452条日志(四千五百多万条原始日志) ,某天日志量(这个随便选的)42211...

2018-02-24 16:42:36 4045

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除