- 博客(0)
- 资源 (13)
- 收藏
- 关注
kafka 2.10 linux包
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消费。
2018-02-06
statsvn svn统计工具
StatSVN是一个SVN版本库的静态分析工具,它能生成SVN log日志文件的html报表。这样能大概地评估工作量、开发效率、趋势,帮助项目管理。使用它之前下载SVN的命令行客户端,以便能自动化任务。
2018-02-05
Apache Spark 2.0.2 中文官方文档
关于学习 Spark 的部分,英文好点的话,跟着 Spark 官方文档的英文版走就行了。
如果英语不是很好,可以阅读下由 ApacheCN 组织翻译的 Spark 2.2.0 官方文档中文版。
从概述开始,然后编程指南的快速入门,Spark 编程指南,Spark streaming 一步一步往下走。
文档中附带了一些基础的案例,也附带了相应的代码,可用于基础性学习,一开始不要急着写代码,先看文档,一些基本的概念懂了之后,再开始试着慢慢的写代码,即可入门 。。。
当然,学习 Spark 时最好还是有一些前置技能比较好,比如使用过 Storm 之类的,就更容易上手了。
欢迎提出任何建议,更欢迎加入我们一起来学习,go far,go together.
2018-02-05
Spark MLlib机器学习实践
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
2018-02-05
FileZilla是一个免费开源的FTP
FileZilla是一个免费开源的FTP 客户端软件,虽然它是免费软件,可功能却一点也不含糊,比起那些共享软件来有过之而无不及,是一款优秀的免费软件。
2011-11-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人