自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

huzuoliang

大数据,机器学习

  • 博客(35)
  • 资源 (2)
  • 收藏
  • 关注

原创 Java中使用 Long 表示枚举类

Java中使用 Long 表示枚举类在日常的开发过程中,很多时候我们需要枚举类(enum)来表示对象的各种状态,并且每个状态往往会关联到指定的数字,如: private enum Color { RED(11), GREEN(21), YELLOW(31), BLACK(160); ... };或者用枚举类来表示一系列状态的转变关系: enum W

2017-06-29 18:27:51 1316 1

原创 Structured Streaming 之窗口事件时间聚合操作

Structured Streaming 之窗口事件时间聚合操作Spark Streaming 中 Exactly Once 指的是: * 每条数据从输入源传递到 Spark 应用程序 Exactly Once * 每条数据只会分到 Exactly Once batch 处理 * 输出端文件系统保证幂等关系Structured Streaming 返回的是 DataFrame/DataSet,

2017-06-23 18:04:12 6350 1

原创 Structured Streaming 输入输出

Structured Streaming 输入输出输入SparkSession.readStream() 返回一个 DataStreamReader 接口对象,可以通过该对象对输入源进行参数配置,最后返回DataFrame/DataSet对象。输入源有三种File : csv,json,text,textFile 等val csvDF = spark .readStream .optio

2017-06-23 18:00:24 1505

原创 Spark2.11 两种流操作 + Kafka

Spark2.11 两种流操作 + KafkaSpark2.x 自从引入了 Structured Streaming 后,未来数据操作将逐步转化到 DataFrame/DataSet,以下将介绍 Spark2.x 如何与 Kafka0.10+整合Structured Streaming + Kafka引包groupId = org.apache.sparkartifactId = spark-

2017-06-23 17:59:58 7836 1

原创 DataFrame/DataSet 操作

DataFrame/DataSet 操作Databricks 不止一次提到过希望未来在编写 Spark 应用程序过程中,对于结构化/半结构化数据,使用 Datasets(DataFrame 的扩展) 来代替 RDD 操作,这主要源于 Datasets 以下几个方面: * 充分利用了 Catalyst 编译优化器 和 Tungsten 执行引擎优化程序 * 程序运行速度更快,以原始的二进制的方

2017-06-23 17:59:31 1513

原创 DataFrame/DataSet 创建

DataFrame/DataSet 创建读文件接口import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .ge

2017-06-23 17:58:49 1877

原创 Ubuntu16.04配置搜索域

搜索域:在搜索地址时,自动在后面加上搜索域,如xxx,搜索域设置为aaa.bbb,则ping xxx将变成ping xxx.aaa.bbb,那么如何配置搜索域呢?修改resolv.conf文件 ubuntu的dns服务器信息放在/etc/resolv.conf中,在上述文件中添加搜索域则加入search xxx.xxx;如果要配置dns服务器地址,如202.112.125.53,则在上述文件中

2017-04-19 19:33:19 6824

原创 如何安装uncrustify

下载 git clone https://github.com/uncrustify/uncrustify.git进入uncrustify目录 cd uncrustify创建build目录 mkdir build使用cmake cmake ..安装 make install

2017-04-08 13:55:25 1757 1

转载 Java 引用

在 jdk 1.2 及其以后,引入了强引用、软引用、弱引用、虚引用这四个概念。网上很多关于这四个概念的解释,但大多是概念性的泛泛而谈,今天我结合着代码分析了一下,首先我们先来看定义与大概解释(引用类型在包 java.lang.ref 里)。  1、强引用(StrongReference)    强引用不会被GC回收,并且在java.lang.ref里也没有实际的对应类型。举个例子来说:

2017-03-11 16:35:33 245

原创 ScheduledThreadPoolExecutor Java

Java提供的Time类可以周期性地或者延期执行任务,但是有时我们需要并行执行同样的任务,这个时候如果创建多个Time对象会给系统带来负担,解决办法是将定时任务放到线程池中执行。Java的ScheduledThreadPoolExecutor类实现了ScheduledExecutorService接口中定义的以不同方法执行任务的方法。Executors类提供了工厂方法创建ScheduledThrea

2017-03-08 21:52:49 414

原创 Linux shell变量

下面是常用的Linux shell变量:-$0 Shell本身的文件名 -$1~$n 添加到Shell的各参数值。$1是第1参数、$2是第2参数… -$$ Shell本身的PID(ProcessID) -$! Shell最后运行的后台Process的PID -$? 最后运行的命令的结束代码(返回值) -$- 使用Set命令设定的Flag一览 -$* 所有参数列表。如”$*”用

2017-02-27 14:49:36 336

原创 private Java 有点意思

public class aaa { private int a = 1; public void c(aaa a1, aaa a2) { boolean b = a1.a == a2.a; } public static void main(String[] args) { aaa a = new aaa(); Syste

2017-02-27 11:14:15 508

转载 hadoop文件压缩格式

1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,运行mapre

2017-02-26 12:05:13 644

原创 spark.eventLog.dir和spark.history.fs.logDirectory的区别

spark.eventLog.dir是记录Spark事件的基本目录,如果spark.eventLog.enabled为true。 在此基本目录中,Spark为每个应用程序创建一个子目录,并在此目录中记录特定于应用程序的事件。 用户可能希望将其设置为统一位置,如HDFS目录,以便历史记录服务器可以读取历史记录文件。spark.history.fs.logDirectory用于为历史记录程序提供文件系统

2017-02-25 22:13:18 10160

原创 分类问题中的“维数灾难”

个人总结:维数灾难:随着维数的增加,算法的效果并没有更好,而是超过某一个阈值后,变差。问题主要可以从三个方面进行分析:1.维数增多会导致样本密度降低(n个样本在边长为w的p维空间中,样本的密度为:n/pow(w,p)),导致结果容易过拟合。2.维数增多会带来高维空间数据稀疏化问题(在p维空间中,为了保持k的拟合覆盖率,需要pow(1/p,x)=k样本数),导致结果容易过拟合。3.维

2017-01-20 22:38:24 3398

原创 matplotlib核心概念

matplotlib核心概念

2017-01-11 21:43:03 3035 1

原创 Pandas中ix,loc,iloc有什么区别?

直接看例子:>>> data = pd.Series(np.arange(10), index=[49,48,47,46,45, 1, 2, 3, 4, 5])>>> data49 048 147 246 345 41 52 63 74 85 9dtype: int64>>> data.iloc[:3]

2017-01-10 23:34:30 25698

原创 hive2.01+mysql5.5

hive2.01+mysql5.5环境搭建

2017-01-05 17:12:11 670

原创 ubuntu中将java环境由安装版的openjdk替换为tar版的jdk

ubuntu中将java环境由安装版的openjdk替换为tar版的jdk1.安置好你的tar版的jdk2.运行命令: sudo gedit ~/.bashrc从而用gedit编辑~/.bashrc来设置环境变量:export JAVA_HOME=/your/path/to/jdkexport JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOM

2016-12-27 15:40:59 666

原创 MapReduce作业提交流程

Job Submission1.客户端调用job.submit方法提交作业,该方法内部创建一个JobSubmitter对象实例,该实例对象调用submitJobInternal方法提交作业。当作业成功提交后,客户端调用的waitForCompletion方法将一直询问作业的进度信息并打印。作业提交的内部处理过程:首先通过RPC调用向 resource manager申请一个Application

2016-11-15 23:46:22 3358

原创 SLICK+SQLITE+SCALA

本项目成立的原因主要是为了使用SCALA操作SQLITE数据库,完成日期:2015.12.17,所用工具版本皆为官方最新,源码名称:***_sqlite_codeGen svn:svn://192.168.1.30/ganghang_sqlite SQLite JDBC SQLite共有三种JDBC驱动 SQLite Wrapper by Christian http://www.ch-w

2016-01-25 12:24:54 1840

原创 SVN操作简介

本指导文档作为简单搭建及使用SVN的指导手册,如需更复杂的功能,详细信息请参考: http://subversion.apache.org/ Subversion使用 环境搭建 系统环境:CentOS6.7 安装方式:yum install (源码安装容易产生版本兼容的问题) 安装软件:系统自动下载SVN软件 1.检查已安装版本 检查是否安装了低版本的SVN [root@zck /

2016-01-25 12:16:09 679

原创 OpenBLAS安装手册

BLAS是基本的矩阵库,OpenBLAS是高性能多核BLAS库,是GotoBLAS2 1.13 BSD版本的衍生版,Lapack是矩阵线性运算库,实现了多种矩阵的运算,且底层使用BLAS。CentOS安装OpenBLAS指南,目的是为了加快集群操作矩阵的速度.

2016-01-25 12:09:48 19371 1

原创 失控阅读笔记自然之流变

均衡即死亡如果没有变化,沙漠就会退化。多变的降雨量是沙漠存续的关键,每年降雨量的情况稍有不同,才能使每个物种略微脱离平衡态。生态系统:超有机体,抑或是身份作坊一个生态系统内部成员间的连接远比有有机体内部各成员的连接更为易变和短暂。长远开来,生态群是临时性的网络。因为进化是这样的一个充满符号信息的过程,所以我们现在能人为创造并加以控制,但因为生态变化受到有机体本体的约束,只有当我们能更容易的模仿出生物

2015-07-20 11:25:13 1042

原创 失控--阅读笔记共同进化

生命之无法理喻之处生物的基因模式并没有具体规定小猫如何抓老鼠,但是提供了学习机制和游戏的旨趣,因此是老鼠将捕鼠的要领教给了小猫。共用进化是相互影响的物种间交互的进化演变。进化就是不断适应环境以满足自身的需求。共同进化,是更全面的进化观点,就是不断适应环境以满足彼此的需求。共生关系中的各方行为不必对称或对等。尽管一方所得就意味着另一方所失,但是从总体上来说双方多是受益者,因此契约继续生效。我们之所以看

2015-07-20 11:09:30 957

原创 失控--阅读笔记组装复杂性

生物–机器的未来生命正在变成人造的,一如人造的正在变得有生命,它们都在成为某种精彩而奇特的东西。 尽管对我们来说火的功能已经了然,但当时的生态学家还不清楚火星是草原的重要组成部分。“今日原上草,明日炉中烧。”用火和软体种子恢复草原你付出的越多,得到的越多。经济学家称其为“报酬递增法则”,或滚雪球效应。如何同时做好一切人工智能专家丹尼希利斯在人类的大拇指身上看到了类似的故事,借助拇指的抓握,灵巧的手

2015-07-18 11:34:53 753

原创 失控--阅读笔记群蜂思维

群蜂之道:分布式管理《作为有机体的群蜂》,无论从哪个总要且科学的层面上来看,昆虫群体都不仅仅是类似于有机体,它就是一个有机体。他写到:“就像一个细胞或者一个人,它表现为一个一元整体,在空间中保持自己的特征以抗拒解体……既不是一种事物,也不是一个概念,而是一种持续的波涌或进程”。群氓的集体智慧群体被看作是一种自适应的技巧,适用于任何分布式的活系统,无论是有机的还是人造的。认知行为的分散性大脑一定经过划

2015-07-17 12:40:51 1317

原创 失控--阅读笔记有心智的机器

有心智的机器快捷,廉价,失控大脑和身体的构建方式是相同的,自下而上。与乡镇开始类似,你从简单行为–本能或反射–开始。先生成一小段能完成的简单工作的神经回路,接下来让大量类似的回路运转起来。之后,复杂行为从一大堆有效的反射行为中脱颖而出,你也就此构建出第二个层级。 1.先做简单的事。 2.学会准确无误地做简单的事。 3.在简单任务的成果上添加新的活动层级。 4.不要改变简单的事物。 5.让新

2015-07-17 11:42:14 974

原创 失控--阅读笔记人造与天生

新生物文明造物所生的自认王国和人类建造的人造国度正在融为一体。机器,正在生物化;而生物,正在工程化。从某种程度上来说,是现有技术的局限性迫使生命与机械联姻,为我们提供有益的帮助,我们的未来是技术性的,但这并不意味着未来的世界一定会是灰色冰冷的钢铁世界。相反,我们的技术所引导的未来,朝向的正是一种新生物文明。生物逻辑的胜利生物工程的源动因,就是希望充分控制有机体,以便对其进行改造。所有结构复杂的东西都

2015-07-14 20:12:59 574

原创 算法导论(中文版)--chapter 1

插入排序算法: void sort_algo::insert_sort(int arr[],const int len){ for(int j = 1;j < len;++j){ int key = arr[j]; int i = j-1; while(i >= 0 && arr[i] > key){ arr[i+1]

2015-04-19 13:54:51 795

转载 机器学习算法——LR(逻辑回归)

本系列文章用于汇集知识点,查漏补缺,面试找工作之用。数学公式较多,解释较少。1.假设2.sigmoid函数:3.假设的含义:4.性质:5.找一个凸损失函数6.可由最大似然估计推导出单个样本正确预测的概率为只是3两个式子合并在一起的表示方法整个样本空间的概率分布为取

2015-04-17 21:32:40 3963

转载 Machine learning: what and why?(摘录)

machine learning as a set of methods that can automatically detect patterns in data, and then use the uncovered patterns to predict future data, or to perform other kinds of decision making under uncer

2015-03-13 14:19:38 649

原创 centos7升级内核

解决centos7开机启动cup 80%--100%

2015-03-12 12:18:42 885

转载 CentOS7安装完后修复Window7启动项

安装CentOS 7后,原来的Windows 7不会出现在启动项目里,网上查找一番后解决办法是修改grub.cfg文件。因为CentOS 7已采用新式的grub2系统,所以需要进入/boot/grub2目录后使用vim编辑grub.cfg文件。:网络方案1:将下面这段Windows 7的启动项声明:### BEGIN /etc/grub.d/30_os-prober ###m

2015-03-11 14:36:22 2242

原创 如何才能实现文本框的自动提示功能呢

1.先导入css样式2.导入所需的js:已上传3.代码如下: $(function() { var data = "LXY JGXU RJGC JX CL CJ JT TX".split(" "); $("#autocomplete").autocomplete(data, { minChars : 0, matchContains : true, mustMatc

2012-07-15 14:08:16 396

Hadoop源代码分析(完整版).pdf

介绍Hadoop源码 想学Hadoop必备

2014-10-17

自动上传所需js css

自动上传所需js css

2012-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除