qq_26091271-CSDN博客

转载 flume

http://blog.csdn.net/column/details/es-flume.html

2017-08-24 19:50:57 345

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

1 shuffle原理　　1.1 mapreduce的shuffle原理　　　　1.1.1 map task端操作　　　　1.1.2 reduce task端操作　　 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决　　 2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决

2017-08-22 17:28:58 572

转载 MySQL数据库设计总结

规则1：一般情况可以选择MyISAM存储引擎，如果需要事务支持必须使用InnoDB存储引擎。注意：MyISAM存储引擎 B-tree索引有一个很大的限制：参与一个索引的所有字段的长度之和不能超过1000字节。另外MyISAM数据和索引是分开，而InnoDB的数据存储是按聚簇(cluster)索引有序排列的，主键是默认的聚簇(cluster)索引，因此MyISAM虽然在一般情况下，查询性能比In

2017-08-20 21:46:34 375

转载实时处理Kafka发来的日志信息

package com.trigl.spark.streaming import java.text.SimpleDateFormat import com.trigl.spark.util.{DataUtil,LauncherMultipleTextOutputFormat}

2017-08-14 20:00:53 2204

转载 JVM基础流程

JVM一直是java知识里面进阶阶段的重要部分，如果希望在java领域研究的更深入，则JVM则是如论如何也避开不了的话题，本系列试图通过简洁易读的方式，讲解JVM必要的知识点。运行流程我们都知道java一直宣传的口号是：一次编译，到处运行。那么它如何实现的呢？我们看下图：java程序经过一次编译之后，将java代码编译为字节码也就是class文件，然后在不同的操作系统上

2017-08-14 18:08:03 295

转载 kafka 高级API和低级API

高级 APIproducepackage com.sinoiov.kafka.test;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import kafka.serializer.StringEnc

2017-08-14 18:04:41 7066 1

转载 BP神经网络（经验公式）

今天来讲BP神经网络，神经网络在机器学习中应用比较广泛，比如函数逼近，模式识别，分类，数据压缩，数据挖掘等领域。接下来介绍BP神经网络的原理及实现。 Contents 1. BP神经网络的认识 2. 隐含层的选取 3. 正向传递子过程 4. 反向传递子过程 5. BP神经网络的注意点 6. BP神经网络的

2017-07-08 20:18:33 17272 2

转载 Hbase优化

服务端1.hbase.regionserver.handler.count：rpc请求的线程数量，默认值是10，生产环境建议使用100，也不是越大越好，特别是当请求内容很大的时候，比如scan/put几M的数据，会占用过多的内存，有可能导致频繁的GC，甚至出现内存溢出。2.hbase.master.distributed.log.splitting：默认值为true，建

2017-04-08 10:05:52 364

转载 Hbase 备份方案

1、Hbase中的备份策略有哪些，各有什么特点？ hbase中的数据备份策略有两种：关闭集群进行全备份；在线对集群进行备份。1、进行关机备份时，必须全部关闭Hbase集群，或者disable所有表，然后通过distcp命令将Hbase目录下的内容复制到另外或者同一个集群的不同目录就可以了。2、在线备份，可以通过CopyTable 命令将被内容复制到另一张表中；或者导出

2017-04-06 21:32:44 589

转载 Hbase恢复误删数据

1.hdfs的回收站机制客户有时会误删一些数据，在生产环境下，误删数据会造成非常严重的后果。在hdfs上有一个回收站的设置，可以将删除的数据存在目录”/user/$/.Trash/”中，设置回收站的参数如下：fs.trash.interval=0 以分钟为单位的垃圾回收时间，垃圾站中数据超过此时间，会被删除。如果是0，垃圾回收机

2017-04-06 21:29:33 5498

转载 Hbase数据恢复方案

1 HBase数据路由1、从ZooKeeper中获取-ROOT- Region所在的RegionServer2、向-ROOT- Region所在的RegionServer发送Scan –ROOT-的RPC请求，来获取.META. Region 所在的位置。下图为-ROOT- Region里的具体内容3、向.META. R

2017-04-06 21:28:35 2282

转载特征选择

特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，我们经常不管三七二十一，选择一种自

2017-04-06 20:36:49 398

转载泛型

泛型是Java中一个非常重要的知识点，在Java集合类框架中泛型被广泛应用。本文我们将从零开始来看一下Java泛型的设计，将会涉及到通配符处理，以及让人苦恼的类型擦除。泛型基础泛型类我们首先定义一个简单的Box类：public class Box { private String object; public void set(Strin

2017-03-30 22:01:15 294

转载 Impala 教程

Set Up Some Basic .csv TablesImpala 表指向已存的数据文件查看 Impala 表结构查询 Impala 表数据加载与查询的例子加载数据查询例子例子：检查表的内容例子：聚合与连接例子: 子查询, 聚合和连接例子: INSERT 查询将外部分区表指向 HDFS 目录结构Impala 与 Hive 之间互为前后台交叉连

2017-03-30 19:33:58 549

转载 logstash配置

logstash是一个数据分析软件，主要目的是分析log日志。整一套软件可以当作一个MVC模型，logstash是controller层，Elasticsearch是一个model层，kibana是view层。首先将数据传给logstash，它将数据进行过滤和格式化（转成JSON格式），然后传给Elasticsearch进行存储、建搜索的索引，kibana提供前端的页面再进行搜

2017-03-28 11:19:06 474

转载 linux下elasticsearch 安装、配置及示例

http://blog.csdn.net/sinat_28224453/article/details/51134978

2017-03-28 09:47:54 308

转载 JVM 内存区域

内存区域 Java虚拟机在执行Java程序的过程中会把他所管理的内存划分为若干个不同的数据区域。Java虚拟机规范将JVM所管理的内存分为以下几个运行时数据区：程序计数器、Java虚拟机栈、本地方法栈、Java堆、方法区。下面详细阐述各数据区所存储的数据类型。程序计数器（Program Counter Register）

2017-03-21 21:47:26 213

转载 hive数据倾斜（2）

map/reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完，此称之为数据倾斜。1.万能膏药：hive.groupby.skewindata=tru

2017-03-09 10:29:28 277

转载 hive 数据倾斜

1.数据倾斜原因a.大表（2.8G）与小表关联（580K）b.大表（2.8G）与大表（3.0G）关联首先谈论大表与小表的关联导致数据倾斜问题实例如下：大表数据格式：小表数据格式：关联语句hive>select * from report_tour_spot_detail s join repo

2017-03-09 10:25:45 317

转载模拟退火算法

模拟退火算法是用来求解最优化问题的算法。比如著名的TSP问题，函数最大值最小值问题等等。接下来将以如下几个方面来详细介绍模拟退火算法。 Contents 1. 模拟退火算法认识 2. 模拟退火算法描述 3. 费马点问题求解 4. 最小包含球问题求解 5. 函数最值问题求解 6. TSP问题求解

2016-12-02 11:48:41 340

转载简单线性回归的随机梯度下降算法实现：Linear Regression - SGD

object sgdDemo{ def main(args: Array[String]): Unit = { val featuresMatrix: List[List[Double]] = List(List(1, 4), List(2, 5), List(5, 1), List(4, 2))//特征矩阵

2016-11-28 22:09:24 818

转载 spark jion

1. 自连接假设存在如下文件：[root@bluejoe0 ~]# cat categories.csv 1,生活用品,02,数码用品,13,手机,24,华为Mate7,31234512345每一行的格式为：类别ID，类别名称，父类ID现在欲输出每个类别的父类别的名称，类似于SQL的自连接，注意到join的外键其实是父类ID。首先生成“父类ID->子类I

2016-11-25 22:26:00 270

转载 hadoop源码阅读环境配置

环境及工具如下：1、系统：windows72、eclipse版本：eclipse-jee-mars-1-win323、jdk版本：1.74、maven版本：3.3.35、protoc版本：2.5.06、hadoop：2.7.2这些环境或者工具的下载、安装及使用在网上有丰富的资料，我就不再多提啦，在这儿我只啰嗦一句，那就是如

2016-11-14 22:18:05 281

转载 Ubuntu16.04+CUDA8.0+caffe配置

经过两天坚持不懈，终于在Ubuntu16.04系统上将caffe成功配置。过程中踩过无数个坑，遇到很多错误，幸运的是这些错误都解决了，因此撰写该博客记录caffe的配置过程，以及对配置过程中遇到的错误提供解决办法，避免今后再配置caffe时又踩坑。电脑配置系统：Ubuntu16.04GPU:NVIDIA GTX1080安装过程1.安装相关依赖项sud

2016-11-09 09:56:35 427

模拟退火算法来源于固体退火原理，将固体加温至充分高，再让其徐徐冷却，加温时，固体内部粒子随温升变为无序状，内能增大，而徐徐冷却时粒子渐趋有序，在每个温度都达到平衡态，最后在常温时达到基态，内能减为最小。根据Metropolis准则，粒子在温度T时趋于平衡的概率为e-ΔE/(kT)，其中E为温度T时的内能，ΔE为其改变量，k为Boltzmann常数。用固体退火模拟组合优化问题，将内能E模拟为目标函数

2016-11-08 22:27:13 428

转载模拟退火算法

模拟退火算法是用来求解最优化问题的算法。比如著名的TSP问题，函数最大值最小值问题等等。接下来将以如下几个方面来详细介绍模拟退火算法。 Contents 1. 模拟退火算法认识 2. 模拟退火算法描述 3. 费马点问题求解 4. 最小包含球问题求解 5. 函数最值问题求解 6. TSP问题求解

2016-11-07 17:14:29 1637

转载深度学习案例

如果你急需使用一张照片，但是这张照片分辨率很低。没关系，深度学习算法已经能够为低分辨率的照片提高分辨率。首先来看一下效果： Github上有两个案例供大家参考： https://github.com/alexjc/neural-enhance https://github.com/alexjc/neural-enhance深度学习系统也能做到“有感情的朗读课文”了，说不准比

2016-11-04 21:21:37 533

转载类的加载过程分析

类从.java文件到实际加载到内存中，实际上是这样的一个过程：.java文件 -> 通过你的JDK环境相关指令编译 -> .class文件 -> JVM初始化之后，如果有类的执行、调用等相关操作，JVM就会将.class文件加载到内存中，并开始下面的一系列处理：（链接->初始化）一、关于ClassLoader首先我们要搞清楚一点，ClassLoader是Java用于

2016-11-03 22:18:33 677

转载 Spark API

RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作 Atio

2016-11-03 22:14:26 279

转载机器学习的正则化

1. The Problem of Overfitting1还是来看预测房价的这个例子，我们先对该数据做线性回归，也就是左边第一张图。如果这么做，我们可以获得拟合数据的这样一条直线，但是，实际上这并不是一个很好的模型。我们看看这些数据，很明显，随着房子面积增大，住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠

2016-11-02 22:39:00 270

转载 Spark构建分类模型

以逻辑回归模型举例介绍完整的分类模型构建过程。数据集下载：http://www.kaggle.com/c/stumbleupon该数据集是关于网页中推荐的页面是短暂存在还是可以长时间流行的一个分类问题，目标值-1表示长久，0表示短暂。首先将数据第一行删除，通过管道保存到以train_noheader.tsv命名的文件中1

2016-11-01 22:08:07 1311

转载 ALS推荐算法在Spark上的优化--从50分钟到3分钟

从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G, 但训练时间加上预测的时间需要50多分钟, 而业务的要求是在15分钟左右, 远远达不到实时推荐的要求, 因此, 我们与业务侧一起对Spark应用进行了优化.另外提一下, 该文最好与之前我写的另一篇blog 一起看, 因为一些细节我不会再在该文中描述

2016-11-01 21:04:29 861

转载协同过滤

http://blog.csdn.net/pztyz314151/article/details/51982313

2016-11-01 18:48:37 443

转载最小二乘法

1.最小二乘法的背景这种东东的来源，比较容易找到而且比较靠谱的途径自然是wiki百科了，以下部分的内容来自wiki百科： 1801年，意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯

2016-10-30 22:24:39 318

转载机器学习算法

1.C4.5算法。C4.5算法与ID3算法一样，都是数学分类算法，C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断，而C4.5采用的是增益率。详细介绍链接：http://blog.csdn.net/androidlushangderen/article/details/423958652.CART算法。CART算法的全称是分类回归树算法，他是一个二元分类，采用

2016-10-17 19:49:08 289

转载 Hbase solr 二级索引

背景：某电信项目中采用HBase来存储用户终端明细数据，供前台页面即时查询。HBase无可置疑拥有其优势，但其本身只对rowkey支持毫秒级的快速检索，对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方案，但是这些方案要么太复杂，要么效率太低，本文只对基于Solr的HBase多条件查询方案进行测试和验证。原理：基于Solr的HBase多条件查询原理很简单，

2016-10-14 11:16:39 883

转载 Hdfs 压缩

文件的压缩有两大好处：1、可以减少存储文件所需要的磁盘空间；2、可以加速数据在网络和磁盘上的传输。尤其是在处理大数据时，这两大好处是相当重要的。　　下面是一个使用gzip工具压缩文件的例子。将文件/user/hadoop/aa.txt进行压缩，压缩后为/user/hadoop/text.gz1 package com.hdfs; 2 3 import java.io.

2016-10-08 10:30:13 277

转载 hadoop 压缩（1）

1 gzip压缩优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。缺点：不支持split。应用场景：当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个g

2016-10-08 10:24:52 210

转载 hive HQL

Hive提供了很多的函数，可以在命令行下show functions罗列所有的函数，你会发现这些函数名与mysql的很相近，绝大多数相同的，可通过describe function functionName 查看函数使用方法。hive支持的数据类型很简单就INT(4 byte integer),BIGINT(8 byte integer),FLOAT(single precision)

2016-10-06 11:48:07 305

转载 shell 命令

1、脚本之间传递参数 "1.sh"的脚本，接受参数。如下，如果有一个参数则赋值个sourceFile这个变量，否则用默认值。 Shell代码 #!/bin/bash LANG=en_US.UTF-8 #get parameters sourceFile="/data/log/abc" if [ $# == 1 ] th

2016-10-06 11:46:10 527

空空如也

空空如也