heming621-CSDN博客

原创 spark中的map和flatMap

（一）因为Spark很多语法及其思想都是借鉴Scala的，所以我们先看看Scala中map()与flatMap()函数的区别，其中顺便介绍flatten方法：（a）使用flatten方法把一个包含列表的列表转变为一个单列表。创建列表的列表： scala> val lol = List(List(1,2), List(3,4)) lo

2016-12-01 10:36:56 2708

原创关于Scala中的 polymorphic expression cannot be instantiated to expected 错误

如果只需要一个不可变的集合，可以这样子创建，无需 import 引入：scala> val set = Set(1,2,3)set: scala.collection.immutable.Set[Int] = Set(1, 2, 3)如果想用可变的Set，必须import引入它，或者用原路径：scala> val s = collection.mutable.S

2016-11-30 10:20:19 1895

原创 java.lang.IllegalArgumentException: java.net.UnknownHostException: user 错误解决

在spark-shell环境运行官网实例，每次涉及action操作，总出现错误：java.lang.IllegalArgumentException: java.net.UnknownHostException: user有的说修改hosts、有的说将$HADOOP_HOME/etc/hadoop下面的hdfs-site.xml和core-site.xml拷贝到$SPA

2016-11-24 10:30:50 22930 4

原创蛇形数组实现

关于蛇形数组的实现：#include using namespace std;int main(){ int n; int a[1000][1000]; int var = 1; int i,j; cin>>n; for(int i = 0; i<=n+1; i++) for(int j = 0; j<=n+1; j++)

2016-04-03 22:18:03 2086

原创一道关于二级指针传参的问题

下面代码有什么问题？void GetMemory( char *p ){ p = (char *) malloc( 100 );}void Test( void ){ char *str = NULL; GetMemory( str ); strcpy( str, "hello world" ); prin

2016-03-03 12:04:11 1003

翻译 Mesos框架简介

翻译自Open source datacenter computing with Apache Mesos框架：Mesos由一个master进程和framework组成，master进程管理运行在集群节点上的slave daemon，framework是在这些slave节点上运行任务的计算框架（注：可以看作是Hadoop、Spark、Storm、MPI等计算框架）。master通过对计

2015-12-25 19:11:30 1278

原创关于错误 libstdc++.so.6:cannot open shared object file 和 libstdc++.so.6: wrong ELF class 的解决和思考

在使用gcc编译C++程序时，运行出错：# g++ -std=c++11 -o117exercise.exe 117exercise.cpp# ./ 117exercise.exe./117exercise.exe: error while loadingshared libraries: libstdc++.so.6:cannot open shared object file:

2015-11-19 14:40:33 14808

原创 C++中局部静态变量的调用问题

1、问题背景是这样的，在学习《C++ Primer》的时候，学到 “6.1.1 局部对象”中“局部静态变量”知识，例子：size_t count_called(){ static size_t ctr = 0; return ++ctr;}int main(){ for(size_t i=0; i!=10; i++) cout

2015-09-28 10:48:26 1758

原创 find和grep命令实例

find命令语法：find [path...] [expression]find命令参数：-print、-exec、-ok （详细解释参考链接1和链接2）find命令选项：-name、-perm、-prune 、-user 、-group、-mtime -n +n 、-nogroup 、-nouser、-newer file1 ! file2 、-type [b

2015-09-20 18:39:33 410

转载【Spark】RDD操作详解4——Action算子

本质上在Actions算子中通过SparkContext执行提交作业的runJob操作，触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类：无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作，不返回RDD和Array，而是返回Uint。图中，foreach算子通过用户自定义函数对每个数据

2015-09-17 17:02:29 490

原创脚本手动执行无误，crontab自动执行出错

今天设置的crontab任务没有执行，查看日志发现：java：command not found这样的错误但是，我用java -version查看，是可以显示java的版本信息的，也就是说我安装了java，但crontab运行的时候没有鸟它。所以问题为：我的脚本手动执行是没有出错的，但是设置为crontab自动运行该脚本确实出错了。解决办法：设置cronta

2015-07-26 00:37:29 1713

转载 Linux 指令歷史紀錄（History）的操作教學與範例以及 Linux中神奇的叹号命令！

转自：http://blogger.gtwang.org/2013/10/mastering-linux-command-line-history.html，如有侵权，联系删除。這裡教大家如何善用 Linux 指令歷史紀錄，讓你在使用終端機的命令列時更有效率。如果你是一個 Linux 的老手，你應該會非常習慣在桌面上開啟終端機，靠著鍵盤來進行主要的工作，像我個人平常的工作就

2015-06-11 09:52:47 642

原创 MapReduce过程详解

用户提交MapReduce作业到Master节点上。由Master节点将M个Map任务和R个Reduce任务分配到空闲的节点上运行。输入文件被分成固定大小（默认为64 MB，用户可以调整）的M个分片（split）。Master节点会尽量将任务分配到离输入分片较近的节点上执行，以减少网络通信量。在Map阶段，被分配到Map任务的节点以输入分片作为输入，对于每条记录，会执行map函数，

2015-06-03 08:39:11 804

转载 Spark RDD API详解(一) Map和Reduce

转自：https://www.zybuluo.com/jewes/note/35032RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是

2015-05-31 10:59:35 315

本来都不想写这节了，因为很麻烦，例子要多，且要有代表性，而且也知道大家都烦了。可是这节却是我们平时经常使用的，因为MySQL用的最多的就是对数据的操作，包括插入数据，更新数据，修改数据，删除数据。可是表才是存放数据的地方，一个表建的好坏直接影响你操作的性能，所以我认为有必要来简单介绍一下这节，MySQL对表的复制，修改和删除。包括从复制一个表结构到另一个表，修改表结构(例如：增加删除字段，增加索引

2015-05-27 15:35:37 398

转载 FP-Growth算法介绍

参考了几篇文章关于FP-Growth的看法，融合一下，以供参考，如有转载侵权，请联系删除。====================（1）转自：http://www.bjt.name/2013/09/association-rules/ 关联规则（association rules）是一种广泛使用的模式识别方法，比如在购物篮分析（Market basket Analysis）

2015-05-22 16:45:28 11828

转载大白话解析模拟退火算法

优化算法入门系列文章目录（更新中）：　　1. 模拟退火算法　　2. 遗传算法一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一种简单的贪心搜索算法，该算法每次从当前解的临近解空间中选择一个最优解作为当前解，直到达到一个局部最优解。爬山算法实现很简单，其主要缺点是会陷入局部最优解，而不一定能搜索

2015-05-13 21:43:31 294

转载 [转载]Runnable接口与Thread类的区别

原文地址：Runnable接口与Thread类的区别作者：king什么时候让线程实现Runnable接口，什么时候让线程继承Thread类？JDK帮助文档中的原话：Runnable 接口应该由那些打算通过某一线程执行其实例的类来实现（不明白是啥意思）孙鑫老师的原话：当不需要改变一个线程中除了run()方法以外的其他方法时，

2015-05-08 10:28:16 489

转载 ssh后台运行 linux重定向及nohup不输出的方法

linux重定向及nohup不输出的方法先说一下linux重定向：0、1和2分别表示标准输入、标准输出和标准错误信息输出，可以用来指定需要重定向的标准输入或输出。在一般使用时，默认的是标准输出，既1.当我们需要特殊用途时，可以使用其他标号。例如，将某个程序的错误信息输出到log文件中：./program 2>log。这样标准输出还是在屏幕上，但是错误信息会输出到log文件中。另

2015-04-30 22:37:39 1758

转载 linux中计划任务的用法at和cron

所谓计划任务就是指某一个时间系统自动做一件事情如输入指令或者保存文件等等计划任务分两种：一次性计划任务命令（at）和周期性计划任务命令（crontab）at的用法：如果当前时间为2013年3月2日at 18：00 2013-03-3>w > /root/who.txt>init 0>(输入ctrl+d结束编辑) 此时将意味着我们的系统将在第二天

2015-04-30 16:18:11 586

转载推荐系统开源软件列表汇总和点评

以下转自：http://blog.csdn.net/cserchen/article/details/14231153#tc_qz_original=691102124我收集和整理的目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system)，并附上了个人的一些简单点评（未必全面准确），这方面的中文

2015-02-27 09:37:13 282

转载 SSH 原理与运用

SSH 原理与运用SSH 是每一台 Linux 电脑的标准配置。随着 Linux 设备从电脑逐渐扩展到手机、外设和家用电器，SSH 的使用范围也越来越广。不仅程序员离不开它，很多普通用户也每天使用。SSH 具备多种功能，可以用于很多场合。有些事情，没有它就是办不成。本文是我的学习笔记，总结和解释了 SSH 的常见用法，希望对大家有用。什么是SSH简单说，SSH

2015-02-08 15:35:21 337

原创 ssh无密码登陆的一个问题：DN到ND不需要密码登录，ND到DN需要密码登录

已经做的工作(a)(b)(c)(a)机器三台的hostname是：master116、master117、master118(b)先设置hosts，把对应的IP和hostname加进去：192.168.0.116 master116192.168.0.117 slave117192.168.0.118 slave118(c)关闭防火墙#chkconfig i

2015-02-08 15:29:32 581

转载 Hadoop基准测试

测试对于验证系统的正确性、分析系统的性能来说非常重要，但往往容易被我们所忽视。为了能对系统有更全面的了解、能找到系统的瓶颈所在、能对系统性能做更好的改进，打算先从测试入手，学习Hadoop几种主要的测试手段。本文将分成两部分：第一部分记录如何使用Hadoop自带的测试工具进行测试；第二部分记录Intel开放的Hadoop Benchmark Suit: HiBench的安装及使用。1. H

2015-02-06 10:32:04 639

转载 HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

一、概述手机图片或者像淘宝这样的网站中的产品图片特点：（1）、大量手机用户同时在线，执行上传、下载、read等图片操作（2）、文件数量较大，大小一般为几K到几十K左右 HDFS存储特点：（1）流式读取方式，主要是针对一次写入，多次读出的使用模式。写入的过程使用的是append的方式。（2）设计目的是为了存储超大文件，主

2015-02-04 17:28:16 429

原创 Linux命令之awk学习笔记

一、awk命令：root@www ~]# awk '条件类型 1{动作 1} 条件类型 2{动作 2} ...' filename二、awk 后面接两个单引号并加上大括号 {} 来设定想要对数据进行的处理动作。在每一行的每个字段都是有变量名称的，那就是 $1, $2... 等变量名称。$0 代表『一整列资料』的意思～如图：

2015-01-31 12:06:04 317

转载使用mahout fpgrowth算法求关联规则

首先，这篇文章的内容大部分取自国外一篇博客Finding association rules with Mahout Frequent Pattern Mining，写这个出于几个原因，一原文是英文的；二该博客貌似还被墙了，反正我是用了goagent才看到的；三我简化了其实验内容，单纯的用数字表示item了。　　首先是实验环境jdk >= 1.6mavenhadoop (>1.

2015-01-16 22:33:57 575

转载 Linux下安装MySQL

（一）linux下使用yum安装mysql 1）安装查看有没有安装过：# yum list installedmysql*# rpm -qa | grep mysql*查看有没有安装包：# yum list mysql*安装mysql客户端：# yum installmysql安装mysql 服务器端：# yum installmysql-ser

2015-01-08 14:03:24 348

原创 hadoop fs {args}、hadoop dfs {args}、hdfs dfs {args}三者的区别

这是摘自stackoverflow的话：Following are the three commands which appears same but have minute differenceshadoop fs {args}hadoop dfs {args}hdfs dfs {args}hadoop fs FS relates to a

2014-12-21 15:11:18 1161

转载 date.gettime()返回的是什么？

（一）java.util.Date ----------- date.getTime()返回的是什么？问题： ------------- Date date = new Date(); System.out.println(date.getTime()); 输出结果是1210745780625 编译时间当时时间大概是2008年5.14好14.1

2014-12-20 20:37:13 114129 3

原创结构化数据、半结构数据和非结构数据的总结

结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等所谓半结构化数据，就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，HTML文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一

2014-12-17 21:47:59 6294 1

转载 Spark技术内幕：究竟什么是RDD

RDD是Spark最基本，也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间，可以看这篇译文：http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码，分析RDD的实现。第一个问题，RDD是什么？Re

2014-12-16 22:18:06 472

转载 Lambda表达式让Spark编程更容易

近日，Databricks官方网站发表了一篇博文，用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出，Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁，但由于缺少函数表达式，Java API有些冗长。因此，随着Java 8增加了lambda表达式，他们更新了Spark的API。Spark 1.0将提供Java 8

2014-12-11 16:45:32 686

转载 HBase in Action-第二部分Advanced concepts-(3)非Java客户端【REST、Thrift】

HBase ShellHBase shell使用起来最方便，进入HBase shell控制台即可使用。[plain] view plaincopy$ $HBASE_HOME/bin/hbase shell 常见操作有create(创建表)/put(插入或更新数据)/get(根据rowkey查询)/scan(范围查询)/del

2014-12-05 09:16:04 69

转载 CMD命令进入某个目录

1.开始->运行->CMD2.进入某个磁盘，直接盘符代号：如D：，不用CD 命令切换3.进入除根录以下的文件夹 cd 文件夹路径例如我要进入 E:/Program Files/PHP 就输入 E：回车注：不能在一打开CMD的时候运行CD E:/Program Files/PHP，需要先进入磁盘（若一打开CMD的时候运行CD E:/Program Files

2014-12-03 10:40:28 641

原创在Eclipse中使用Maven3遇见“Missing artifact ***”错误的一个解决方案

在Eclipse中，使用eclipse-java-luna-SR1-win32-x86_64+maven3.2.3+SVN的过程中，遇见如下错误：Missing artifact commons-beanutils:commons-beanutils:jar:1.7.0pom.xml/guangximobileline 1Maven Dependency Problem出现

2014-12-03 10:05:51 7292

转载 C语言 gets（）和scanf（）函数的区别

scanf( )函数和gets( )函数都可用于输入字符串，但在功能上有区别。若想从键盘上输入字符串"hi hello"，则应该使用__gets__函数。gets可以接收空格；而scanf遇到空格、回车和Tab键都会认为输入结束，所有它不能接收空格。char string[15]; gets(string); /*遇到回车认为输入结束*/scanf("%s",string); /*遇到

2014-11-29 09:34:03 372

转载 Apriori算法的简单描述

（一）Apriori 算法 Apriori算法是种最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集(简称频集)，也常称为最大项目集。在Apriori算法中，寻找最大项目集(频繁项集)的基本思想是：算法需要对数据集进行多步处理。第一步，简单统计所有含

2014-11-26 09:09:18 4338

转载 I/O技术

I/O技术编程IOCPU说: 请读取一个字节CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 读完了CPU说: 你读到了什么I/O说: 0x35中断驱动IOCPU说: 请读

2014-11-25 12:29:58 405

转载将Excel导入mySql

假如要把如图所示的Excel表格导入到MySql数据库中，如图：数据导入MySql - 一切随缘 - 海阔天空" src="http://cdn.verydemo.com/inc/test.jsp?url=http%3A%2F%2Fimg.blog.163.com%2Fphoto%2F98TnUMGA-vZARuORDb8b2A%3D%3D%2F3740520965509071548.j

2014-11-18 21:49:59 493

机器学习实践指南：案例应用解析 (大数据技术丛书)_含目录_可复制

《机器学习实践指南：案例应用解析》是机器学习及数据分析领域不可多得的一本著作，也是为数不多的既有大量实践应用案例又包含算法理论剖析的著作，作者针对机器学习算法既抽象复杂又涉及多门数学学科的特点，力求理论联系实际，始终以算法应用为主线，由浅入深以全新的角度诠释机器学习。全书分为准备篇、基础篇、统计分析实战篇和机器学习实战篇。准备篇介绍了机器学习的发展及应用前景以及常用科学计算平台，主要包括统计分析语言r、机器学习模块mlpy和neurolab、科学计算平台numpy、图像识别软件包opencv、网页分析beautifulsoup等软件的安装与配置。基础篇先对数学基础及其在机器学习领域的应用进行讲述，同时推荐配套学习的数学书籍，然后运用实例说明计算平台的使用，以python和r为实现语言，重点讲解了图像算法、信息隐藏、最小二乘法拟合、因子频率分析、欧氏距离等，告诉读者如何使用计算平台完成工程应用。最后，通过大量统计分析和机器学习案例提供实践指南，首先讲解回归分析、区间分布、数据图形化、分布趋势、正态分布、分布拟合等数据分析基础，然后讲解神经网络、统计算法、欧氏距离、余弦相似度、线性与非线性回归、数据拟合、线性滤波、图像识别、人脸辨识、网页分类等机器学习算法。此书可供算法工程师、it专业人员以及机器学习爱好者参考使用。

2017-08-24

IBM数据生成器（Seq）

IBM数据生成器，seq类型，适合用于关联分析生成事务数据库，方便快捷；其中类似T40I10D100K的数据就是通过IBM数据生成器生成的。使用方法：bin/seq_data_generator seq [options]

2017-03-27

互联网女皇2016年趋势报告新浪科技编译

互联网女皇2016年趋势报告新浪科技编译看看2016互联网趋势是怎样定位自己选择更好的风口和方向

2016-06-02

数据挖掘十大算法

《世界著名计算机教材精选：数据挖掘十大算法》详细介绍了在实际中用途最广、影响最大的十种数据挖掘算法，这十种算法是数据挖掘领域的顶级专家进行投票筛选的，覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。《世界著名计算机教材精选：数据挖掘十大算法》对每一种算法都进行了多个角度的深入剖析，包括算法历史、算法过程、算法特性、软件实现、前沿发展等，此外，在每章最后还给出了丰富的习题和精挑细选的参考文献，对于读者掌握算法基本知识和进一步研究都非常有价值，对数据挖掘、机器学习和人工智能等学科的课程的设计有指导意义。

2016-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

机器学习实践指南：案例应用解析 (大数据技术丛书)_含目录_可复制

IBM数据生成器（Seq）

互联网女皇2016年趋势报告 新浪科技编译

数据挖掘十大算法

Python自动化运维 技术与最佳实践 [刘天斯著][机械工业出版社][2014.12][291页]

《深入理解大数据》一书的源代码

云计算安全研究

An Approach to Optimized ResourceScheduling Algorithm for Open-source .pdf

集体智慧编程 中文（含目录）

Perl语言入门(第四版).pdf

Perl语言入门_中文版_第六版.pdf

lingo9.0破解版.zip

空空如也

互联网女皇2016年趋势报告新浪科技编译

Python自动化运维技术与最佳实践 [刘天斯著][机械工业出版社][2014.12][291页]

集体智慧编程中文（含目录）