fansy1990-CSDN博客

翻译 Spark SQL: Relational Data Processing in Spark

Spark SQL： Relational Data Processing in SparkSpark SQL : Spark中关系型处理模块说明: 类似这样的说明并非是原作者的内容翻译，而是本篇翻译作者的理解（可以理解为批准），所以难免有误，特注！当然翻译也可能有误！DateContents2019.03.12First Edition2019.04....

2019-04-07 09:44:56 2473 2

翻译 Coursera TensorFlow 基础课程-week4

Using Real-world Images参考：Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning仅供学习、交流等非盈利性质...

2019-03-23 18:05:37 1790 2

翻译 Coursera TensorFlow 基础课程-week3

Enhancing Vision with Convolutional Neural Networks参考：Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and D...

2019-03-20 23:33:49 961

翻译 Coursera TensorFlow 基础课程-week2

TensorFlow入门课程本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

2019-03-19 23:24:12 858

翻译 Coursera TensorFlow 基础课程-week1

A New Programming Paradigm参考：Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning仅供学习、交流等非盈...

2019-03-18 22:37:53 859

翻译 Spark读取Hive on Tez任务问题

Spark读取Hive on Tez任务问题参考 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found出现的问题后续，由于HDP集群调整Hive引擎为Tez后，出现的问题。具体问题如下：19/03/18 10:40:16 INFO client.TezClient: Session mode. Star...

2019-03-18 11:19:56 1357

原创 Ubuntu 16 安装TensorFlow及Jupyter notebook

Ubuntu 16 安装TensorFlow及Jupyter notebook文章目录Ubuntu 16 安装TensorFlow及Jupyter notebook1. 软件版本2. 安装过程3. 测试本文主要讲述Windows上VMware虚拟机中Ubuntu16.04（最小化安装版，没有安装界面环境）安装TensorFlow及Jupyter notebook的过程1. 软件版本...

2019-03-12 14:49:19 560

原创 Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x

文章目录Spark ALS recommendForAll源码解析实战1. 软件版本：2. 本文要解决的问题3. 源码分析实战3.1 Spark2.2.2 ALS recommendForAll 实战分析1. 首先给出其核心实现源码：2. blockify函数3. cartesian flatMap的优势4. flatMap的处理逻辑3.2 Spark1.6.3 ALS recommendForA...

2019-03-04 21:17:00 1194 1

原创 Spark ALS应用BLAS加速

文章目录Spark ALS应用BLAS加速1. 环境2. 问题引入3. 参考：4. 思路：4.1 简单测试：4.2 使用Native BLAS需要添加的Jar包方式1：在Intellij IDEA 中添加依赖找到方式2：自行指定参数编译Spark源码4.3 使用新编译的Spark测试是否加载Native BLAS5. 修改官网提供的安装包，使其加载BLAS5.1 使用 --jars 参数5.2 ...

2019-02-27 23:16:49 2065

原创 Spark Shell 启动报NullPointerException（包含getZipEntry）

文章目录Spark Shell 启动NullPointerException提示getZipEntry1. 软件版本：2. 问题描述：3. 问题解决思路4. 后续Spark Shell 启动NullPointerException提示getZipEntry1. 软件版本：软件版本CDHCDH-5.7.3-1.cdh5.7.3.p0.5SparkStandalon...

2019-02-18 16:36:14 1225

原创 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found

Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not foundClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found1. 思路第一步2. 新问题及解决Class org.datanucleus.api.jdo.JDOPersi...

2019-02-14 15:32:32 2520 1

原创 Spark 延迟30秒

Spark延迟30秒Spark延迟30秒1. 环境/版本/测试代码1.1 使用软件版本：1.2 集群部署1.3 测试代码2. 时间线3. 问题重述及分析Spark延迟30秒问题引出：问题来源于一次小的测试，在进行一个常规的读取Hive数据，并使用Spakr MLlib中的Describe进行基本的表统计时，发现Executor的任务发起到任务实际执行相差30秒左右，故此引出本篇博客。1. 环...

2018-12-26 18:09:33 2117

原创 Spark 常用编程技巧

Spark 常用编程技巧Spark Version : 2.2.01. 基础篇1.1 Scala 篇求均值描述：求一个Double类型的均值，含有NaN类型（去掉NaN后求均值）；scala&gt; val data = Array(1,2,3.0)data: Array[Double] = Array(1.0, 2.0, 3.0)scala&gt; def sum_num...

2018-10-13 12:56:31 2041 2

原创 Oozie4.3.1各种Action及综合实例

Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（二）如果没有编译好Oozie，并部署到集群，请参考：Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（一）Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（二）1. 准备工作2. Hive...

2018-08-10 14:48:49 1250

原创 Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（一）

Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（一）Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（一）1. 需求：2. 前期预研：3. 前期准备4. 导入工程及编译修改4.1 修改为Hadoop34.2 加入Hadoop-common的依赖4.3 修改类4.4 修改主pom.x...

2018-08-07 16:38:09 4177 1

原创 Spark DataFrame vector 类型存储到Hive表

Spark DataFrame vector 类型存储到Hive表Spark DataFrame vector 类型存储到Hive表软件版本场景描述问题的迂回解决方法示例1. 软件版本软件版本 Spark 1.6.0 Hive 1.2.12. 场景描述在使用Spark时，有时需要存储DataFram...

2018-02-24 10:20:44 3935

原创 Spark ClassNotFoundException $$anonfun$2

Spark ClassNotFoundException $$anonfun$21. 软件环境：软件版本 Spark 原生1.6.0 Hadoop 原生2.6.52. 应用场景&问题描述使用Java Web提交任务到Spark Standalone集群中运行任务，运行任务的过程中，指定主类，比如a.b.c.Test，那么主类

2018-01-25 11:05:15 1782 1

原创 SparkSQL read Elasticsearch ClassNotFoundException

环境软件版本 Elasticsearch 2.3.3 spark cdh-1.6.0 idea 2016问题描述：现在有一个Elasticsearch集群，需要使用SparkSQL直接连接进行读取，参考Elasticsearch官网代码，直接编写下面的程序进行读取(在Windows上编写程序，提交到远程Spark Standalone集群）：public clas

2017-11-28 11:05:19 2361

原创 Java Web提交任务到Spark Standalone集群并监控

Java Web提交任务到Spark Standalone集群并监控环境工程下载路径Spark任务提交流程问题及问题解决后记Java Web提交任务到Spark Standalone集群并监控1. 环境软件版本备注 IDEA 14.1.5 JDK 1.8 Spark 1.6.0 工程maven引用 Spark cdh5.7.3

2017-11-16 16:29:21 6100 13

原创 TensorFlowOnSpark stuck

问题描述：在使用TensorFlowOnSpark做测试的时候，发现任务，老是卡着并没有实际的运行。解决方法：1. 由于我使用的是自编译的TensorFlow，当时编译的时候有一个enable HDFS，默认是false，所以再次编译了一遍，把对应的HDFS enable设置为了true；2. 没有严格参考官网：官网上面在使用spark-submit提交的时候，添加了--conf参数，而我以

2017-10-31 13:39:38 1011

原创 Centos6安装TensorFlow及TensorFlowOnSpark

1. 需求描述在Centos6系统上安装Hadoop、Spark集群，并使用TensorFlowOnSpark的 YARN运行模式下执行TensorFlow的代码。（最好可以在不联网的集群中进行配置并运行）2. 系统环境（拓扑）操作系统：Centos6.5 Final ； Hadoop：2.7.4 ； Spark：1.5.1-Hadoop2.6； TensorFlow 1.3.0；TensorFl

2017-10-27 23:51:28 1926

原创 Spark应用HanLP对中文语料进行文本挖掘--聚类

软件：IDEA2014、Maven、HanLP、JDK；用到的知识：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的数据集：http://www.threedweb.cn/thread-1288-1-1.html（不需要下载，已经包含在工程里面）；工程下载：https://github.com/fansy1990/hanlp-test 。

2017-08-25 17:41:43 7816 7

原创 Matlab计算字符串相似度

运行环境：Matlab单纯的计算字符串的相似度，并没有计算词性，如TF-IDF之类的；代码如下：%计算字符串相似度%一个source字符串通过插入、删除、替换而变成target字符串的操作次数越少，则两个字符串越相近。function strsim = mystrsim(target,source) %X为字符串矩阵len1=length(source);len2=length(targ

2017-08-22 09:26:58 4555 4

转载 CDH HiveServer2异常退出

本篇参考：http://blog.csdn.net/gklifg/article/details/50418109、http://blog.csdn.net/levy_cui/article/details/53992402、http://blog.csdn.net/lulynn/article/details/46455097。在使用CDH集群的过程中，出现HiveServer2刚启动没多久，客

2017-07-10 14:09:24 5590 1

原创 Java连接Spark Standalone集群

软件环境：spark-1.6.3-bin-hadoop2.6、hadoop-2.6.4、jdk1.7.0_67、IDEA14.1.5 ；Hadoop集群采用伪分布式安装，运行过程中只启动HDFS；Spark只启动一个Worker；使用虚拟机搭建Hadoop、Spark集群；Idea直接安装在Win10上；192.168.128.128是虚拟机ip；本机ip是：192.168.0.183；Java连

2017-07-06 14:13:30 7889

原创 Hive性能调优

软件环境：Hive1.2.1 ／Hadoop2.6.4 ；直接使用Hive Cli模式运行；1. 设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;如果设置执行引擎为mr，那么就会调用Hadoop的maprecude来运行需要执行job的程序；如果设置执行引擎为spark，那么就会调用spark来执行任务。有条件

2017-07-01 17:51:20 18905 1

原创 Spark SQL filter not contains

软件环境：CDH5.8.0；问题：在使用Spark SQL 读取Hive进行操作的时候，需要使用不包含，如下：（在Spark SQL中有contains，like，rlike函数）在Hive中有表id_url ，内容如下：+------------+-----------------------------------+--+| id_url.id | id_url.ur

2017-05-23 21:21:47 9611

原创 Spark DecisionTreeModel print

软件版本： Spark：1.6.1 ；问题1：在进行Spark DecisionTree建模时（做分类），可以打印决策树。当然，使用该模型的toDebugString 可以打印类似下面的字符串，例如：DecisionTreeModel classifier of depth 7 with 45 nodes If (feature 22 <= 114.2) If (feature 2

2017-04-26 16:17:37 1645

原创 Tomcat Sqoop import异常及其解决方法

软件版本：Sqoop：1.4.6-cdh5.7.3，tomcat：7，JDK：1.7，Intellij Idea 2014 ， Hadoop集群：CDH5.7.3；mysql：5.6；问题描述：在使用Sqoop的API操作数据从Mysql表导入到HDFS的时候，如果直接使用Java程序，那么是可以调用程序并运行成功的；但是，启动Tomcat调用，则会失败。前备知识：1. 使用Java API操作S

2017-03-17 21:19:59 1765

原创 Spark MLlib算法调用展示平台及其实现过程

1. 软件版本：IDE：Intellij IDEA 14，Java：1.7，Scala：2.10.6；Tomcat：7，CDH：5.8.0； Spark：1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ； Hadoop：hadoop2.6.0-cdh5.8.0；(使用的是CDH提供的虚拟机)2. 工程下载及部署：Scala封装Spark算法工程：https://github

2017-03-17 12:57:36 8947 11

翻译 Spark On YARN内存和CPU分配

本篇博客参考：http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本：CDH：5.7.2，JDK：1.7；问题描述：在使用Spark On YARN时（无论是Client模式或者是Cluster模式，当然下面会有这种模式的对比区别），可以添加诸如：--executor-memory

2017-01-10 17:17:15 21475 2

原创 Windows Spark On YARN 提交任务到CDH集群

软件版本：IDE：Intellij IDEA 14，Java：1.7，Tomcat：7，CDH：5.8.0； Spark：1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ； Hadoop：hadoop2.6.0-cdh5.8.0；部署环境：1. 在Windows10 上启动IDEA ，并启动Tomcat，在Tomcat中使用Spark On YARN的方式调用封装好的Spa

2017-01-05 18:20:10 6597

原创 MAC Spark no snappyjava in java.library.path

软件版本：Mac：10.12.1，Spark：1.6.0-cdh5.7.3，JDK：1.7.0_79 ; IDEA：14；问题描述：在Mac上运行Spark程序时（采用local 生成SparkContext的方式，具体参考：https://github.com/fansy1990/Spark_MLlib_Algorithm_1.6.0/blob/master/src/test/scala/com

2016-12-31 11:37:35 2989 3

原创 Oozie Spark on YARN requirement failed

软件环境：CDH：5.7.3；Oozie：4.1.0-CDH5.7.3 ； Spark：1.6.0-cdh5.7.3-hadoop2.6.0-cdh5.7.3 ； Hadoop：hadoop2.6.0-cdh5.7.3（HDFS 采用HA方式）；问题描述：在使用CDH5.7.3版本的时候，发起一个Oozie工作流，该工作流使用Spark On YARN的方式提交一个Spark程序，但是在Oozie

2016-12-24 10:37:02 4457 1

原创 Spark TopK问题解法

软件版本及平台：CDH5.8、四子节点（cpu：2核、内存：4G）、JDK：1.7、IDEA14 、 Spark：1.6.0-cdh5.7.3；代码下载：问题描述：现有用户项目评分数据，其格式如下所示：u1,item1,0.0913375062480507u2,item1,0.4061823571029518u3,item1,0.021727289053235843u4,item1,0.24

2016-12-15 22:44:50 3718

原创 Spark读写Hive添加PMML支持

软件版本：CDH：5.8.0；Hadoop：2.6.0 ； Spark：1.6.0； Hive：1.1.0；JDK：1.7 ； SDK：2.10.6（Scala）目标：在Spark加载PMML文件处理数据（参考：http://blog.csdn.net/fansy1990/article/details/53293024）及Spark读写Hive（http://blog.csdn.net/fans

2016-12-03 15:49:45 3812

原创 Spark读写Hive

环境：CDH5.8，Spark：1.6.0；Hadoop：2.6.0，Intellij IDEA14 ，jdk1.8，sdk：2.10.6 ，maven：3.3.3；工程下载地址：1. Spark读取HiveSpark读取Hive，使用的是HiveContext，第一步使用sc生成一个HiveContext，然后其他操作就是在HiveContext里面操作了；比如使用HiveContext的tab

2016-11-29 22:42:00 13591

原创 mac未能正确推出移动硬盘而读取不了

问题：移动硬盘格式是exfat的，在mac中未能正确推出移动硬盘，然后就被直接拔掉了；插在windows上，显示未能访问；直接重启windows，就可以访问该移动硬盘了，但是推出后，再次插入到mac上还是读取不了；修复方法：1. 插入到windows上，比如读取到的是I盘符；2. 打开dos窗口，运行命令： chkdsk I: /f等待修复完成：这时，再次退出，然后插入到mac上，即可看到该移动硬

2016-11-28 22:48:36 31414 2

原创 Spark加载PMML进行预测

软件版本：CDH:5.8.0 , CDH-hadoop :2.6.0 ; CDH-spark :1.6.0 目标：使用Spark 加载PMML文件到模型，并使用Spark平台进行预测（这里测试使用的是Spark on YARN的方式）。具体小目标：1. 参考https://github.com/jpmml/jpmml-spark 实现，能运行简单例子；2. 直接读取HDFS上面的输入数据文件，使用

2016-11-25 22:28:05 19219 2

原创 MapReduce实现线性回归

1. 软件版本：Hadoop2.6.0（IDEA中源码编译使用CDH5.7.3，对应Hadoop2.6.0），集群使用原生Hadoop2.6.4，JDK1.8，Intellij IDEA 14 。源码可以在https://github.com/fansy1990/linear_regression 下载。2. 实现思路：本博客实现的是一元一次线性方程，等于是最简单的线性方程了，采用的是Coures

2016-10-29 11:34:02 7171 6

Mahout案例实战约会推荐

Mahout实战案例-约会推荐系统，详情参考博客《Mahout案例实战--Dating Recommender 系统》http://blog.csdn.net/fansy1990/article/details/44181459

2015-03-11

java web程序调用hadoop2.6

java web程序演示调用hadoop2.6运行集群MR程序示例；

2015-01-11

FP关联规则置信度

FP关联规则计算置信度的方法：参考Mahout FP算法相关相关源码。只是单机版的实现，并没有MapReduce的代码，可以参考： http://blog.csdn.net/fansy1990/article/details/41279833 实现思路

2014-11-19

libimesti推荐系统

具体参考《Libimseti推荐系统》（http://blog.csdn.net/fansy1990/article/details/39692741）（1）修改Configuration目录中的db.properties中的数据库配置；（2）从http://www.occamslab.com/petricek/data/libimseticomplete.zip下载所需要的数据，解压后可以看到gender.dat 和ratings.dat文件；（3）启动工程，自动生成相关表；（4）在数据库中运行sql目录下sql，导入相关数据；

2014-09-30

nmon 和 nmon analyser工具

nmon 和nmon analyser 系统监控工具，具体使用可以参考http://blog.csdn.net/fansy1990/article/details/39520423

2014-09-24

easyui+spring+struts+hibernate 实例

Java Web Demo，前台使用easyUI控件、jQuery技术，后台使用Spring、Struts、Hibernate技术。具体运行参考：http://blog.csdn.net/fansy1990/article/details/39319335

2014-09-16

MR Unit test需要的相关jar包

MR Unit test所需的jar包（不包含Hadoop环境jar包），适合Hadoop2，具体实例参考《hadoop编程小技巧（8）---Unit Testing (单元测试)》

2014-07-29

Mahout贝叶斯分类不含标签数据

Mahout 贝叶斯算法根据模型分类无标签数据，具体参考http://blog.csdn.net/fansy1990/article/details/37991447

2014-07-20

Mahout算法调用展示平台2.1-part3

第三部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1-part2

第二部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1

第一部分功能主要包括四个方面：集群配置、集群算法监控、Hadoop模块、Mahout模块。详情参考《Mahout算法调用展示平台2.1》

2014-07-06

cdh50beta part2

kettle 5.0.1 调用cdh5.0.0 shim 包

2014-05-05

cdh50beta shim 包

kettle5.0.1 使用cdh5.0.0 shim包

2014-05-05

mahout0.9 jar支持hadoop2

mahout0.9 的jar包，支持hadoop2，此为第二部分jar包。具体调用方式参考lz相关博客

2014-04-09

mahout0.9 jar包支持hadoop2

mahout0.9 的jar包，支持hadoop2（此为第一部分）

2014-04-09

mahout0.9源码（支持hadoop2）

mahout0.9的源码，支持hadoop2，需要自行使用mvn编译。mvn编译使用命令： mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests

2014-04-09

phoenix2.2

phoenix2.2操作hbase0.96

2014-04-04

phoenix2.2.2

phoenix 操作hbase0.96,（使用hadoop2）

2014-04-04

hadoop2 MR运行修改jar

windows使用java调用hadoop2需要修改的jar，具体可以参考博主博客

2014-04-03

hadoop左连接

hadoop左连接程序jar，可以直接运行。

2014-03-08

博客推荐系统源码

运行博客推荐程序需要注意的地方： 1. 打开mysql，增加blog数据库；修改src下面的jdbc.properties文件的用户名和密码； 2. 修改blog.xml（和Readme.txt同目录）的docBase为本地目录,放在tomcat的conf\Catalina\localhost目录下面； 3. 修改applicationContext.xml文件中的自动生成表的配置（hibernate.hbm2ddl.auto），第一次启动为create，后面改为update； 4. 启动服务器，运行test目录下面的DataGenerator.java、运行src/data目录下面的UserGenerate.java 即可插入test用户信息以及云平台信息（需要修改UserGenerate.java中云平台相关配置）; 版本：Spring3+Struts2+Hibernate3+Hadoop1.0.4+Mahout0.7+Mysql5

2014-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Mahout案例实战 约会推荐

java web程序调用hadoop2.6

FP关联规则置信度

libimesti推荐系统

nmon 和 nmon analyser工具

easyui+spring+struts+hibernate 实例

MR Unit test需要的相关jar包

Mahout贝叶斯分类不含标签数据

Mahout算法调用展示平台2.1-part3

Mahout算法调用展示平台2.1-part2

Mahout算法调用展示平台2.1

cdh50beta part2

cdh50beta shim 包

mahout0.9 jar支持hadoop2

mahout0.9 jar包支持hadoop2

mahout0.9源码（支持hadoop2）

phoenix2.2

phoenix2.2.2

hadoop2 MR运行修改jar

hadoop左连接

博客推荐系统源码

web平台调用hadoop集群2.0

hadoop启动时间写入文件

监控hadoop任务信息

web 工程调用hadoop集群1.4

flex struts2文件上传

flex datagrid doubleclick 实例

flex dispatchEvent 实例工程

web 工程调用hadoop集群1.3

flex 调用java

svd mahout算法

读取HDFS序列化文件解析key、value可视化输出

bazel-0.5.4

TensorFlow1.3.0 on centos6.5

spark-yarn_2.10-1.6.0-cdh5.7.3.jar

冠字号查询系统数据

hdp一键部署脚本

storm实时单词计数

hotspot关联规则

hotspot算法源码

空空如也

Mahout案例实战约会推荐