数道难-CSDN博客

原创 10分钟掌握推荐算法从古至今

前言：就2016-2022最近几年来看，很多做算法的岗位招聘信息都要求硕士学历起步，但有的也非必要条件；所以劝退第一学历非重点本科的童鞋，有些公司、岗位卡学历，其实其他研发岗也挺好的，不少公司算法跟其他研发岗是同薪的，没有必要在自己不占优的方向上死磕。以下原创皆本人自身理解以及推荐看过的部分好文，若有疏漏，不吝赐教。传统机器学习篇入门阶段还是建议从传统机器学习开始，一来因为传统机器学习相对简单，方便工程上实现并快速部署，二来是不少深度学习中的算法都是在传统机器学习的基础上改进而来的。这里着重掌

2022-02-27 18:13:58 1019

原创 spark2调用TensorFlow2模型

问题一：com.google.protobuf.Parser.parseFrom方法找不到。因cdh默认的spark依赖jar中protobuf-java-[version].jar版本太低，需要手动升级替换；问题二：序列化org.tensorflow.SavedModelBundle后广播各种空指针，建议直接改道addFile(modelPath,true)于executor加载模型；sparkConf.set("spark.serializer", "org.apache.spark.seri

2021-04-28 16:35:28 407

原创基于spark相关的DeepLearning选择

背景：TensorFlow性能差强人意，但DeepLearning领域优势，spark则反之。TensorFlow训练好的模型在spark中调用各种小问题不断。基于spark相关的DeepLearning大致看了下面这些，各有优缺点：elephas：参考：https://github.com/maxpumperla/elephasdist-keras：参考：https://github.com/cerndb/dist-kerassparknet：低活跃，https://github.com/

2021-03-31 17:21:40 437

原创 TensorFlow on spark笔记

spark-shell --master local[10] --driver-memory 10G --jars s3://boomplay-noversion/EMR/jars/tensorflow-1.14.0.jar,s3://boomplay-noversion/EMR/jars/libtensorflow-1.14.0.jar,s3://boomplay-noversion/EMR/jars/libtensorflow_jni-1.14.0.jarspark-shell --jars s3:/

2020-12-25 17:04:26 768 3

原创 lightgbm on spark笔记

背景：自2017年微软开源lightgbm以来，各大算法相关赛事前排队伍当中都不乏lightgbm的身影：https://github.com/microsoft/LightGBM/blob/master/examples/README.md#machine-learning-challenge-winning-solutions但大部分参赛者都是纯Python写的单机脚本而已。为了借助当前流行的spark处理大量数据，我开始了lightgbm on spark之旅。遇到的问题：问.

2020-09-05 17:35:34 1731 6

原创 spark FPGrowth笔记

问题1：树深度无限制问题这频繁项子集深度不加限制，感觉不合理，，，好比词袋模型词袋任意长了；若不在前面手动限制频繁项最大长度，我的笔记本直接运行不出来，我的笔记本必须限制到30以内size(ids)<30。问题2：参数含义setMinSupport(0.001) // 频繁项（热门商品）在总体的最小（出现）比例追溯从fit到genericFit就发现minCount= math.ceil(minSupport * count)，再到genFreqItems发现解释为“m..

2020-06-04 20:12:45 358

原创 spark环境问题记录20200602

问题起因：winutils.exe和hadoop.dll导致，访问本地hive失败，报错如下：Exception in thread "main" org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are:

2020-06-02 20:20:53 450

原创 spark（Scala）默认CSV文件格式与python pandas 差异记录

一. spark中的写CSV：方式一：val saveOptions = Map("header" -> "true", "path" -> "file:///F:/test.csv")df.repartition(1) .write.mode(SaveMode.Overwrite).format("csv") .options(saveOptions) .save()df.coalesce(1) .write.mode(SaveMode.Append).opti

2020-05-13 10:33:23 926

原创 deepFM详解之FM

主体转自：https://blog.csdn.net/baymax_007/article/details/83931698，豆沙绿部分为个人认为需注意修改的。背景：相关的文章网上一传十十传百且质量良莠不齐，对于初学者晦涩难懂；我在前人的总结上加入了自己的理解稍作增删修改，以作为学习记录，如有疏漏，敬请指正。因子分解机（Factorization Machine, FM）是由Steff...

2020-01-05 20:22:06 1254 2

原创 DL4J hello world

背景：之前尝试TensorFlow训练保存pb模型给到spark用，感觉还是性能太慢了；开始寻求在spark上跑深度学习的方法，权衡sparkNet和DL4J后选择。参考官网 https://deeplearning4j.org/cn/quickstart 先弄了个例子：步骤1：克隆到本地F:\spark project\dl4j-examples>git clone https:...

2019-10-30 09:41:40 418

原创 GPU 版 TensorFlow 资源不足问题笔记

问题1：同时多个程序训练、测试模型报错如下Caused by op 'MatMul', defined at: File "F:/python/DeepFM/test/cs.py", line 214, in <module> y_deep = tf.add(tf.matmul(y_deep, weights["layer_%d" % i]), weights["bia...

2019-10-08 11:08:27 787

原创 TensorFlow实现deepFM笔记

问题1：TensorFlow中pb二进制模型复用时变量（偏置项等）覆盖；如feature_embeddings = tf.Variable( tf.random_normal([3, 2], 0.0, 0.01), name='feature_embeddings')这样的变量。这是因为运行sess.run(tf.global_variables_initializer())之类的问题。...

2019-09-26 18:27:44 597 1

转载 ALS推荐算法在Spark上的优化--从50分钟到3分钟

转自：https://blog.csdn.net/butterluo/article/details/48271361/从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G,...

2019-05-20 13:59:42 634

原创 Win10+pycharm+Python3.7+Tensorflow安装

步骤：一. Python环境搭建：Python官网下载Python3.7.2压缩包ZIP（注意我们一般用embeddable免安装压缩包）解压安装Python3；再安装pip：curl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypython get-pip.py然后进到pycharm中使用刚下载的Python3无法pip添...

2019-05-18 12:59:25 6306 2

原创 redis读取异常依赖冲突异常

环境：win10 64 bitidea 2018.3redis3.0.0 （win10版本）java.lang.NoSuchMethodError: redis.clients.jedis.ScanResult.getStringCursor()Ljava/lang/String;at com.redislabs.provider.redis.rdd.Keys$class.co...

2019-05-16 11:37:49 2252

原创 spark ALS源码余弦向量问题分析

训练迭代求解部分暂未研究，本次只分析推荐计算得分排序部分，即主要的推荐函数recommendForAll，先看代码（红色是源码计算得分，蓝色是我改的计算得分方式，注BLAS.f2jBLAS是private的用不了，退一步用了blas.sdot）：def recommendForAll( srcFactors: DataFrame, ...

2019-05-01 17:24:37 339

原创 spark2.4 ML聚类数据源结构问题

问题：ML使用的数据源要求向量features格式必须是nullable=false，比如这样：StructType(StructField(id,IntegerType,false), StructField(features,ArrayType(DoubleType,false),true))[id: int, features: array<double>]然而，我们大...

2019-05-01 16:51:42 313

原创 sparksql笔记——explode/Row_Number/collect_list篇

1. org.apache.spark.ml.recommendation.ALS推荐出来的结果虽然是排序了的，但是没有排序号；想知道推荐成功与推荐排名的关系需要自己加上Row_Number，方法如下：val recDF=spark.sqlContext.read.load(savePathMl) .selectExpr("id","explode(recommendations) as ...

2019-05-01 15:50:14 2022

原创 spark dataframe笔记

环境：win10 64位spark2.4.0问题：df.createOrReplaceTempView("t")后sqlContext.sql("select xxx from t where sum(f1)>=1group by f2,f3").show报错如下：UnsupportedOperationException: Cannot evalua...

2019-04-11 10:20:17 355

原创 Task not serializable笔记

环境：win10 64位，联想工作站台式idea 2018.3社区免费版问题：alsModel.recommendForAllUsers(2).show报错如下Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task not serial...

2019-04-08 15:33:50 633

转载 ExitCodeException exitCode=-1073741515

今天win10下idea本地保存模型文件，model.save和rdd.saveAsTextFile都会报错：ExitCodeException exitCode=-1073741515 异常。原因：操作系统缺少 dll文件解决办法：安装常用C++库合集（x86 + 64位）百度盘： https://pan.baidu.com/s/1dsL0V9dGUYXgEvFZOY...

2019-03-27 19:50:16 10229 18

原创 spark als推荐算法笔记

转自： https://www.cnblogs.com/mstk/p/7208674.html ——上面的测试集实际用的训练集参考： https://blog.csdn.net/delltower/article/details/82219676参考： http://www.cnblogs.com/mooba/p/6539142.html参考： https://www.cnblogs....

2019-03-13 16:47:12 927 2

原创 Ubuntu16.04安装cdh6.10.0笔记

基本环境：win10 64位宿主机，16G+1T；虚拟机版本virtual box 6.0.2；每台分配资源：内存3G，硬盘50G附：Ubuntu Kylin 16.04 LTS下载(64bit)：http://www.ubuntu.org.cn/download/ubuntu-kylincdh搭建系统要求：https://www.cloudera.com/docu...

2019-02-04 21:54:21 3702 2

原创 centOS7.6装cdh6.1.0笔记

平台：戴尔G7 win10 16G+1T；虚拟机版本：virtual box 6.0.2步骤：一。虚拟机virtual box安装三个centos，内存分配3G+40G左右硬盘（CentOS-7-x86_64-DVD-1810版本）问题1：这里主要靠TAB+enter键选按钮，颜色较难区分，不如ubuntu人性化，不小心点到Help里面不知道怎么退出或返回，我都直接强制关闭对应...

2019-01-25 23:04:32 1209 2

原创 hadoop2.3-cdh5.0.0问题笔记

问题1. 今天发现HDFS根目录有点奇怪，似乎/spark/就被当做是/根目录：[hadoop2@hadoop1 tmp]$ hdfs dfs -ls hdfs:/Found 10 itemsdrwxr-xr-x - hadoop supergroup 0 2018-06-29 09:41 hdfs:///hbasedrwxr-xr-x - hadoop sup...

2019-01-13 15:41:23 123

原创 R包install失败：cannot open URL 'https://cran.rstudio.com/src/contrib/PACKAGES'

问题：> install.packages("scatterplot3d")Warning in install.packages : unable to access index for repository https://cran.rstudio.com/src/contrib: cannot open URL 'https://cran.rstudio.com/sr...

2018-12-29 20:05:17 34661 14

原创 idea编译StackOverflowError问题

Error:scalac: while compiling: E:\XXXXXXXXX.scala during phase: erasure library version: version 2.10.4 compiler version: version 2.10.4 reconstructed args: -classpath F:\Baid...

2018-12-21 18:17:26 6227

原创 spark初始化BindException问题源码分析

环境：spark1.4问题：new SparkContext(conf) 的时候出现报错，而且自己写的try catch都没用：java.net.BindException: 地址已在使用: Service 'SparkUI' failed after 16 retries!2018/12/04 18:10:39 - P_EXP_D_USER_BASE - (stdout) ...

2018-12-05 10:32:31 254

原创 standby导致spark初始化失败问题记录

问题：11:15:50,290 ERROR ~ Error initializing SparkContext.org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby ...

2018-11-28 11:43:56 592

原创 hive0.13 insert空指针问题记录

问题背景：INSERT...VALUES is available starting in Hive 0.14；但我们在hive0.13中希望简单插入数据然后测试；然后建表，表结构：create table IF NOT EXISTS testj( f1 string, f2 string) partitioned by (day...

2018-10-26 10:17:24 1257

转载 hbase单点stop和start

hadoop单点重启参考：https://blog.csdn.net/joe_007/article/details/8078936转自：https://www.cnblogs.com/attlia/p/3660749.html hbase 停止regionserver每个regionserver节点可以自由启动或停止，可以不随hbase整体一起。停止后regionserver...

2018-10-16 15:40:14 199

原创 spark读写hbase0.9x问题（主要是依赖）记录

问题表现：读hbase时候报各种依赖缺失，运行到：val conf = HBaseConfiguration.create()或者val table = new HTable(conf, tableName)我试了复制HBaseConfiguration源码改写后能create了，但是new HTable的时候还是会自动用源码重新创建conf，于是放弃改源码；具体过程参考如下问题解决...

2018-10-16 14:20:31 929

原创 idea工程复制后问题（依赖缺失）记录

环境：win7 cdh5.0.0 spark1.4.0 问题一：编译后运行报错：错误: 找不到或无法加载主类 main.test再看run - edit config.... 里面对应的有：Warning: Class 'main.test' not found in module 'projectName'解决办法：对应的类右键 - make directory as - sou...

2018-10-08 15:31:22 885

转载 spark streaming容错问题记录

参考：http://spark.apache.org/docs/1.4.0/streaming-kafka-integration.html—— 官网使用http://kafka.apache.org/082/documentation.html#basic_ops_consumer_lag —— kafkahttps://www.jianshu.com/p/716af54491...

2018-09-29 10:51:39 151

原创 hive2.3.3安装记录

环境： win7 64位虚拟机Ubuntu18.04， hadoop2.7.6 mysql安装参考：https://blog.csdn.net/u011026329/article/details/80835139 ——附带mysql账号密码设置https://blog.csdn.net/sinat_21302587/article/details/76870457https:...

2018-09-18 11:00:47 555

原创 Scala、spark版本错乱问题记录

表现1： Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$conforms()Lscala/Predef$$less表现2： NoSuchMethodError: scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object 原因：...

2018-09-14 09:52:07 837

原创 Xmanager 5问题记录

链接: https://pan.baidu.com/s/1tSrXSS9YWXCdlznZ_EvLuA 密码: vnv3之前卸载了试用到期的旧版Xmanager，直接用 https://blog.csdn.net/qq_27252133/article/details/80722627 楼主这个打开的时候报错“请安装Xmanager Enterprise 5 错误码：40002”的；估计是卸载...

2018-09-03 20:25:21 2983 5

转载 Spark三种参数配置方式详细说明

两个月没写spark了，感觉忘记得比较快，特此记录下常见配置参数方式；参考：https://blog.csdn.net/xiaolang85/article/details/51364259http://www.cnblogs.com/sh425/p/7384467.html...

2018-08-09 10:34:53 624

原创 kettle 小结：

1. 调用shell脚本时候注意：If there is a name collision between a parameter and a variable, the parameter will take precedence.If there is a name collision with a parameter or argument, variables will defer.传参给...

2018-07-12 18:04:56 232

原创二图秒懂win7和virtualBox中的Ubuntu互ping设置

红色椭圆是默认设置，红色矩形框是手动设置的参考： https://blog.csdn.net/Demo_3/article/details/78543188 （下图没设‘网卡2’，所以能互ping但虚拟机无网络）

2018-07-11 17:18:19 350

hadoop/bin目录文件，含hadoop.dll + winutils.exe

仿天天动听Android音乐播放器

空空如也