MarsXDM-CSDN博客

原创内容推荐-文本与画像

1. 文本也能用于画像？2. 用物品画像丰富用户画像2.1 结构化文本2.1.1 TF-IDF2.1.2 TextRank2.1.3 内容分类2.1.4 实体识别2.1.5 聚类2.1.6 Embedding2.2 标签选择2.2.1 卡方检验2.2.2 信息增益@ 2018-05-281. 文本也能用于画像？前面有一篇文章介绍了...

2018-05-28 19:49:44 3095 1

原创用户画像-User Profile

@ 2018-05-271. 用户画像1.1 什么是用户画像？1.2 用户画像与推荐系统的关系2. 用户画像的关键因素3. 用户画像的构建方法1. 用户画像1.1 什么是用户画像？用户画像常见对应两个英文词Personas和User Profile，Personas属于交互设计领域的概念，后者原本常用于营销领域，营销人员需要对营销的客户有更精准的认识...

2018-05-27 12:00:59 17458 1

原创 Hive分区表实战

@2018-03-131. Hive分区表2. 静态分区应用场景1应用场景2应用场景32. 动态分区应用场景1应用场景2应用场景33. 修改分区1. 添加分区2. 重命名3. 交换分区4. 恢复分区5. 删除分区1. Hive分区表Partition和Bucket，为了提升查询效率，前者是粗粒度的划分，后者是细粒度的划分。建表...

2018-03-13 12:25:50 1752

原创 PyCharm+PySpark远程调试的环境配置

@ 2018-03-031. 远程Spark集群环境2. 本地PyCharm配置前言：前两天准备用 Python 在 Spark 上处理量几十G的数据，熟料在利用PyCharm进行PySpark远程调试时掉入深坑，特写此博文以帮助同样深处坑中的bigdata&machine learning fans早日出坑。 Version ：Spark 1.5.0...

2018-03-03 14:48:02 10111 6

原创 json处理工具jq

@ 2018-03-01 jq工具可以检查JSON的合法性，并把JSON格式化成更友好更可读的格式。将一团乱麻的JSON格式化成个更可读的形式，原始json文件jsonTest数据如下：{"_location":"(32.121, 45.262)","_ip":"2.12.1.211","_action":"click button","_uid":

2018-03-01 15:17:33 3542

原创数据预处理——抽样

@ 2018-02-08有效抽样抽样方法1 简单随机抽样3 系统抽样2 分层抽样3 渐进抽样抽样是一种选择数据对象子集进行分析的常用方法。在统计学中，抽样长期用于数据的实现调查和最终的数据分析；在数据挖掘中，抽样也非常有用。然而在统计学和数据挖掘中，抽样的动机并不相同：统计学使用抽样是因为得到感兴趣的整个数据集的费用太高、太费时间；而数据挖掘使用抽样是因...

2018-02-08 11:16:45 5536

原创 CentOS 6 安装 XGBoost

@ 2017-11-27 CentOS 6 上已经有Python 2.6和Python 2.7两个版本，现需要安装xgboost包升级系统的GCC yum install gcc安装Anaconda 根据系统具体配置下载，大约500多MB下载后运行sh Anaconda2-5.0.1-Linux-x86_64.sh，根据提示输入回车及yes即可配置环境变量，运行python...

2018-02-08 08:45:29 818

原创熵权法

@20171107熵权法的原理1 信息熵Information Entropy2 熵权法熵权法的计算步骤1 确定指标体系2 数据预处理3 归一化处理4 计算指标的熵和权5 指标加权计算得分总结示例1 熵权法的原理1.1 信息熵（Information Entropy）熵是热力学的一个物理概念，是体系混乱度或无序度的度量，熵...

2018-02-08 08:37:26 123345 11

原创数据预处理——离散化

@ 2018-02-07什么是数据离散化非监督离散化监督离散化1. 什么是数据离散化有些数据挖掘算法，特别是某些分类算法（如朴素贝叶斯），要求数据是分类属性形式（类别型属性）这样常常需要将连续属性变换成分类属性（离散化，Discretization）。另外，如果一个分类属性（或特征）具有大量不同值，或者某些之出现不频繁，则对于某些数据挖掘任务，通过合并某些值减少类...

2018-02-08 08:28:37 14322 1

原创同时使用两个账号分别操作Github和Gitlab

配置 Git 用户名邮箱生成 ssh key 上传到 GithubGitlab配置 config 文件上传public key 到 GithubGitlab验证是否OK 一般开发人员在公司工作需要用公司内部的gitlab，自己喜欢写一点小代码则会用到github，如何在一台机器上用两个账号分别操作两个不同的git提供商呢？在参考了这篇github上文章后https:/

2018-02-01 17:52:42 10949 2

原创【Note】Python入门基础

基础语法规则标识符命名BIFs自带电池Python的标准运算符循环与判断判断Python标准数据类型Pyhon 字符串类型练习题此文作为Python基础的第一个笔记是对Python基础语法的一个总括，比较基础，基本所有Python教材的开篇都是讲的这些内容，下面的代码示例都是在Python 2.7环境下的ipython notebook中执行的。文末附带9个本文相关

2018-01-29 14:34:43 964

原创【ML笔记 1】sklearn和机器学习实战

@ 2018-01-24机器学习基础知识sklearn入门宝典sklearn建模实战1 KNN2 SVM3 网格搜索交叉验证1 机器学习基础知识从过去的大量数据中“总结”出来“泛化规律”，用于新数据预测。3种不同类型的机器学习有监督学习，数据中已经存在标签值，算法通过这些带标签的样本（监督）习得“经验”，当新数据到来时，将习得的“经验”用

2018-01-24 17:40:11 1056

原创 Python推荐系统库——Surprise

@ 2018-01-24Surprise简单易用同时支持多种推荐算法其中基于近邻的方法协同过滤可以设定不同的度量准则支持不同的评估准则使用示例基本使用方法如下载入自己的数据集方法算法调参让推荐系统有更好的效果在自己的数据集上训练模型首先载入数据使用不同的推荐系统算法进行建模比较建模和存储模型用协同过滤构建模型并进行预测1 movielens的例子2

2018-01-24 09:12:11 51895 30

原创 Hive与HBase集成实践

@ 2016-05-30具体步骤拷贝jar包在Hive的类路径中添加一些这些jar包Hive集成HBase的原理Storage Handler使用字段映射示例多列和列族Hive的Map字段与HBase列族问题汇总向集成表中插入数据时报错环境说明 CentOS 6.7 Hadoop 2.7.2 Hive

2018-01-24 08:53:38 1006

原创 Hive on Spark配置

@ 2016-05-30修改HIVE_HOMEconfhive-sitexml添加spark-assembly包额外添加几个jar包附编译spark-assembly包Hive on Spark，基于Spark的Hive，实质上是将Hive默认的计算引擎MapReduce替换成Spark。Hive on Spark的设置相当简单，但是其中也是各种坑~

2018-01-22 19:36:21 4051

原创 Apache CarbonData 1.0.0 编译部署 on Mac OS

@ 2017-02-04安装Apache Thrift1 安装Boost2 安装libevent3 编译Apache Thrift编译CarbonData1 Clone CarbonData2 maven源切换3 Build CarbonData在Standalone Spark集群安装和配置CarbonData通过Spark Shell 调用carbondat

2018-01-22 19:33:07 428

原创【Note】推荐系统冷启动问题

冷启动问题的描述分类解决方案利用用户注册信息选择合适的物品启动用户兴趣利用物品内容进行推荐引入专家知识@ 2018-01-15 学习项亮博士《推荐系统实践》第三章的笔记。1 冷启动问题的描述分类用户冷启动，登录/注册到网站的新用户没有行为数据，因此无法根据其历史行为预测其兴趣，从而无法借此给他做个性化推荐；物品冷启动，如何将新物品推

2018-01-21 22:33:30 708

原创推荐系统相关的Paper

几篇对工业界比较有影响的论文推荐两篇必看最好能自己实现论文当前推荐系统所面临的挑战相关研究AAAI 2018 录用推荐系统相关的部分PapersReference几篇对工业界比较有影响的论文The Wisdom of The Few 豆瓣阿稳在介绍豆瓣猜的时候极力推荐过这篇论文，豆瓣猜也充分应用了这篇论文中提出的算法；Restricted Boltzmann M

2018-01-21 22:28:39 3322

原创 Kylin中的Cube构建

Kylin 中的CUBE构建Kylin 中的CUBE构建前言入口介绍BUILD步骤1 计算cuboid文件生成原始数据Create Intermediate Flat Hive Table创建事实表distinct column文件Extract Fact Table Distinct Columns创建维度词典Build Dimension Dictionary计算生成B

2018-01-21 22:12:59 1229

原创多个 Kylin 服务

多个 Kylin 服务多个 Kylin 服务Kylin Server modes设置多Kylin REST服务1. Kylin Server modesKylin实例是可以无处不在的，其运行时状态保存在$KYLIN_HOME/conf/kylin.properties中所设置的kylin.metadata.url元数据存储当中。出于对负载均衡的考虑，可运行多

2016-03-08 17:04:46 2380 1

翻译【Spark1.6官方翻译】Spark快速入门

英文标题：Quick Start 英文原址：http://spark.apache.org/docs/latest/quick-start.html Spark Version:1.6.0使用Spark Shell进行交互分析基础使用复杂的RDD操作缓存CachingSpark应用程序深入Spark1. 使用Spark Shell进行交互分析1

2016-01-28 19:45:48 2009

原创【Scala学习笔记】4. For、Function、Lazy

Forfor循环之前已经提到过，这里做进阶介绍：for (i 1 to 2;j 1 to 2 if i != j) println(100*i + j + " ")可以加入条件表达式，当然，条件表达式可以非常复杂。Function函数是有值的，如果吴返回值则函数值为Unit。因为函数是有值的，所以函数可以作为函数的参数进行传递。匿名函数，是真正的函数的一种常态

2015-10-08 14:00:46 586

原创【Scala学习笔记】3. Tuple、Array、Map

Scala深入浅出实战第3讲 by 王家林建议采用Scala Work Sheet进行本节实验

2015-10-06 17:53:19 1471

原创【Scala学习笔记】2. 函数定义、流程控制、异常处理

Scala深入浅出实战第2讲 by 王家林本节都是比较简单的介绍，更具体的内容会在后面的视频中具体讲解。

2015-10-06 16:08:23 537

原创【Scala学习笔记】1. Hello Scala

Scala是一门函数式面向对象编程语言。函数式编程——擅长数值计算。面向对象编程——大型工程、项目的组织和团队的分工协作。

2015-10-06 01:21:31 675

翻译【Spark1.3官方翻译】Spark集群模式概览

英文标题：Cluster Mode Overview 英文原址：http://spark.apache.org/docs/latest/cluster-overview.html Spark Version:1.3.1(2015-04-17)1， Spark核心组件 Spark应用程序作为一个独立的任务集运行在集群上，由主程序（driver program）中的SparkContext

2015-04-23 15:09:18 1018

翻译【Spark1.3官方翻译】 Spark Submit提交应用程序

英文标题：Submitting Applications英文原址：http://spark.apache.org/docs/latest/submitting-applications.htmlSpark Version:1.3.0 Spark根目录的bin目录下spark-submit脚本用于在集群上启动应用程序，它通过统一接口使用Spark所支持的所有集群管理器，因

2015-04-07 17:30:26 3972

原创《快学Scala》第2章练习解答

《快学Scala》第2章练习解答1

2015-02-02 16:31:30 956

原创 Hive运行架构及配置部署

Hive 运行架构由Facebook开源，最初用于解决海量结构化的日志数据统计问题：ETL工具；构建于Hadoop的HDFS和MapReduce智商，用于管理和查询结构化/非结构化数据的数据仓库；设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据：使用HQL作为查询接口；使用HDFS作为存储底层；

2014-08-12 17:28:27 2110

原创 Linux下忘记root密码怎么办？

忘记Linuxroot密码该怎么办？

2014-08-10 20:25:25 1017

原创 R安装所有包的命令

availablePackages available.packages()[,1]install.packages(availablePackages)

2014-07-17 10:47:34 4460

原创 Rserve执行报错

自己编译一些程序，而程序难免会引用到别的so文件，但是有些so问总是找不到。报：error while loading shared libraries类似的错误。./Rserve: error while loading shared libraries: libR.so: cannot open shared object file: No such file or directory

2014-07-17 10:45:45 899

原创 NodeManager启动失败--防火墙篇

Hadoop环境CDH4.4今天年后第一天上班（实习中），还过一个月，实习第一份实习合同就到期了~Hadoop集群的虚拟环境看上去太乱，所以就将3个节点（1master + 2Slaves）重启，结果NodeManager启动失败。查看日志，记录错误如下：2014-02-10 18:24:07,635 FATAL org.apache.hadoop.yarn.server.nodema

2014-02-10 11:03:15 5621 2

转载 Hive权限控制和超级管理员的实现

Hive权限机制：Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。先决条件：为了使用Hive的授权机制，有两个参数必须在hive-site.xml中设置： hive.security.authorization.enabled true enabl

2014-01-22 13:37:42 1180

原创 error while loading shared libraries的解決方法

自己编译一些程序，而程序难免会引用到别的so文件，但是有些so问总是找不到。报：error while loading shared libraries类似的错误。./Rserve: error while loading shared libraries: libR.so: cannot open shared object file: No such file or directory

2014-01-21 17:48:18 2568

原创 Linux下Python 2.7 & easy_install 安装

Python 2.7.31.wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz2.tar zxf Python-2.7.3.tgz3.cd Python-2.7.34../configure --prefix=/usr/local/python27如果不需要保留系统自带的python，可以不带--prefix

2014-01-20 02:09:48 16069 2

翻译 Programming Hive Chapter3 （数据类型和文件格式）

Programming Hive第三章数据类型和文件格式 Hive支持很多关系型数据库都支持的基本数据类型，还支持少有关系型数据库的三种集合数据类型。一个相关的问题是，在文本文件中，这些数据类型是如何展现的，或者说如何描述文本的存储。相较于大多数数据库，Hive有一个特性，即它在文本中数据的编码方式上提供了极大的灵活性。大多数据库对于数据在硬盘上的存储以及数据的生命周期都是完全控制的。为了让你控制这些，Hive提供了各种工具使得对数据的管理和处理变得更加简单。

2013-10-20 05:35:47 2340

原创 Hive参数

hive.exec.max.created.files•说明：所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明：是否为自动分区•默认值：falsehive.mapred.reduce.tasks.speculative.execution

2013-10-18 17:23:06 906

java数组小练习（很简单，适合Java新手练手）

计算机网络基础（PDF文件）

核心Java第一卷——基础卷

ASP.NET视频教程

空空如也