Scojen-CSDN博客

原创机器学习-微积分基础总结(一)

学习微积分之前需要知道导数，矩阵等基本概念高中基础即可在看微积分基础链接中资料可能遇到的不理解的地方可以参考如下总结海森Hessian矩阵最优化问题简化推导拉格朗日乘子，函数深入理解讲的深入浅出泰勒公式通俗理解微积分基础源链接

2017-12-18 17:18:53 719

原创 A Neural Probabilistic Language Model笔记

本文是个人笔记，lz才疏学浅，有什么理解不到位的地方欢迎各种拍 .理解简述：其本身是语言模型，为了验证或者说是预测一句话最可能的表达，在预测的过程中产生word embedding 矩阵，在输入层中将词映射为一个m列的向量，也即词的向量表示，NPLM模型结构一共分为3层，输入映射-隐含-输出模型结构图模型训练过程图中最低的是输入映射层输入是当前词w_t的前n个词 (w_t-n+1~w_

2017-08-30 18:16:20 814

原创自然语言-news recommed

特征工程首先提取news的文本，图片，视频，针对news的文本分词 :N-gama+CRF+HMM对news附带的图片：对news附带的视频：*

2017-03-29 16:00:40 581

原创特征工程

图片摘自网络特征分类： 1.Low level特征和High level特征； 2.稳定特征与动态特征； 3.二值特征、连续特征、枚举特征；特征处理,分析1.特征归一化，离散化，缺省值处理。归一化不同的特征有不同的取值范围，在有些算法中，例如线性模型或者距离相关的模型像聚类模型、knn模型等，特征的取值范围会对最终

2017-02-08 16:42:07 452

原创 K近邻，kd树

k近邻是不具有显式的学习过程，是简单的分类回归算法k近邻三个重要的因素：距离计算，k值的选择，分类规则距离计算例子： k值的选择在应用中k一般取比较小的值，通常采用交叉验证来选取最优的k。分类决策规则 kd树是为了减少在k近邻计算k个距离最近的类数据集线性扫描的过程，kd搜索，首先先构造kd搜索树例子：过程kd树最近邻搜索算法：引用资料，李航–统计学习方法

2016-12-29 17:28:01 557

原创 ALS ，ALS-WR算法1

做推荐项目用到的算法及相关：总结资料：转载链接原理介绍：https://github.com/ceys/jdml/wiki/ALS针对wiki中的公式显示整理：http://www.fuqingchuan.com/2015/03/812.htmlspark mllib及代码实例:https://spark.apache.org/docs/latest/mllib-col

2016-12-20 17:04:33 668

原创广告学流量预算

平滑资料整理：Budget Smoothing的系统设计设计包括两个方面：1）如何影响线上的广告机会的挑选 2）如何获得更多的数据反馈支持“消耗计划”的制定。数据通常分为线上的流式数据和历史数据的分析。在DSP中，预算平滑是作为控制出价的一个因素，需要结合其他的条件共同判断，这种因素需要考虑流量的机会成本和未来的机会成本的预估。下面是Li

2016-11-01 18:28:49 2123

目前, ＣＡＴ(Computer aided test, 计算机辅助测试系统) 试卷模式中试题难度分布设计的核心思想，主要根据难度分布应该是正态分布函数来进行假设的。而难度在教育心理学中的定义大致有两类，一类是分数度量，即将考生的结果分数进行加权统计作为难度的度量标准，在试卷为百分制状态下，假设在（0，100）区间进行正态分布[1],实际上这个要求是往往和事实不吻合。作者调用了很多考试的成绩，成绩

2016-09-19 10:40:30 4145

翻译距离和相似度度量的区别和联系

距离和相似度度量6 条回复　　在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。　　为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们

2016-09-13 20:43:16 2937

原创欧几里得辗转相除法c实现

#include void main(){int m=46;int n=128;int a;int b=n%m;while (b!=0){a=m%b;if(a==0)break;b=a;}printf("%d",b)}

2016-09-13 18:24:21 340

转载图片相似度（汉明距离）

Google、Baidu 等搜索引擎相继推出了以图搜图的功能，测试了下效果还不错~ 那这种技术的原理是什么呢？计算机怎么知道两张图片相似呢？根据Neal Krawetz博士的解释，原理非常简单易懂。我们可以用一个快速算法，就达到基本的效果。这里的关键技术叫做”感知哈希算法”（Perceptual hash algorithm），它的作用是对每张图片生成一个”指纹”（fingerprint）字符串，然

2016-09-13 10:55:26 20227 1

转载文本相似(汉明距离)

汉明距离《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较1000w次海明距离需要 300ms ，和5000w数据比较需要1.8 s。看起来相似度计算不是很慢，还在秒

2016-09-13 10:52:56 7899

转载程序化广告交易中的点击率预估 CRT

程序化广告交易中的点击率预估

2016-09-09 08:31:09 4922

转载广告特征提取

在预估ctr的过程中，理论上是应该有这么几类特征信息：用户的信息（用户输入的query,包括用户的年龄，消费水平，历史操作行为）广告的特征（商品item的属性，item的流行度，广告商的评级等等）历史的反馈特征（利用历史记录中，已经产生的pv,click信息对应一些特征信息的抽取，利用历史真实的ctr数据进行预估）如每个广告的实时ctr，广告跟性别交叉的ctr在海量的数据当中，首先能够保

2016-09-08 14:55:16 2487

转载 spark MLlib之分类和回归

MLlib支持多种方法用来处理二分分类，多类分类以及回归分析，下表列出了问题及对应的处理方法：问题类型支持的方法二分分类现行SVM，逻辑回归，决策树，贝叶斯多类分类决策树，贝叶斯回归线性最小二乘法，套索，岭回归下面是对这些方法更详细的描述：线性方法数学表达式许多标准的机器学习方法可以表达为凸的优化问题，例如，找到凸函数 f 的极小值取决于变

2016-09-06 16:08:46 2197

原创 eclipse远程提交scala到spark集群问题

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-03-29 17:06:51 2256

原创 hive udf添加永久生效三种方法

1.在$HIVE_CONF_DIR/下添加文件.hiverc在文件中添加udf函数add jar ***.jarcreate temporary funcation **** as ***2.在hive-env.sh配置文件中添加HIVE_AUX_JARS_PATH然后再使用3.下载对应的hive源码包重新编译打包

2015-12-11 11:23:29 7427

原创 hadoop2.*能力调度器capacity-scheduler

capacity-scheduler能力调度器1. 添加用户组dwgroup（集群中的namenode主备机器都要做以下操作）groupadd dwgroup //添加用户组useradd -G dwgroup 用户//将用户加到dwgroup用户组里 2. yarn-site.xml新增配置yarn.resourcemanager

2015-10-28 15:12:54 540

原创 Windows环境下eclipse提交到远程wordcount程序报错 at org.apache.hadoop.util.Shell.runCommand(Shell.java:545)

远程hadoop2.7，本地的windows7程序报错如下：2015-09-28 22:04:21,423 WARN [main] util.NativeCodeLoader (NativeCodeLoader.java:(62)) - Unable to load native-hadoop library for your platform... using builtin-java

2015-10-23 10:00:25 5865 1

转载 hive报错 java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf

启动Hive时报错如下：wamdm@WAMDM5:~/hive/build/dist/bin$ ./hiveException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf at java.lang.Class.forName0(Native Me

2015-09-11 17:31:43 13877 2

原创 hive 1.2.0 load data local数据报错

出错日志如下：15/08/06 18:48:19 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.net.NoRouteToHostException: No route to host at sun.nio.ch.SocketChannelImpl.checkConnect(Native Met

2015-08-07 12:30:21 914

原创 hiveserve1或者hiveserve2对表添加新字段后，desc显示表不存在

环境：hive0.12.0; hiveserver1和hiveserver2引用：http://www.aboutyun.com/thread-12274-1-1.html在hiveserver1上添加新的字段后hiveserver2在hiveserver2 下desc 表的时候显示Query returned non-zero code: 10001, cause:

2015-05-03 18:57:20 889

原创 oracle数据库中的clob大字段同步到不同库之间的问题解决

首先保证有db_link如dca_link 解决方法办法如下：第一步，利用创建临时表来复制远程数据库表中 create global temporary table tmp on commit preserve rows as select * from sch_job_test@dca_link 第二步，利用临时表tmp 把数据导到目标表中 insert into 目标表 selec

2015-03-10 18:03:05 2214 1

转载 GC内存回收

GC学习笔记这是我公司同事的GC学习笔记，写得蛮详细的，由浅入深，循序渐进，让人一看就懂，特转到这里。一、GC特性以及各种GC的选择1、垃圾回收器的特性2、对垃圾回收器的选择2.1 连续 VS. 并行2.2 并发 VS. stop-the-world2.3 压缩 VS. 不压缩 VS. 复制二、GC性能指标三、分代回收

2015-01-22 13:55:47 663

原创在IntelliJ IDEA Community Edition 添加spark1.0.0源码时出错

出错日志：[5709866] ERROR - api.util.objectTree.ObjectNode - JDK: 1.7.0_67 [5709866] ERROR - api.util.objectTree.ObjectNode - VM: Java HotSpot(TM) 64-Bit Server VM 解决办法：在添加spark源码时，如果IDEA没有配

2015-01-19 13:51:04 692

转载 Oracle 锁的原因及解决办法

原因产生的原因最大的可能就是更改数据没有提交事务，数据库就将表锁住！所以在更新时不要用select * from a for update这样的语句很容易锁表，可能用select *,t.rowid from t 这样的语句代替，这个也是数据库推荐使用的语句。

2014-10-31 15:51:44 3182

转载 RSA和DES区别

DES算法好在加/解速度快,密钥量短,采用对称加密RSA算法好在网络容易实现密钥管理,便进行数字签名,算法复杂,加/解速度慢,采用非对称加密RSA的速度。由于进行的都是大数计算，使得RSA最快的情况也比DES慢上100倍，无论是软件还是硬件实现。速度一直是RSA的缺陷。一般来说只用于少量数据加密。 RSA算法 1978年就出现了这种算法，它

2014-09-01 12:44:40 4009

转载 Hadoop-0.20.2公平调度器算法解析

1. 目的本文描述了hadoop中的公平调度的实现算法，公平调度器是由facebook贡献的，适合于多用户共享集群的环境的调度器，其吞吐率高于FIFO，论文参见参考资料[1]。本文分析的Hadoop版本是0.20.2，在新版本（0.21.0）中，公平调度算法已经有了改进与增强。本文组织结构如下：1）目的 2）公平调度介绍 3）公平调度算法分析 4）新版hadoop中公平调度

2014-09-01 11:39:24 488

原创 hadoop2.4的datanode服务启动不了

虚拟机下两台机器一个master一个slave，hadoop启动后master

2014-08-19 11:23:37 431

www_jun的专栏