limengxinlirongrong-CSDN博客

原创 word ladder2

http://www.bubuko.com/infodetail-914469.htmlhttps://www.cnblogs.com/ShaneZhang/p/3748494.html还行看看这俩解释就行

2019-08-14 16:12:51 88

转载 word2vec原理机制（转）

http://blog.csdn.net/itplus/article/details/37969817

2017-03-20 17:25:35 262

转载 hashtree处理哈希冲突的数据结构

这个文章上写的挺明白http://blog.csdn.net/yang_yulei/article/details/46337405

2016-12-28 16:35:36 280

转载 mapreduce中的shuffle

http://www.aboutyun.com/thread-7078-1-1.html?nsukey=5oO5WkWQ%2BaQAmEzbAhGX2ib%2BmkZDwz5e%2Fy%2FzBMIRgCTefUydcjlMQTnyVgDGK6CIZIZjhYjUM%2Bx8jEy5Q3VPMx3wwrs3QEghqBSBUHgKeLsDRPtuPjbzHeDYNiEsizRKe92MrJ

2016-12-06 14:06:22 232

原创 LDA及专家发现小论文

首先，可以用生成模型来看文档和主题这两件事。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么，如果我们要生成一篇文档，它里面的每个词语出现的概率为：这个概率公式可以用矩阵表示：其中”文档-词语”矩阵表示每个文档中每个单词的词频，即出

2016-10-17 22:38:30 326

原创 unique path II 动态规划用一位数组完成

上面这个是我自己写的用二维数组记录到达每个位置的路径个数、public int uniquePathsWithObstacles(int[][] g) { if(g.length==0||g==null) return 0; int m=g.length; int n=g[0].length; int[][]

2016-09-12 21:58:41 292

原创动态规划

能采用动态规划求解的问题的一般要具有3个性质： (1) 最优化原理：如果问题的最优解所包含的子问题的解也是最优的，就称该问题具有最优子结构，即满足最优化原理。 (2) 无后效性：即某阶段状态一旦确定，就不受这个状态以后决策的影响。也就是说，某状态以后的过程不会影响以前的状态，只与当前状态有关。（3）有重叠子问题：即子问题之间是不独立的，一个子问题在下一阶段决策

2016-08-28 17:43:11 691

原创回溯算法

import java.util.ArrayList;import java.util.Arrays;import java.util.List;public class ConbinnationSum { List> ll=new ArrayList>(); public static void main(String[] args) {

2016-08-26 10:41:38 227

原创决策树逻辑回归 KNN 的原理

决策树：每个内部节点代表一种特征叶子节点代表一种分类。基于训练数据建立决策树的过程是特征选取的过程，递归地根据特征的信息增益来选取信息增益较大的特征当做决策树的节点。这样的决策树生成算法叫 ID3算法，将ID3算法中的信息增益换成信息增益比便是C4.5 算法，这两个算法的过程都是极大似然估计的过程。为了防止过拟合，将生成的决策树进行剪枝简化：建立损失函数包含两部分对训练数据的预

2016-06-20 14:35:45 798

原创 python 写爬虫

http://www.zhihu.com/question/20899988 参考这个知乎的答案用requests and bs4 轻松爬取静态页面作者：挖数链接：http://www.zhihu.com/question/20899988/answer/96904827来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。以

2016-06-13 21:51:22 283

原创 TF-IDF 原始用去计算判断某个词语对文章的重要性

TF-IDF 我在对新闻分类的工作中用过找文本的关键词后来做新闻实体共现网络的时候又用来找新闻文本中的关键实体今天好好把它看了下就是TF 和 IDF 两部分乘积嘛后期有很多参数改进嘛

2016-06-13 16:40:47 416

原创关于基于复杂网络的数据挖掘的学习笔记

最近一直投身复杂网络的各种问题简单记录一下我这一路关注的问题开始学到用聚集系数来判别垃圾短信的发送号码我就想临摹一个用聚集系数在微信朋友关系中判别微商结果是失败的一是取不到数据二是微商很多就是买给熟人他的朋友不一定不是朋友他的聚集系数就不一定低所以失效然后我就对聚集系数依旧念念不忘寻找他与网络基本属性：度分布中介性介数 k-c

2015-12-09 21:22:52 2427 3

原创 mapreduce Wordcount输入文件在hdfs上的实例

package org.tseg.hadoop.example;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hdfs.DistributedFileSys

2015-11-23 21:02:26 434

开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技术解决了什么问题时候，我后续的学习就能逐步的加快，而学习hdfs时候我就发现，要理解hadoop框架

2015-11-23 19:16:38 302

原创用中科院ICTCLAS2015分词器的java接口

要做中文文本的分类自然首要步骤就是分词（切词）咯就用了中科院这个分词工具一开始下了这个工具看了说明文档也各种迷茫各种查各种问后得到如下调用ICTCLAS2015分词器的java接口的方法另附：还有一个同学写的方法 http://blog.csdn.net/blockheadls/article/details/49737599#userconsent#1、在ICT

2015-11-22 22:22:15 1262

limengxinlirongrong的博客