自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 word ladder2

http://www.bubuko.com/infodetail-914469.htmlhttps://www.cnblogs.com/ShaneZhang/p/3748494.html还行 看看这俩解释就行

2019-08-14 16:12:51 88

转载 word2vec原理机制(转)

http://blog.csdn.net/itplus/article/details/37969817

2017-03-20 17:25:35 262

转载 hashtree处理哈希冲突的数据结构

这个文章上写的挺明白http://blog.csdn.net/yang_yulei/article/details/46337405

2016-12-28 16:35:36 280

转载 mapreduce中的shuffle

http://www.aboutyun.com/thread-7078-1-1.html?nsukey=5oO5WkWQ%2BaQAmEzbAhGX2ib%2BmkZDwz5e%2Fy%2FzBMIRgCTefUydcjlMQTnyVgDGK6CIZIZjhYjUM%2Bx8jEy5Q3VPMx3wwrs3QEghqBSBUHgKeLsDRPtuPjbzHeDYNiEsizRKe92MrJ

2016-12-06 14:06:22 232

原创 LDA及 专家发现小论文

首先,可以用生成模型来看文档和主题这两件事。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为:        这个概率公式可以用矩阵表示:        其中”文档-词语”矩阵表示每个文档中每个单词的词频,即出

2016-10-17 22:38:30 326

原创 unique path II 动态规划 用一位数组完成

上面这个是我自己写的  用二维数组  记录到达每个位置的路径个数、public int uniquePathsWithObstacles(int[][] g) {        if(g.length==0||g==null) return 0;        int m=g.length;        int n=g[0].length;        int[][]

2016-09-12 21:58:41 292

原创 动态规划

能采用动态规划求解的问题的一般要具有3个性质:    (1) 最优化原理:如果问题的最优解所包含的子问题的解也是最优的,就称该问题具有最优子结构,即满足最优化原理。    (2) 无后效性:即某阶段状态一旦确定,就不受这个状态以后决策的影响。也就是说,某状态以后的过程不会影响以前的状态,只与当前状态有关。   (3)有重叠子问题:即子问题之间是不独立的,一个子问题在下一阶段决策

2016-08-28 17:43:11 691

原创 回溯算法

import java.util.ArrayList;import java.util.Arrays;import java.util.List;public class ConbinnationSum {    List> ll=new ArrayList>();    public static void main(String[] args) {

2016-08-26 10:41:38 227

原创 决策树 逻辑回归 KNN 的原理

决策树:每个内部节点代表一种特征 叶子节点代表 一种分类。基于训练数据建立决策树的过程是 特征选取的过程,递归地根据特征的信息增益来选取信息增益较大的特征 当做决策树的节点。这样的决策树生成算法叫 ID3算法,将ID3算法中的信息增益换成信息增益比 便是C4.5 算法,这两个算法的过程都是极大似然估计的过程。为了防止过拟合,将生成的决策树进行剪枝 简化:建立损失函数 包含两部分 对训练数据的预

2016-06-20 14:35:45 798

原创 python 写爬虫

http://www.zhihu.com/question/20899988 参考这个知乎的答案用requests and bs4 轻松爬取静态页面作者:挖数链接:http://www.zhihu.com/question/20899988/answer/96904827来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。以

2016-06-13 21:51:22 283

原创 TF-IDF 原始用去 计算判断 某个词语对文章的重要性

TF-IDF  我在对新闻分类的工作中用过 找文本的关键词后来 做新闻实体共现网络的时候 又用来找新闻文本中的关键实体今天 好好把它看了下 就是TF 和 IDF 两部分乘积嘛  后期有很多参数改进嘛

2016-06-13 16:40:47 416

原创 关于基于复杂网络的数据挖掘的学习笔记

最近一直投身 复杂网络的各种问题  简单记录一下 我这一路关注的问题开始学到用聚集系数来判别垃圾短信的发送号码  我就想临摹一个 用聚集系数在微信朋友关系中 判别微商  结果是失败的  一是取不到数据  二是 微商很多就是买给熟人 他的朋友不一定不是朋友  他的聚集系数就不一定低  所以失效然后我就对聚集系数依旧念念不忘  寻找他与网络基本属性:度分布 中介性 介数 k-c

2015-12-09 21:22:52 2427 3

原创 mapreduce Wordcount输入文件在hdfs上的实例

package org.tseg.hadoop.example;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hdfs.DistributedFileSys

2015-11-23 21:02:26 434

转载 重拾 hadoop mapreduce 学习 一

开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架

2015-11-23 19:16:38 302

原创 用中科院ICTCLAS2015分词器的java接口

要做中文文本的分类  自然首要步骤就是分词(切词)咯  就用了中科院这个分词工具 一开始下了这个工具 看了说明文档也各种迷茫 各种查各种问后  得到如下调用ICTCLAS2015分词器的java接口的方法另附:还有一个同学写的方法 http://blog.csdn.net/blockheadls/article/details/49737599#userconsent#1、在ICT

2015-11-22 22:22:15 1262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除