- 博客(21)
- 资源 (1)
- 收藏
- 关注
转载 如何计算两个文档的相似度(二)
上一节我们介绍了一些背景知识以及gensim , 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,下一节再介绍其在课程图谱上的应用。二、gensim的安装和使用1、安装gensim依赖NumPy和SciPy这两大Python科学计算工具包,一种简单的安装方法是pip install,但是国内因为网络的缘故常常失
2016-08-28 21:43:36 533
翻译 polyglot库介绍
polyglotTokenization (165 Languages) 分词Language detection (196 Languages) 识别是什么语言Named Entity Recognition (40 Languages) 实体识别Part of Speech Tagging (16 Languages) 词性标注Sentime
2016-08-27 21:41:51 1828
原创 go语言学习
goroot 与gopath区别Thus, GOROOT sets the location of standard library, and GOPATH is fornonstandard libraries. One library should not be at both locations at once.go语言的标准库 在goroot下,非标准库 在gopath
2016-08-01 17:10:16 513
转载 windows下用eclipse+goclipse插件+gdb搭建go语言开发调试环境
windows下用eclipse+goclipse插件+gdb搭建go语言开发调试环境目前go语言在window或者linux操作系统上,最好的go语言开发调试环境都是由eclipse+goclipse插件+gdb搭建的。如果你还没有搭建好go语言的开发环境,请参考这篇博文《windows下Go语言的安装和开发环境搭建》。一般大家用eclipse都是开发java,如果要开发go
2016-07-28 10:27:58 7163
原创 pig 问题集锦
1、通过调用udf生成bag,报错:ERROR 1068: Using Bag as key not supported.import sysfrom pig_util import outputSchemaimport rerm = re.compile('\\|Gd ([^|]*)')@outputSchema("{t:(inner_field_name_1:chararr
2015-08-19 11:04:00 498
转载 java ProtocolBuffer 三种修饰符的意义及缺失问题
每个字段必须用以下修饰符之一来进行标注:1.required:用这个修饰符来标注的字段必须给该字段提供一个值,否则该消息会被认为未被初始化。尝试构建一个未被初始化的消息会抛出一个RuntimeException异常。解析未被初始化的消息时,会抛出一个IOException异常。其他方面,该类型字段的行为与可选类型字段完全一样;2.optional:用这个修饰符来标注的字段可以设定值
2014-05-22 16:41:54 506
转载 Hadoop : MapReduce中的Shuffle和Sort分析 转载自:http://cache.baidu.com/c?
Hadoop : MapReduce中的Shuffle和Sort分析转载自:http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece763104c90354501de2b3fdcda107cd6924a84642c1a0131a8ec302267558e9a61375ff21c41e9f7357731012ba3de95c81cd2facf6
2014-05-09 14:33:02 442
转载 SecondarySort代码的注释
package org.apache.hadoop.examples; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; impo
2014-05-08 11:21:30 358
转载 Eclipse的自动代码格式化相关
取消Eclipse的自动代码格式化Posted on 2009-04-22 10:13 ZhouFeng 阅读(3075) 评论(2) 编辑 收藏 所属分类: 原创 、Eclipse 前段时间在Eclipse里面设置了java文件保存时自动格式化,在java->Code Style->Formatter里设置了自定义的格式化的样式,这样每次保存后都会自动格式化代码,用了一段时间感觉还
2014-05-07 14:19:43 385
转载 Hadoop Map中获取当前spilt文件名
Hadoop Map中获取当前spilt文件名hadoopmapreducemap获取路径有时候需要在Map类中的map函数中获取当前split所读取的文件名。在旧版mapred下面实现方法如下:// 获得输入文件的路径名String path=((FileSplit)reporter.getInputSplit()).getPath().toString();//
2014-05-06 18:09:47 676
转载 serialVersionUID的作用
serialVersionUID的作用 2011-05-12 16:04:19| 分类: java|举报|字号 订阅在很多应用中,需要对某些对象进行序列化,让它们离开内存空间,入住物理硬盘,以便长期保存。比如最常见的是Web服务器中的Session对象,当有10万用户并发访问,就有可能出现10万个Session对象,内存可能吃不消,于是Web容器就会把一些seesion
2014-05-04 16:04:18 335
转载 Hadoop操作HDFS命令
Hadoop操作HDFS命令Hadoop操作HDFS命令如下所示: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunlightcs 将本地文件系统的test.
2014-05-04 11:21:39 379
转载 如何在hadoop中控制map的个数
但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,默认为64M,可以通过参数dfs.block.size设置total_size : 输入文件整体的大小input_file_num : 输入文件
2014-05-04 09:43:11 389
转载 Hadoop HDFS中的数据块和Map任务的分片
Hadoop HDFS中的数据块和Map任务的分片[日期:2012-05-26]来源:Linux社区 作者:supercharles[字体:大 中 小]HDFS的数据块磁盘数据块是磁盘进行数据读/写的最小单位,一般是512字节,而HDFS中也有数据块,默认为64MB。所以HDFS上的大文件被分为许多个chunk.而
2014-04-30 18:18:15 466
转载 hadoop中每个节点map和reduce个数的设置调优
hadoop中每个节点map和reduce个数的设置调优 2012-02-21 14:40:32| 分类: hadoop|举报|字号 订阅map red.tasktracker.map.tasks.maximum 这个是一个task tracker中可同时执行的map的最大个数,默认值为2,看《pro hadoop》:it is common to set this value
2014-04-30 17:25:58 3670
转载 Hadoop相关的考题
Hadoop相关的考题//Hadoop基础Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是A. HadoopB. NutchC. LuceneD. Solr答案:D配置Hadoop时,JAVA_HOME包含在哪一个配置文件中A. hadoop-default.xmlB. h
2014-04-30 16:56:47 1063
转载 ThreadLocal的使用方法
ThreadLocal的使用方法 2012-10-30 20:02:31| 分类: Java | 标签:java threadlocal |举报|字号 订阅ThreadLocal的含义是Thread Local Variable,它可以声明一个字段,使得不同的线程访问这个字段时,获取的都是不同的副本,互不影响。ThreadLocal的作用和在每
2014-04-29 11:01:28 504
转载 Java中HashMap和TreeMap的区别深入理解
Java中HashMap和TreeMap的区别深入理解发布:whsnow字体:[增加 减小]类型:转载首先介绍一下什么是Map。在数组中我们是通过数组下标来对其内容索引的,而在Map中我们通过对象来对对象进行索引,用来索引的对象叫做key,其对应的对象叫做value首先介绍一下什么是Map。在数组中我们是通过数组下标来对其内容索引的,而在Map中我们通过对象来对对象进行索引,用来索
2014-04-29 10:42:02 401
原创 测试
算法工程师硕士、博士2职位详情学历要求:硕士、博士职位要求:1、硕士、博士学位,计算机、数学或其他相关专业2、两年以上工作经验3、自然语言处理、机器学习、信息检索、数据挖掘方面的知识和经验4、在线广告、搜索引擎方面的研发经验5、大规模互联网应用方面的研发经验6、数据库、分布式计算、在线服务系统方面的研发经验7、很强的分
2014-04-28 18:51:06 231
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人