自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

转载 如何计算两个文档的相似度(二)

上一节我们介绍了一些背景知识以及gensim , 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,下一节再介绍其在课程图谱上的应用。二、gensim的安装和使用1、安装gensim依赖NumPy和SciPy这两大Python科学计算工具包,一种简单的安装方法是pip install,但是国内因为网络的缘故常常失

2016-08-28 21:43:36 533

翻译 polyglot库介绍

polyglotTokenization (165 Languages)     分词Language detection (196 Languages)   识别是什么语言Named Entity Recognition (40 Languages)  实体识别Part of Speech Tagging (16 Languages)  词性标注Sentime

2016-08-27 21:41:51 1828

原创 go语言学习

goroot 与gopath区别Thus, GOROOT sets the location of standard library, and GOPATH is fornonstandard libraries. One library should not be at both locations at once.go语言的标准库 在goroot下,非标准库 在gopath

2016-08-01 17:10:16 513

转载 windows下用eclipse+goclipse插件+gdb搭建go语言开发调试环境

windows下用eclipse+goclipse插件+gdb搭建go语言开发调试环境目前go语言在window或者linux操作系统上,最好的go语言开发调试环境都是由eclipse+goclipse插件+gdb搭建的。如果你还没有搭建好go语言的开发环境,请参考这篇博文《windows下Go语言的安装和开发环境搭建》。一般大家用eclipse都是开发java,如果要开发go

2016-07-28 10:27:58 7163

原创 pig 问题集锦

1、通过调用udf生成bag,报错:ERROR 1068: Using Bag as key not supported.import sysfrom pig_util import outputSchemaimport rerm = re.compile('\\|Gd ([^|]*)')@outputSchema("{t:(inner_field_name_1:chararr

2015-08-19 11:04:00 498

原创 python 框架

spynner

2014-08-02 18:05:35 326

转载 java ProtocolBuffer 三种修饰符的意义及缺失问题

每个字段必须用以下修饰符之一来进行标注:1.required:用这个修饰符来标注的字段必须给该字段提供一个值,否则该消息会被认为未被初始化。尝试构建一个未被初始化的消息会抛出一个RuntimeException异常。解析未被初始化的消息时,会抛出一个IOException异常。其他方面,该类型字段的行为与可选类型字段完全一样;2.optional:用这个修饰符来标注的字段可以设定值

2014-05-22 16:41:54 506

转载 Jedis使用示例

Jedis 是 Redis 官方首选的 Java 客户端开发包。工作过程总结的一个示例,贴出来,如下:

2014-05-14 17:09:22 327

转载 Hadoop : MapReduce中的Shuffle和Sort分析 转载自:http://cache.baidu.com/c?

Hadoop : MapReduce中的Shuffle和Sort分析转载自:http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece763104c90354501de2b3fdcda107cd6924a84642c1a0131a8ec302267558e9a61375ff21c41e9f7357731012ba3de95c81cd2facf6

2014-05-09 14:33:02 442

转载 SecondarySort代码的注释

package org.apache.hadoop.examples; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; impo

2014-05-08 11:21:30 358

转载 Eclipse的自动代码格式化相关

取消Eclipse的自动代码格式化Posted on 2009-04-22 10:13 ZhouFeng 阅读(3075) 评论(2)  编辑  收藏 所属分类: 原创 、Eclipse  前段时间在Eclipse里面设置了java文件保存时自动格式化,在java->Code Style->Formatter里设置了自定义的格式化的样式,这样每次保存后都会自动格式化代码,用了一段时间感觉还

2014-05-07 14:19:43 385

转载 Hadoop Map中获取当前spilt文件名

Hadoop Map中获取当前spilt文件名hadoopmapreducemap获取路径有时候需要在Map类中的map函数中获取当前split所读取的文件名。在旧版mapred下面实现方法如下:// 获得输入文件的路径名String path=((FileSplit)reporter.getInputSplit()).getPath().toString();//

2014-05-06 18:09:47 676

转载 serialVersionUID的作用

serialVersionUID的作用  2011-05-12 16:04:19|  分类: java|举报|字号 订阅在很多应用中,需要对某些对象进行序列化,让它们离开内存空间,入住物理硬盘,以便长期保存。比如最常见的是Web服务器中的Session对象,当有10万用户并发访问,就有可能出现10万个Session对象,内存可能吃不消,于是Web容器就会把一些seesion

2014-05-04 16:04:18 335

转载 Hadoop操作HDFS命令

Hadoop操作HDFS命令Hadoop操作HDFS命令如下所示: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunlightcs 将本地文件系统的test.

2014-05-04 11:21:39 379

转载 如何在hadoop中控制map的个数

但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,默认为64M,可以通过参数dfs.block.size设置total_size : 输入文件整体的大小input_file_num : 输入文件

2014-05-04 09:43:11 389

转载 Hadoop HDFS中的数据块和Map任务的分片

Hadoop HDFS中的数据块和Map任务的分片[日期:2012-05-26]来源:Linux社区 作者:supercharles[字体:大 中 小]HDFS的数据块磁盘数据块是磁盘进行数据读/写的最小单位,一般是512字节,而HDFS中也有数据块,默认为64MB。所以HDFS上的大文件被分为许多个chunk.而

2014-04-30 18:18:15 466

转载 hadoop中每个节点map和reduce个数的设置调优

hadoop中每个节点map和reduce个数的设置调优  2012-02-21 14:40:32|  分类: hadoop|举报|字号 订阅map red.tasktracker.map.tasks.maximum 这个是一个task tracker中可同时执行的map的最大个数,默认值为2,看《pro hadoop》:it is common to set this value

2014-04-30 17:25:58 3670

转载 Hadoop相关的考题

Hadoop相关的考题//Hadoop基础Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是A.    HadoopB.    NutchC.    LuceneD.    Solr答案:D配置Hadoop时,JAVA_HOME包含在哪一个配置文件中A.    hadoop-default.xmlB.    h

2014-04-30 16:56:47 1063

转载 ThreadLocal的使用方法

ThreadLocal的使用方法  2012-10-30 20:02:31|  分类: Java |  标签:java  threadlocal  |举报|字号 订阅ThreadLocal的含义是Thread Local Variable,它可以声明一个字段,使得不同的线程访问这个字段时,获取的都是不同的副本,互不影响。ThreadLocal的作用和在每

2014-04-29 11:01:28 504

转载 Java中HashMap和TreeMap的区别深入理解

Java中HashMap和TreeMap的区别深入理解发布:whsnow字体:[增加 减小]类型:转载首先介绍一下什么是Map。在数组中我们是通过数组下标来对其内容索引的,而在Map中我们通过对象来对对象进行索引,用来索引的对象叫做key,其对应的对象叫做value首先介绍一下什么是Map。在数组中我们是通过数组下标来对其内容索引的,而在Map中我们通过对象来对对象进行索引,用来索

2014-04-29 10:42:02 401

原创 测试

算法工程师硕士、博士2职位详情学历要求:硕士、博士职位要求:1、硕士、博士学位,计算机、数学或其他相关专业2、两年以上工作经验3、自然语言处理、机器学习、信息检索、数据挖掘方面的知识和经验4、在线广告、搜索引擎方面的研发经验5、大规模互联网应用方面的研发经验6、数据库、分布式计算、在线服务系统方面的研发经验7、很强的分

2014-04-28 18:51:06 231

Hadoop技术内幕:深入解析YARN架构设计与实现原理.pdf

Hadoop技术内幕:深入解析YARN架构设计与实现原理.pdf

2014-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除