自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云杉的博客

我的愿望是 世界和平

  • 博客(89)
  • 资源 (3)
  • 收藏
  • 关注

原创 声明,博客地址换啦

本人从2017.3.30日起,会在简书上继续更新技术博客。欢迎查看!简书地址:http://www.jianshu.com/u/4007ac46018d

2017-05-04 18:37:25 732

原创 项目总结文章

项目总结

2017-03-20 09:40:21 857

原创 如何在centos下更改默认版本的python

问题:centos6.5安装了一anaconda和anaconda3两个版本, 这两个版本的python版本也不一样,一个是python2.7.10,一个是python3.5.2那么如何使环境默认为python2.7.10呢?经查看,发现这两个版本的anaconda装在了/root下,我们可以通过执行该命令,实现系统默认某个python版本。[root@Salve7 ~]# alias python

2017-03-12 20:52:57 6320

原创 机器学习总结

学习机器学习模型,要从宏观上来把握该算法。要明白,我们用数据训练模型目的是要训练找出该模型参数。那么有以下几步可以遵循 首先要找到损失函数 然后转化为最优化问题,用梯度下降等方法进行更新 最后模型收敛,得到我们模型的参数注意在找损失函数时有时会遇到这样的情况: 找到的损失函数对该模型的参数并不是连续可导,无法进行更新。这样的话我们就要变换思路换损失函数。

2017-03-12 20:45:10 565

原创 自动评测(ROUGE)及及踩过的坑

最近测试了一个自动摘要的想法,人工看上去还不错。但是没有做评估的话还是心里没底。后来得知,自动摘要用的是一个叫ROUGE的评测体系,包括ROUGE-1、ROUGE-2…ROUGE-N等系列评测方法。于是去ROUGE官网申请,得到一个下载rouge的网址,但是Google一下发现这个评测远不是那么简单。首先,需要安装,于是接下来就开始了我的踩坑之路安装是按照该方法来的:http://www.icst.

2017-03-08 15:23:06 6209

原创 “比赛算法”之xgboost算法系列

前言有幸参加了2016年KDD CUP的数据比赛(2016.03-2016.07),最后获得了第三阶段排名12、总排名31/341的成绩。后来听说当时获得冠军的是清华的一支队伍,用的算法就是xgboost。而后,又陆续听说该算法又获得了两个比赛的冠军,自此,xgboost算法就在我脑海中留下了深刻的印象。xgboost(eXtreme Gradient Boosting)可以说是提升方法的完全加强版

2017-03-07 16:13:17 1761

转载 决策树算法系列——GBDT

参考链接: http://blog.csdn.net/dark_scope/article/details/24863289 http://blog.csdn.net/w28971023/article/details/8240756

2017-03-07 15:59:37 522

原创 决策树系列算法总结——随机森林

改天

2017-03-07 15:50:31 542

原创 机器学习算法分类

算法分类:机器学习的算法繁多,其中很多算法是一类算法,而有些算法又是从其他算法中衍生出来的,因此我们可以按照不同的角度将其分类。本文主要通过学习方式和算法类似性这两个角度将机器学习算法进行分类。学习方式1、监督式学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集需要包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督式学习算

2017-03-07 13:45:10 578

原创 决策树系列算法总结——决策树

在机器习算学法中,如果留意的话会一直看到这几个算法的身影。下面对这三个算法进行一下梳理。 Decision Tree ——>Random Forest ——>DBDT基本概念:Decision Tree:决策树Random Forest:中文称随机森林GBDT:Gradient Boosting Decision Tree(梯度提升决策树)。三者关系: 提到森林,我们就会联想到是一棵棵的树构

2017-03-07 13:36:12 960

转载 Scala入门:类

类和对象是Java、C++等面向对象编程的基础概念。类是用来创建对象的蓝图。定义好类以后,就可以使用new关键字来创建对象简单的类最简单的类的定义形式是:class Counter{ //这里定义类的字段和方法}然后,就可以使用new关键字来生成对象:new Counter //或者new Counter() 给类增加字段和方法下面我们给这个类增加字段和方法:class Count

2017-03-07 10:54:33 326

原创 远程访问(云)服务器上ipython设置

一个好的IED,可以让程序员省心很多。 在本地调试程序,我们可以IDE来进行(如楼主用的python,使用的pycharm),方便快捷 在(云)服务器上调试程序,ipython就是一个不错的选择了。整了一段时间,终于把实验室的ipython环境搭建成功。下面进行一下小结: 环境: 1、centos、python2.7.10、GCC4.4.7 2、在ipython环境前,最好要把python

2017-03-06 16:18:44 2684

原创 节点重要性和相似性

参考书籍:《网络科学导论》 参考博文:http://www.cnblogs.com/maybe2030/p/4665847.html  在我们的现实生活中,许多复杂系统都可以建模成一种复杂网络进行分析,比如常见的电力网络、航空网络、交通网络、计算机网络以及社交网络等等。复杂网络不仅是一种数据的表现形式,它同样也是一种科学研究的手段。复杂网络方面的研究目前受到了广泛的关注和研究,尤其是随着各种在线

2017-03-06 00:22:36 21359 3

转载 scala之数据结构

Scala:数组数组是编程中经常用到的数据结构,一般包括定长数组和变长数组。下面仅介绍定长数组作为入门,变长数组可以自行度娘 定长数组,就是长度不变的数组,在Scala中使用Array进行声明,如下:val intValueArr = new Array[Int](3) //声明一个长度为3的整型数组,每个数组元素初始化为0intValueArr(0) = 12 //给第1个数组元素赋值为12

2017-03-04 14:07:46 1004

转载 scala学习之控制结构

今天接着林老师的scala教程之控制结构,学习内容主要有三个,分别是if 、while、for这三个。不管哪种语言,这三种结构用的都非常非常频繁。所以,sclala语言也不除外。scala:if条件表达式 在Scala中,执行if语句时,会首先检查if条件是否为真,如果为真,就执行对应的语句块,如果为假,就执行下一个条件分支。新建test.scala ,然后 计入编辑,输入如下内容val x

2017-03-03 10:58:47 403

转载 scala学习

参考教程:http://dblab.xmu.edu.cn/blog/spark/ 从头开始学习,一天一部分。(一)安装略 (二)scala基础> 2.1、声明变量Scala有两种类型的变量val类型,是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值; scala> val myStr = "Hello World!" myStr:

2017-03-02 12:16:00 598

转载 Attention机制

转载自:http://blog.csdn.net/malefactor/article/details/50550211Attention机制的基本思想是相当直观简洁的,是从人脑注意力模型引入的概念。人脑的注意力模型,说到底是一种资源分配模型,在某个特定时刻,你的注意力总是集中在画面中的某个焦点部分,而对其它部分视而不见。Encoder-Decoder框架可以这么直观地去理解:可以把它看作适合处理

2017-03-01 20:09:46 2075

原创 Xshell登录不显示登录名框

今天用Xshell登录linux服务器,但是另我意外的是,在我输完ip后,直接蹦出来登录密码框,而登录名显示的是我另一的账号的登录名。 打开会开框可以显示: 怎么办呢,登录名不对,肯定登录不上哇,于是摸索出下面的这条道: 1、点击文件 步2、 3、查找出现的用户名更改后保存即可 4、更改后发现,用户名已经更改过来了 然后登录就行了,搞定!

2017-02-27 17:03:04 13429 3

原创 centos6.x建立用户组和用户名小结

目的: 1、建立用户组sparkgroup 2、有新用户了,可以向用户组里sparkgroup添加用户 步骤: 1、[root@s2 home]# tail /etc/passwd 查看uid. 2、如,此处用还没用的1005 groupadd -g 1010 sparkgroup #建立用户组sparkgroup,其uid为10103、想用户组sparkgroup

2017-02-27 16:18:49 4625

原创 python 编码与解码

一般情况下 文件的编码类型可分为两大类,可以type(line)查看: 1、若line为Unicode类型 Unicode码要想转化为其它编码(如utf-8码),可以直接 line.encode(‘utf-8’)2、若line为str类型 则line又可分为好几类编码,如“ascii”、“utf-8”、“gbk”、“windows-1252”等码。划重点了,假如此时line编码类型是A,若想

2017-02-24 14:40:20 569

原创 Python列表操作总结

列表操作包含以下函数: 1、cmp(list1, list2):比较两个列表的元素 2、len(list):列表元素个数 3、max(list):返回列表元素最大值 4、min(list):返回列表元素最小值 5、list(seq):将元组转换为列表 列表操作包含以下方法: 1、list.append(obj):在列表末尾添加新的对象 2、list.count(obj):统

2017-02-22 00:27:13 596

原创 处理数据(文本)时遇到过的坑

训练词向量时,本来就是准备好格式一定训练文本,然后调用gensim开始训练。但是训练过程中出现了这样的幺蛾子,编码坑UnicodeDecodeError: 'utf8' codec can't decode bytes in position 4229-4231: invalid continuation byte可能原因,文本中有不能解码的字符,无法处理。于是参看一下文本,感觉还不错,效果未知

2017-02-21 00:02:54 663

原创 python处理类xml文件遇到的坑

首先先确定xml文件有两个特点容易忽视, 1、xml文件有且只有一个根节点 2、xml文件的标签的属性都有引号“” 由于对xml文件不熟,并且对python处理xml文件不熟,故这两个坑用了将近一天的时间来填,谨记说到填坑,要特备感谢一驻马店的老乡“驻马店bd”qq已备注。不是他的帮助,估计还要整好长时间。特此感谢,虽然他看不到。那么我处理的文件到底什么样子呢,请看图: 就这这么个德行

2017-02-18 00:54:27 9089

原创 用word2vec训练文本摘要的词向量模型

在记录这篇博文前,有个声明: 1、训练文本时是分过词的文本,词与词之间为空格。不同类别的文档要最终写成一个文本,该文本是训练集所有文档的集合。 2、训练文本摘要的词向量模型我现在不知道怎么训练? 是把训练集中的摘要和正文对齐一块训练,还是单独训练正文的 部分。ok,下面是正文部分。 a、词向量是其他任务的前置任务。词向量是无监督学习出来的,后置任务直接用。所以我应该把中文和摘要做

2017-02-15 23:48:22 4856 1

原创 写代码训练词向量时踩过的坑

在用python的第三方包gensim训练词向量时,踩到了如下的坑,记录下来: # -*- coding: utf-8 -*- from gensim.models import word2vec #sentences=word2vec.Text8Corpus(u"C:\\Users\\PengjunZhu\\Desktop\\test1.txt") sentences = [['处理'

2017-02-14 00:11:50 3288 1

原创 利用Word2Vec训练词向量过程

先明确一点,选用不同的词向量作为模型的初始值,效果的差异非常大!那么怎么产生一个好的词向量呢?参看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F1、英文的词向量可以训练,也可以用Google训练好的那个模型。 2、但是中文就不行了,没有一个公布一个权威的词向量。所以,当我们自己做试验时,就需要动手训练这个语义空间的词向量(

2017-02-11 02:05:40 10490 2

原创 如何写一个propose

场景设定:假如你要向你的导师、领导等提出一个新的想法时,那么你不能仅仅的凭嘴去跟他(她),这显得很苍白无力。怎么办呢?这是你需要向他提交一个propose。propose的中文翻译称作“提议”,它其实包括几个部分,分别是介绍(INTRODUCTION 介绍你提出问题的背景及动机)、问题(PROBLEM 也就是现在你发现存在的问题)、计划(PLAN 也就是你解决该问题的思路)、状态( SOTA 即调研

2017-01-20 21:13:48 1316

原创 智能医疗---医疗实体识别

跳进NLP这个坑之后,我一直想用NLP 技术做些实用的创新。比如智能医疗中的医疗问答(或称为医疗决策系统)。你可以想像一下未来的场景,小病什么的,你不用再去医院,你问下你的“私人助手”就可以得到答案。学医的孩子也幸福了,不用在上很长时间的学去学习医学,以为有面向医生的医疗决策系统,你给你的病人看病的理论支撑可以被迅速锁定。理想很丰满,现实很骨干。智慧医疗其实还有很多路要走。今天说下医疗实体识别。医疗

2017-01-20 21:01:37 4940 1

转载 shell编程时的坑

定义变量 定义变量时,变量名不加美元符号($),如: variableName=”value”注意,变量名和等号之间不能有空格变量名的命名须遵循如下规则:1、 首个字符必须为字母(a-z,A-Z)。 2、 中间不能有空格,可以使用下划线(_)。 3、不能使用标点符号。 4、不能使用bash里的关键字(可用help命令查看保留关键字)。使用变量 使用变量的时候才

2017-01-11 11:07:40 408

转载 shell常用命令解释--echo

参考 http://c.biancheng.net/cpp/view/7003.htmlecho是Shell的一个内部指令,用于在屏幕上打印出指定的字符串。命令格式: echo arg您可以使用echo实现更复杂的输出格式控制。显示转义字符 echo “\”It is a test\”“结果将是: “It is a test”双引号也可以省略。显示变量name="OK"echo "$

2017-01-10 16:02:48 344

转载 shell学习--变量

其实用linux时间已经不短了,已经有一年多了,但是确实没有认真的学习过shell,惭愧!下面我就参照这位大神去学习下shell http://cn.linux.vbird.org/linux_basic/0340bashshell-scripts.php http://blog.csdn.net/killua_hzl/article/details/45958671、编辑shell文件

2017-01-10 14:22:36 283

原创 Spark独立应用程序编程

上文搭建了spark平台,本文通过一个简单的应用程序 SimpleApp 来演示如何通过 Spark API 编写一个独立应用程序。使用 Scala 编写的程序需要使用 sbt 进行编译打包。相应的,Java 程序使用 Maven 编译打包,而 Python 程序通过 spark-submit 直接提交。 1、安装sbt 2、Scala应用程序代码

2017-01-10 13:16:39 2209

原创 2017年想要学习的技术

2016年已经过去了,仍然还有许多事情没有完成。记录下来,以后闲了在学。勿忘初心,方得始终! 1、NLP领域经典的算法 2、spark实战 3、微信小程序开发 4、pyQt技术 5、网站的搭建

2017-01-10 10:34:49 434

原创 微信小程序初识

今天网上和朋友圈炸开了锅,原因是微信小程序正式上线了。吃瓜群众表示不理解,于是去搜了下。不搜不要紧,搜了吓一跳,原来微信小程序早在2016年9月份就已经进行了内测,官方放出了部分的开发文档。有一句话我特别震撼“APP已死,服务永生”。整个行业开始骚动起来,甚至有人说小程序是可以手撕百度,脚踹阿里..,若真如此,我怎能落后呢于是,我去搜了下微信小程序,看看它是何方神圣。有媒体给出了这么高的评价 “

2017-01-09 11:24:34 655

转载 在ubuntu 16.04上搭建spark平台

在ubuntu16.04上搭建单机版的spark平台

2017-01-02 18:53:34 3368

原创 用python打开文件总结

1、参考了该文章,写的不错 http://blog.csdn.net/heyijia0327/article/details/42506063, 这里面介绍了 a、写入浮点数到txt文件(用with语句) b、从txt文件提取浮点数到numpy数组或list列表写的不错。假设每次有两个浮点数需要写入txt文件,这里提供用with关键字打开文件的方法,使用with打开文件是一个很好的习

2016-12-24 00:29:14 852

原创 对PGM的一些理解

PGM全称叫概率图模型,没学之前,感觉没什么用。现在学习了,感觉用处太大了。下面就我的一些学习感悟及学习路程记录下来,难免会有些错误的思想,欢迎走过路过的朋友多多指正。 2016.12.23 我是学习PRML这本经典的教材,现在在学习8.4.4节,“和—积 算法”,几天就先写这一节的感悟,前面几节以后补上。 1、该算法是一个高效的求变量x的边缘概率分布的算法。 2、该算法首先

2016-12-23 00:43:39 5097

转载 centos 不小心把yum删除了的拯救办法

今天遇到一个问题,centos6.8系统上的yum命令被删除,导致没有了yum , 找了许多办法都没有解决,最后通过如下两个文档解决了 1、参考一 http://blog.sina.com.cn/s/blog_643754960102w82m.html这篇文章不错,但是在步2因为报错: no module named rpm,没能解决我的问题然后找到了参考文档2,两行代码搞定 参考2 htt

2016-12-09 00:32:08 14171 4

原创 搭建网站之路

我是在申请一个阿里云服务器之后才想起搭建网站的,哈哈,我的驱动力就是好玩。下面说下我搭建人生中中第一个网站(博客)的心里路程1、首先申请一个服务器  我申请的是阿里云服务器,centos6.6的操作系统,1G内存,20G的磁盘容量,搭建一个个人网站来说,完全够了   由于是学生,服务器申请下来,花了不到60块钱,半年。2、申请域名—备案。   申请域名是在有搭建网站这个念头之后

2016-12-04 22:12:07 492

原创 ubuntu16.04下安装xgboost

载ubuntu16.04下安装一个特别牛逼的python第三方包xgboost

2016-11-29 10:07:26 2391 1

搭建Hadoop伪分布

搭建hadoop时的手写教程、教你避开一些技术障碍

2016-04-25

自动问答介绍

这是自然语言处理领域(NLP)刚入门时一个不错的参考文档,回顾了该领域的的发展历程及应于技术....

2016-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除