自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (2)
  • 收藏
  • 关注

原创 java.lang.NoSuchMethodError: breeze.linalg.DenseVector$.canSetD()

背景:跑时间序列模型报错环境:scala 2.11 + spark 2.0报错:java.lang.NoSuchMethodError: breeze.linalg.DenseVector$.canSetD()...........解决:(1) 经查,同一个包的两个版本均存在,即breeze_2.10 和 breeze_2.11,但其中breeze_2.10被exclude掉(2) 查breez_...

2018-05-23 15:19:52 1275 2

转载 特征离散和特征选择

连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0、 离散特征的增加和减少都很容易,易于模型的

2018-03-20 17:18:36 2545

原创 scala map排序

def main(args: Array[String]): Unit = { val aMap = new scala.collection.mutable.HashMap[String, Double] val a = Array("A", "B", "C", "D") val b = Array(4, 5, 8, 9) for(i <- a.indices){

2017-06-29 16:52:20 7903

原创 Mac virtualenv创建新环境报错

前言:Mac,已经安装好virtualenv但是创建沙箱环境的时候报错,报错信息如下:Arons-MacBook-Pro:virtualenv_tensorflow aron$ virtualenv venv_tensorflowNew python executable in /Users/aron/Documents/work_python/virtualenv_tensorflow

2017-05-04 20:41:22 2195

原创 NoSuchMethodError:org.apache.spark.rdd.RDD.mapPartitionsInternal$default$2()Z

变态的spark sql 解决方案:版本!!!!!!

2017-03-16 21:45:44 1578

原创 spark sqlContext异常

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/types/DataTypeParser at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(

2017-03-14 19:48:36 3355 2

原创 Theano predict

def predict( dim_proj=128, # word embedding的维数和隐藏层的维数,用默认值。(word embedding是一种将一个词转成一个向量的过程,这里不去深究) patience=10, # 该参数用于earlystop,如果10轮迭代的误差没有降低,就进行earlystop max_epochs=4000,

2017-01-05 17:48:53 468

原创 Python 多进程

import multiprocessingimport timedef func(msg): for i in xrange(3): print msg time.sleep(1) # 休眠1秒# 单进程def one_process(): p = multiprocessing.Process(target=func, args=("hello",))

2016-12-22 16:56:33 671

原创 多叉树遍历

import nltk.tree as tree# 递归遍历def test(t): if isinstance(t, str): print t else: for i in range(len(t)): test(t[len(t)-i-1])# 非递归遍历def test_2(t): stack = []

2016-12-22 16:00:40 1038

转载 git 给远程库 添加多个url地址

前提一般来说,我们为git增加远程库,一般都是git remote add origin  ( 你可以使用真实的地址来代替 \ )但是你可能想要把你的本地的git库,既push到github上,又push到开源中国的Git@OSC上,怎么解决呢。有人可能会用两个甚至多个远程库,即再添加一个远程库git remote add origin2;这个方法很低效,因为你要git pus

2016-12-19 09:45:44 8211 2

原创 NLTK+stanford parser

在使用NLTK+stanford parser进行句法分析的时候发现,包含某些字、词的句子无法进行解析(如“你”,“一样”),一开始以为是stanford parser的问题,后来才发现是nltk中stanford.py文件的某行代码作祟:stdout = stdout.replace(b'\xa0',b' ')你:\xe4\xbd\xa0 一样:\xe4\xb8\x80\xe6\xa0\x

2016-12-14 16:41:06 1487

原创 读取HDFS文件目录的方法

欢迎使用Markdown编辑器写博客首先添加依赖://注意后面的provided,缺少会报包冲突的错误libraryDependencies += "org.apache.hadoop" % "hadoop-hdfs" % "2.7.2"%"provided"import org.apache.hadoop.fs.{FileSystem, FileUtil, Path}val hdfsPath

2016-12-12 19:35:39 6641

原创 sftp上传文件夹

情景:利用sftp中将本地文件夹/home/sentiment/Data (内包含子文件夹) ,复制到服务器的/home/work目录下 命令: put步骤:1.首先定位到远程/home/work/目录下: cd /home/work/2.在word目录下新建Data文件夹: mkdir Data3.进入远程Data文件夹: cd Data4.本地定位到sentiment文

2016-11-08 15:18:54 42273

原创 ubuntu系统上SSH连接掉线问题

本地系统: ubuntu远程系统: ubuntu连接工具: ssh问题: 连接后如果一段时间不操作, 就会自动断开连接解决方案:1. sudo gedit /etc/ssh/ssh_config , 如果不存在则加上 ServerAliveInterval 152. sudo gedit /etc/ssh/sshd_config, 如果不存在则加上 ClientAl

2016-11-08 14:36:24 5210

原创 对偶问题小解释

有空再加:

2016-05-20 15:50:21 452

原创 spark LDA 训练和预测

2016-05-20 15:44:42 1791

原创 scala中.map()方法

scala中 .map()方法的三种案例,能可以说明的问题: 1、T.map()  => T 2、只有RDD.map()  是懒操作,,其他不是

2016-05-20 15:41:59 5001

原创 Spark中TF_IDF含义

Spark中MLlib库中集成有计算TF_IDF的方法,其输出结果的含义如下:疑问:1、输出的TF值并不是词频,,而是词数(注意词频和词数的区别)

2016-05-20 15:33:22 451

原创 RDD转成DataFrame报错

RDD转成DataFrame一直报错,缺下图中两行代码!

2016-05-20 15:22:52 697

原创 数组一直报下标溢出,通过null判断都没用

碰到数组不存在那一项,然后不得不进行判断,怎么办??

2016-05-06 15:17:16 707

原创 如何在eclipse中安装Jess

jess在eclipse中的安装

2015-08-15 10:06:34 847

原创 Lucene创建空索引

Lucene创建空索引

2015-04-07 21:34:36 496 1

【SVM】文本多分类源码(亲测可用加注释)

【SVM】文本多分类源码,加了很多注释,按照README里面就能运行,,数据集也在里面,,自己把数据集直接放到E盘根目录下(程序里面写死了),或者自己放个里面,然后TrainProcess.java里面改也可以。

2016-03-10

Lucene中文API

Lucene3.03的中文版本API,看得更懂

2015-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除