南宫木java-CSDN博客

原创 java.lang.NoSuchMethodError: breeze.linalg.DenseVector$.canSetD()

背景：跑时间序列模型报错环境：scala 2.11 + spark 2.0报错：java.lang.NoSuchMethodError: breeze.linalg.DenseVector$.canSetD()...........解决：(1) 经查，同一个包的两个版本均存在，即breeze_2.10 和 breeze_2.11，但其中breeze_2.10被exclude掉(2) 查breez_...

2018-05-23 15:19:52 1275 2

转载特征离散和特征选择

连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？Q:CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的好处在哪里？A:在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0、离散特征的增加和减少都很容易，易于模型的

2018-03-20 17:18:36 2545

原创 scala map排序

def main(args: Array[String]): Unit = { val aMap = new scala.collection.mutable.HashMap[String, Double] val a = Array("A", "B", "C", "D") val b = Array(4, 5, 8, 9) for(i <- a.indices){

2017-06-29 16:52:20 7903

原创 Mac virtualenv创建新环境报错

前言：Mac，已经安装好virtualenv但是创建沙箱环境的时候报错，报错信息如下：Arons-MacBook-Pro:virtualenv_tensorflow aron$ virtualenv venv_tensorflowNew python executable in /Users/aron/Documents/work_python/virtualenv_tensorflow

2017-05-04 20:41:22 2195

原创 NoSuchMethodError:org.apache.spark.rdd.RDD.mapPartitionsInternal$default$2()Z

变态的spark sql 解决方案：版本！！！！！！

2017-03-16 21:45:44 1578

原创 spark sqlContext异常

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/types/DataTypeParser at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(

2017-03-14 19:48:36 3355 2

原创 Theano predict

def predict( dim_proj=128, # word embedding的维数和隐藏层的维数，用默认值。（word embedding是一种将一个词转成一个向量的过程，这里不去深究） patience=10, # 该参数用于earlystop，如果10轮迭代的误差没有降低，就进行earlystop max_epochs=4000,

2017-01-05 17:48:53 468

原创 Python 多进程

import multiprocessingimport timedef func(msg): for i in xrange(3): print msg time.sleep(1) # 休眠1秒# 单进程def one_process(): p = multiprocessing.Process(target=func, args=("hello",))

2016-12-22 16:56:33 671

原创多叉树遍历

import nltk.tree as tree# 递归遍历def test(t): if isinstance(t, str): print t else: for i in range(len(t)): test(t[len(t)-i-1])# 非递归遍历def test_2(t): stack = []

2016-12-22 16:00:40 1038

转载 git 给远程库添加多个url地址

前提一般来说，我们为git增加远程库，一般都是git remote add origin ( 你可以使用真实的地址来代替 \ )但是你可能想要把你的本地的git库，既push到github上，又push到开源中国的Git@OSC上，怎么解决呢。有人可能会用两个甚至多个远程库，即再添加一个远程库git remote add origin2;这个方法很低效，因为你要git pus

2016-12-19 09:45:44 8211 2

原创 NLTK+stanford parser

在使用NLTK+stanford parser进行句法分析的时候发现，包含某些字、词的句子无法进行解析（如“你”，“一样”），一开始以为是stanford parser的问题，后来才发现是nltk中stanford.py文件的某行代码作祟：stdout = stdout.replace(b'\xa0',b' ')你：\xe4\xbd\xa0 一样：\xe4\xb8\x80\xe6\xa0\x

2016-12-14 16:41:06 1487

原创读取HDFS文件目录的方法

欢迎使用Markdown编辑器写博客首先添加依赖://注意后面的provided,缺少会报包冲突的错误libraryDependencies += "org.apache.hadoop" % "hadoop-hdfs" % "2.7.2"%"provided"import org.apache.hadoop.fs.{FileSystem, FileUtil, Path}val hdfsPath

2016-12-12 19:35:39 6641

原创 sftp上传文件夹

情景:利用sftp中将本地文件夹/home/sentiment/Data (内包含子文件夹) ,复制到服务器的/home/work目录下命令: put步骤:1.首先定位到远程/home/work/目录下: cd /home/work/2.在word目录下新建Data文件夹: mkdir Data3.进入远程Data文件夹: cd Data4.本地定位到sentiment文

2016-11-08 15:18:54 42273

原创 ubuntu系统上SSH连接掉线问题

本地系统: ubuntu远程系统: ubuntu连接工具: ssh问题: 连接后如果一段时间不操作, 就会自动断开连接解决方案:1. sudo gedit /etc/ssh/ssh_config , 如果不存在则加上 ServerAliveInterval 152. sudo gedit /etc/ssh/sshd_config, 如果不存在则加上 ClientAl

2016-11-08 14:36:24 5210