自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ER

  • 博客(48)
  • 资源 (24)
  • 收藏
  • 关注

转载 死锁

死锁就是你和小明打架,互相掐住对方脖子,你们都说“你先放!”,结果谁都不放,死锁了. 在程序里面,有两个锁,A线程锁住第一个,B线程锁住了第二个,这时如果A再试图锁第二个,失败,因为B已经锁住了,A只能等待.就在这时B试图锁第一个,结果失败,因为A已经锁住了,B只好等待.就这样大家一直等下去,谁都不放,天荒地老…

2017-03-29 11:31:33 367

原创 theano的T.grad如何计算

f(x) = x*x + x - 2Graph = ADD / \ MUL SUB / \ / \ x x x 2Chain rule for ADD=> (a(x)+b(x))' = a'(x) + b'(x)Chain rule for MUL=> (a(x)*b(x))' = a'(x)*b

2016-10-13 14:23:50 2626

原创 网络层权重常用约束

MaxNorm隐含层权重给定输入最大值约束References Dropout: A Simple Way to Prevent Neural Networks from Overfitting Srivastava, Hinton, et al. 2014NonNeg保证训练中权重非负(类似于nmf,或proning效果)UnitNorm隐含层权重一范数规则

2016-09-12 16:44:26 1577

转载 preprocessing(归一化/标准化/正则化)

preprocessing(归一化/标准化/正则化) 转载关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

2016-08-22 13:38:14 3341

原创 Vectors, Matrices and Tensors 在papers中的常规约定

基础总结vectors(lowercase)如果n维向量的每个元素属于ℝ\mathbb{R},此向量为ℝ\mathbb{R}的n阶笛卡尔乘积,表示为ℝn\mathbb{R}^n x_{-1}表示向量x除去第一个元素的结果 x_{-S}表示向量x除去S集合中所有元素的结果matrices(uppercase)实矩阵表示方法:A∈ℝm×nA\in \mathbb{R}^{m\times n}转置(t

2016-08-22 01:25:17 595

原创 后端感悟

机缘巧合巧合成为最近一个项目的后端 1.schema 业务挂钩,以此为准,不冗余等规则次之,查询速度视规模而定 2.restful 移动端和webapp皆能用的形式,少花很多力气 返回json格式统一,也能少花很多力气,带status 3.authorization unique_id/access_token等策略 4.cms 框架自带/购买服务/前端编写(最近用ee3不错,不过

2016-08-21 23:00:15 431

原创 Matrix factorization

以为降维是很多认知(广义的分类)问题的最终目的,现流行的推荐系统大多数都在做降维工作,Matrix factorization是足够简洁华丽的降维方法 Information-theoretical label embeddings for large-scale image classification

2016-08-18 12:14:54 690 1

原创 四模型代码管理

模型(未上flask)model_io:load seg_modelload pos_modelload ner_modelload pseg(low ram & high speed)load 7 online dictionariesproduct_dict_list(多维产品同义词数组)company_dict_list(多维公司同义词数组)reader4_list (人名guid推测公司关联

2016-08-02 11:19:33 336

原创 节约内存的读取数据库

遇到个大问题,执行select * from news的时候,news巨耗内存,程序停掉 先分开news各段 再用offset的limit select * from new limit 0,10

2016-07-20 14:45:10 350

原创 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,这个说法很深刻!贴上一张最近常看的图

2016-07-17 10:04:26 13497 1

原创 约束优化问题(拉格朗日乘子)

给定一个约束优化问题: min/maxf(x,y,z)min/max \quad f(x,y,z) s.t.g(x,y,z)=0s.t. \quad g(x,y,z)=0 可以转换为无约束问题优化,是我们的目标普遍形式 min/maxz=f(x,y)min/max \quad z = f(x,y) s.t.g(x,y)=0s.t. \quad g(x,y) = 0 可转化为 F(x,

2016-06-08 22:23:37 916

原创 服务器上测试flask rest-api

安装flask 安装flask-restfulfrom flask import Flaskfrom flask.ext import restfulapp = Flask(__name__)api = restful.Api(app)class HelloWorld(restful.Resource): def get(self): return {'hello':

2016-05-31 14:58:34 1084

原创 fizzbuzz的机器学习解法

转:fizzbuzz是面试的常见问题,内容为:输出0到100的数字,但是3的倍数输出Fizz,5的倍数输出Buzz,同时是3和5的倍数的输出FizzBuzz。通过训练一个分类器将结果分为4classes:fizzbuzzfizzbuzznoneall in all,网络输入需要为二进制,我们需要将9表示为[1,0,0,1],我们取输入神经元为10个,达到1024的训练数据,避免作弊嫌疑.d

2016-05-31 08:48:58 2327

原创 哈希学习

哈希学习(learning to hash)通过机器学习机制将数据映射成二进制串的形式, 能显著减少数据的存储和通信开销, 从而有效提高学习系统的效率. 哈希学习的目的是学到数据的二进制哈希码表示, 使得哈希码尽可能地保持原空间中的近邻关系, 即保相似性. 每个数据点会被一个紧凑的二进制串编码, 在原空间中相似的2个点应当被映射到哈希码空间中相似的2个点. 举例来说, 如果原空间中每个数据样本都

2016-05-28 16:19:56 2816

原创 中文期刊分类结果记录

baseline:贝叶斯一层分类标题|关键词|摘要 0 |0 |1[ 0.74959006 0.75502539 0.75502539 0.75396741 0.75111088]Mean score: 0.753 (+/-0.001)74.9633948803[ 0.73197567 0.73180279 0.72979264 0.73111511 0

2016-04-23 15:25:20 1256

原创 fudanNLP(fnlp)添加自定义字典

fnlp目前找到的接口方便的开源的NLP开源工具 StanfordNLP Hanlp FudanNLP NLTK LTP 由于StanfordNLP中文包配置较困难,使用fnlp做分词加语义 考虑语义依存时,算法几乎都如出一辙的HMM,所以暂且认为模型参数问题可以用scale的数据量弥补。fnlp这是一段具有分词,实体识别,语义依存功能的代码import org.fnlp.nlp.cn

2016-04-22 13:04:06 6354 4

原创 提高cypher语句执行效率

尽量使用参数 这是因为cypher的缓存机制,相同的query执行第二遍会快很多避免笛卡尔积 笛卡尔积会让执行时间爆炸式的增长match (a),(b)return *在写上上述笛卡尔积式时,请一定确保用where过滤过了 下面也是一种情况match (u:user)-[:purchase]->(i:item)where ...with u, imatch (foo)-[:rela

2016-04-16 19:53:01 1178

原创 Cypher(神奇的WITH)

做了一段时间cypher,发现几乎每一段复杂的query都需要一个withstart n=node(*)with n as n_aliasreturn n_alias换一种方式试试start n=node(*)match n-->mreturn collect([n,percentile_cont(id(m),.5)])Errorstart n=node(*)match n-->mwi

2016-04-16 19:31:21 2924

原创 python比较文本相似度(not semantical)

statement:这里的文本相似度不是指语义相似度,仅仅指字符重叠度sudo apt-get install python-Levenshtein import Levenshtein as lst>>> lst.distance('as','asd')1>>> lst.ratio('as','asd')0.8>>> lst.ratio('ase','asd')0.6666666666

2016-04-10 20:15:59 5017

原创 解决pip install 时locale.Error: unsupported locale setting

语言环境配置出错 root@ubuntu:~# localelocale: Cannot set LC_ALL to default locale: No such file or directoryLANG=en_US.UTF-8LANGUAGE=LC_CTYPE="en_US.UTF-8"LC_NUMERIC=zh_CN.UTF-8LC_TIME=zh_CN.UTF-8LC_COL

2016-04-09 22:29:19 23986

原创 DeepLearning(Bengio,ch4)-数值计算

softmaxsoftmax用于处理多项式分布的概率,softmax(x)i=exp(xi)sumnj=1exp(xj)softmax(x)_i = \frac{exp(x_i)}{sum_{j=1}^{n}exp(x_j)}这里考虑一个计算的基本问题:overflow和underflow,超出了数据类型范围的最大值和低于了数据类型范围的最小值。对于softmax上式,假定有每个xix_i都为常数c

2016-04-09 21:23:24 349

原创 DeepLearning(Bengio,ch3)-概率

大部分的计算机问题是确定性问题,还记得在洛克《人类理解论》里讨论英汉互译的不确定性问题,提到了计算机语言的通用可能性,在于确定性。但对于机器学习的若干问题,我们常常要使用概率,比如蚁群,遗传等全局优化,再比如用随机梯度下降来提高效率。 总结一下,机器学习对概率的依赖来源于三点原因: 1. 系统固有的随机性。在量子力学的世界里,一切的粒子都是波,粒子一切的运动都是不确定的,类似这样的模型。 2.

2016-04-08 17:20:58 503

原创 PRML-贝叶斯网络

把贝叶斯网络当做图来描述的 宏观一下,google显示此图用图表示概率分布,和马尔科夫链甚是有渊源,联想到有人用neo4j图数据库的ER图解决n-gram问题,肯定都是一个套路给出p(a,b,c)p(a,b,c)的联合分布形式 p(a,b,c)=p(c|a,b)p(a,b)p(a,b,c) = p(c|a,b)p(a,b) 继续 p(a,b,c)=p(c|a,b)p(b|a)p(a)p(

2016-04-07 08:52:35 981

原创 linux解决SQL中文乱码

还挺复杂,记录以免忘记修改环境 先到mysqld里修改基本配置cd /etc/mysql/mysql.conf.d#就在这个path附近,找找sudo suvim mysqld.cnf在[mysqld]下添加入init_connect='SET collation_connection = utf8_unicode_ci'init_connect='SET NAMES utf8'cha

2016-04-05 22:06:55 1562

原创 基于统计学的中文分词

基于统计学的分词方法可以借鉴2.2节的统计预言模型的思想,常用的有n_gram模型、隐马尔科夫模型、最大熵模型。由于我们本次使用统计预言模型为期刊文本分词,将对上述三个模型一一介绍并比较。n-gram模型 给定句子S,假定可由规则A1,A2,A3,...AkA_1,A_2,A_3,...A_k这k个词组成,称之为规则A,则在规则A下出现这个句子的概率P(S)可表示为 PA(S)=P(A1,A2

2016-04-04 00:14:52 1675

原创 Good-turning估计

吴军数学之美又看了一遍,写的有深有浅,这次又有了不同的感觉。统计预言模型的数据稀疏问题解决方案–古德图灵估计

2016-04-03 14:59:29 3310

原创 PRML--Bayesian probabolitis

PRML(P40)考虑使用多项式 y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxjy(x,w) = w_0+w_1x+w_2x^2+...+w_Mx^M = \sum_{j=0}^{M}w_jx^j 拟合给定数据,我们将ww用概率p(w)p(w)表示,给定数据集D=t1,t2,...tnD = {t_1,t_2,...t_n}状态则可以用概率表示为p(D|w)p(D

2016-04-02 19:37:20 457

原创 presentation流程图神器--ProcessOn

一直未毕设的图片发愁,原创水平太低,网上的图片粗制滥造,影响身价。直到遇见ProcessOn 练了下手,决定今天把项目所有要用的图都draw一遍 还不太精通,稍微感受一下的说

2016-04-02 11:42:28 977

原创 python中文乱码

关于中文乱码,老夫已经遇到无数次,遍寻良方,也使出无数种招数。总结一下,费话不多说,python中文乱码的根源只有一个,字符编码不统一!有的数据是爬来的,soup解析的,那很可能会出现ascii cannot decode error. OK,把语言环境它统一成utf-8码再说import sysreload(sys)sys.setdefaultencoding("utf-8")上述语句编译

2016-03-31 21:02:18 512

原创 python str转dict

两种方法捷径eval(str)>>> user = "{'name' : 'jim', 'sex' : 'male', 'age': 18}">>> type(user)<type 'str'>>>> b=eval(user)>>> >>> b{'age': 18, 'name': 'jim', 'sex': 'male'}>>> type(b)<type 'dict'>关于eval

2016-03-31 14:40:02 28533 4

原创 latex最简单的中文配置

less is more 最近弄latex,中文构建pdf时老是“!Critical ctex error: “fontset-unavailable””,ctex也装了,字体也有,可就是不行。解决方法:在最上头加上%!TEX program = xelatex这句,即可构建中文!%!TEX program = xelatex\documentclass{article}\usepackage

2016-03-29 08:25:26 3211 1

原创 洛克和休谟

休谟是18世纪英国著名的经验论哲学家,怀疑论者,是西方哲学史上最重要人物之一。作为一个伟大的哲学家,他从洛克、贝克莱的经验论出发,把经验主义的原则贯彻到底,建立了一个以怀疑论或不可知论为特征的经验论哲学体系。他的经验论和不可知论不仅影响了近代哲学,而且对现代西方哲学尤其是实证主义、使用主义、逻辑经验主义都产生了深远的影响。休谟曾说过,“太阳每天都从东方升起吗?”。根据休谟的哲学观念,太阳今天虽然已经

2016-03-26 22:42:07 2935

原创 洛克《人类理解论》

《人类理解论》第四卷十七章:谈谈理性第四卷的理性话题是基于前几卷的观念、知识来解释的。洛克在经验主义里大谈理性,其内容很值得玩味。首先是一段对理性的定义,洛克认为理性是人的本质,人 通过观念、知识等概念的含义来描述人的本质特征,在十七章里具体的阐述了理性的含义。接下来是理性的五种具体形式:推理、三段论法、推论、意见和论证。最 后洛克在此基础上把事物分成合乎理性、超乎理性、反乎理性,并由此引出“信仰与

2016-03-26 22:29:59 2600

原创 neo4j删除/查看(node/relationship)

和SQL一样,query大小写效果一样删除节点MATCH(n:City) DETACH DELETE n删除关系match (n)-[r:created]-() detach delete r查看节点MATCH(n:City) DETACH RETURN n查看关系match (n)-[r:created]-() RETURN r

2016-03-26 16:06:29 15075

原创 neo4j cypher语句

neo4j最简单的query语句模块包括三个部分:START/MATCH/RETURN用下面的语句寻找user=’michael’的朋友们:START a=node:user(name='Michael')MATCH (a)-[:KNOWS]->(b)-[:KNOWS]->(c), (a)-[:KNOWS]->(c)RETURN b, c

2016-03-25 13:00:35 2778

原创 维比特(vibiter)算法python

缘由再一次做分词,毫无疑问又用了jieba,但是结巴的语料库貌似很多没能与时俱进。比如一句话里的“大数据”,被硬生生分词为“大/数据”,再把“大”纳入stopwords的话,那句子就变了味咯。当然,一个简单办法是,找到jieba的dict, $sudo su$gedit dictctrl+f修改“大数据”的占比重,save即可。 想到李航《统计机器学习》里有维比特算法介绍,数学之美里也有一章略讲

2016-03-24 23:59:00 3308

原创 python迭代器与生成器

缘由最近欲一睹python源码,结果大跌眼镜,经常看到_ iter _这个玩意,无奈基础不行,遂遍寻解释。迭代器通俗的说,可在for语句循环的对象就是可迭代对象,就要用上面那玩意。我们平时看不到是因为它已被封装在我们平时常用的数据结构中了。当然,我们如果自己要创建一个这种容器也是可以的,这就是迭代器。下面介绍两种常用的迭代器方式。 使用_iter_()和next()方法内置函数iter将可

2016-03-22 19:40:27 248

原创 python中文乱码

python文本乱码的问题几乎确凿让我失去知觉了。以前出问题只要多尝试.encode(‘utf-8’)/decode()/str()/cha()/unicode(”,’utf-8’)/import uniout/…好像就可以了。但这几天这招频频出错,必须来捋一下这个问题的说。编码规则如何使用举栗子

2016-03-22 15:52:50 259

原创 DL的若干tricks

原文在这Must Know Tips/Tricks in Deep Neural Networks,我只是记录,以免忘记。。。拿CNN做图像举例1.尽可能的扩展数据集(Ng课上讲过如何空手把dataset扩展10倍的故事) 2.做好数据预处理(如图像whitening) 3.好的初始化参数 4.卷积核/学习速率调整 5.激活函数(主流还是relu) 6.规则化(大多还是用dropout)

2016-03-21 23:58:07 664

原创 选择支持向量机(SVM)核函数

SVM核函数通常有四种: 1. Linear 2. Polynomial 3. Gaussian (RBF) 4. Sigmoid/Logistic 不知为何,RBF最常用一般情况下,给定随意的数据集,你不知道该用什么样的核函数,通常先用简单的映射方式,然后再一步步的复杂化。如果数据集是线性可分的,用linear当然足够;如果数据集线性不可分,这个核函数就显然不行了

2016-03-21 19:16:25 13028

算法导论第三版英文

算法导论

2016-10-11

代码之髓 编程语言核心概念.pdf

代码之髓 编程语言核心概念.pdf

2016-09-12

SVM习题集.docx

SVM习题集

2016-09-12

app后端设计.pdf

app后端设计经验

2016-08-05

chromedriver

chromedriver

2016-08-05

MATLAB优化算法案例分析.rar

MATLAB优化算法案例分析

2016-05-31

机器学习 实用案例解析 中文版 带完整书签 pdf

机器学习 实用案例解析 中文版 带完整书签 pdf

2016-05-31

libsvm-3.20

台湾大学,支持向量机

2016-05-31

数据分析工具篇

数据分析工具篇

2016-05-31

机器学习实践指南:案例应用解析.pdf

机器学习实践指南:案例应用解析.pdf

2016-05-31

LaTex教程--latex排版学习笔记---入门提高.pdf

LaTex教程--latex排版学习笔记---入门提高.pdf

2016-05-18

刘康:知识图谱讨论会.pdf

刘康:知识图谱讨论会.pdf

2016-05-02

MySQL性能调优与架构设计.pdf_

MySQL性能调优与架构设计

2016-05-02

数据结构与算法C++

数据结构与算法C++

2016-05-02

统计模式识别(原版第二版).pdf

统计模式识别(原版第二版).pdf

2016-04-22

word2vec词向量入门

word2vec词向量入门

2016-03-29

GraphDatabases.pdf

GraphDatabases.pdf

2016-03-25

编程之法:面试和算法心得.pdf

编程之法:面试和算法心得.pdf

2016-03-18

中文文本分类

中文 文本分类 机器学习 支持向量机

2016-03-15

bad data pdf

bad data pdf

2016-03-15

PYTHON自然语言处理中文翻译 NLTK 中文版.pdf

PYTHON自然语言处理中文翻译 NLTK 中文版.pdf

2016-03-15

数学之美(google吴军)

数学之美

2016-03-15

中文期刊分类BDEFGHI七类数据集(已处理),每类3700个text

中文期刊分类BDEFGHI七类数据集(已处理),每类3700个text

2016-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除