zhzhzhi-CSDN博客

转载死锁

死锁就是你和小明打架,互相掐住对方脖子,你们都说“你先放!”,结果谁都不放,死锁了. 在程序里面,有两个锁,A线程锁住第一个,B线程锁住了第二个,这时如果A再试图锁第二个,失败,因为B已经锁住了,A只能等待.就在这时B试图锁第一个,结果失败,因为A已经锁住了,B只好等待.就这样大家一直等下去,谁都不放,天荒地老…

2017-03-29 11:31:33 367

原创 theano的T.grad如何计算

f(x) = x*x + x - 2Graph = ADD / \ MUL SUB / \ / \ x x x 2Chain rule for ADD=> (a(x)+b(x))' = a'(x) + b'(x)Chain rule for MUL=> (a(x)*b(x))' = a'(x)*b

2016-10-13 14:23:50 2626

原创网络层权重常用约束

MaxNorm隐含层权重给定输入最大值约束References Dropout: A Simple Way to Prevent Neural Networks from Overfitting Srivastava, Hinton, et al. 2014NonNeg保证训练中权重非负(类似于nmf，或proning效果)UnitNorm隐含层权重一范数规则

2016-09-12 16:44:26 1577

转载 preprocessing(归一化/标准化/正则化)

preprocessing(归一化/标准化/正则化) 转载关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

2016-08-22 13:38:14 3341

原创 Vectors, Matrices and Tensors 在papers中的常规约定

基础总结vectors(lowercase)如果n维向量的每个元素属于ℝ\mathbb{R}，此向量为ℝ\mathbb{R}的n阶笛卡尔乘积，表示为ℝn\mathbb{R}^n x_{-1}表示向量x除去第一个元素的结果 x_{-S}表示向量x除去S集合中所有元素的结果matrices(uppercase)实矩阵表示方法:A∈ℝm×nA\in \mathbb{R}^{m\times n}转置(t

2016-08-22 01:25:17 595

原创后端感悟

机缘巧合巧合成为最近一个项目的后端 1.schema 业务挂钩，以此为准，不冗余等规则次之，查询速度视规模而定 2.restful 移动端和webapp皆能用的形式，少花很多力气返回json格式统一，也能少花很多力气，带status 3.authorization unique_id/access_token等策略 4.cms 框架自带/购买服务/前端编写(最近用ee3不错,不过

2016-08-21 23:00:15 431

原创 Matrix factorization

以为降维是很多认知(广义的分类)问题的最终目的，现流行的推荐系统大多数都在做降维工作，Matrix factorization是足够简洁华丽的降维方法 Information-theoretical label embeddings for large-scale image classification

2016-08-18 12:14:54 690 1

模型(未上flask)model_io:load seg_modelload pos_modelload ner_modelload pseg(low ram & high speed)load 7 online dictionariesproduct_dict_list(多维产品同义词数组)company_dict_list(多维公司同义词数组)reader4_list (人名guid推测公司关联

2016-08-02 11:19:33 336

原创节约内存的读取数据库

遇到个大问题，执行select * from news的时候,news巨耗内存，程序停掉先分开news各段再用offset的limit select * from new limit 0,10

2016-07-20 14:45:10 350

原创数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已，这个说法很深刻！贴上一张最近常看的图

2016-07-17 10:04:26 13497 1

原创约束优化问题(拉格朗日乘子)

给定一个约束优化问题: min/maxf(x,y,z)min/max \quad f(x,y,z) s.t.g(x,y,z)=0s.t. \quad g(x,y,z)=0 可以转换为无约束问题优化,是我们的目标普遍形式 min/maxz=f(x,y)min/max \quad z = f(x,y) s.t.g(x,y)=0s.t. \quad g(x,y) = 0 可转化为 F(x,

2016-06-08 22:23:37 916

原创服务器上测试flask rest-api

安装flask 安装flask-restfulfrom flask import Flaskfrom flask.ext import restfulapp = Flask(__name__)api = restful.Api(app)class HelloWorld(restful.Resource): def get(self): return {'hello':

2016-05-31 14:58:34 1084

原创 fizzbuzz的机器学习解法

转:fizzbuzz是面试的常见问题,内容为:输出0到100的数字，但是3的倍数输出Fizz，5的倍数输出Buzz，同时是3和5的倍数的输出FizzBuzz。通过训练一个分类器将结果分为4classes:fizzbuzzfizzbuzznoneall in all,网络输入需要为二进制,我们需要将9表示为[1,0,0,1],我们取输入神经元为10个,达到1024的训练数据,避免作弊嫌疑.d

2016-05-31 08:48:58 2327

原创哈希学习

哈希学习(learning to hash)通过机器学习机制将数据映射成二进制串的形式, 能显著减少数据的存储和通信开销, 从而有效提高学习系统的效率. 哈希学习的目的是学到数据的二进制哈希码表示, 使得哈希码尽可能地保持原空间中的近邻关系, 即保相似性. 每个数据点会被一个紧凑的二进制串编码, 在原空间中相似的2个点应当被映射到哈希码空间中相似的2个点. 举例来说, 如果原空间中每个数据样本都

2016-05-28 16:19:56 2816

原创中文期刊分类结果记录

baseline：贝叶斯一层分类标题|关键词|摘要 0 |0 |1[ 0.74959006 0.75502539 0.75502539 0.75396741 0.75111088]Mean score: 0.753 (+/-0.001)74.9633948803[ 0.73197567 0.73180279 0.72979264 0.73111511 0

2016-04-23 15:25:20 1256

原创 fudanNLP(fnlp)添加自定义字典

fnlp目前找到的接口方便的开源的NLP开源工具 StanfordNLP Hanlp FudanNLP NLTK LTP 由于StanfordNLP中文包配置较困难，使用fnlp做分词加语义考虑语义依存时，算法几乎都如出一辙的HMM，所以暂且认为模型参数问题可以用scale的数据量弥补。fnlp这是一段具有分词，实体识别，语义依存功能的代码import org.fnlp.nlp.cn

2016-04-22 13:04:06 6354 4

原创提高cypher语句执行效率

尽量使用参数这是因为cypher的缓存机制，相同的query执行第二遍会快很多避免笛卡尔积笛卡尔积会让执行时间爆炸式的增长match (a),(b)return *在写上上述笛卡尔积式时，请一定确保用where过滤过了下面也是一种情况match (u:user)-[:purchase]->(i:item)where ...with u, imatch (foo)-[:rela

2016-04-16 19:53:01 1178

原创 Cypher(神奇的WITH)

做了一段时间cypher,发现几乎每一段复杂的query都需要一个withstart n=node(*)with n as n_aliasreturn n_alias换一种方式试试start n=node(*)match n-->mreturn collect([n,percentile_cont(id(m),.5)])Errorstart n=node(*)match n-->mwi

2016-04-16 19:31:21 2924

原创 python比较文本相似度(not semantical)

statement：这里的文本相似度不是指语义相似度，仅仅指字符重叠度sudo apt-get install python-Levenshtein import Levenshtein as lst>>> lst.distance('as','asd')1>>> lst.ratio('as','asd')0.8>>> lst.ratio('ase','asd')0.6666666666

2016-04-10 20:15:59 5017

原创解决pip install 时locale.Error: unsupported locale setting

语言环境配置出错 root@ubuntu:~# localelocale: Cannot set LC_ALL to default locale: No such file or directoryLANG=en_US.UTF-8LANGUAGE=LC_CTYPE="en_US.UTF-8"LC_NUMERIC=zh_CN.UTF-8LC_TIME=zh_CN.UTF-8LC_COL

2016-04-09 22:29:19 23986

原创 DeepLearning(Bengio,ch4)-数值计算

softmaxsoftmax用于处理多项式分布的概率，softmax(x)i=exp(xi)sumnj=1exp(xj)softmax(x)_i = \frac{exp(x_i)}{sum_{j=1}^{n}exp(x_j)}这里考虑一个计算的基本问题：overflow和underflow，超出了数据类型范围的最大值和低于了数据类型范围的最小值。对于softmax上式，假定有每个xix_i都为常数c

2016-04-09 21:23:24 349

原创 DeepLearning(Bengio,ch3)-概率

大部分的计算机问题是确定性问题，还记得在洛克《人类理解论》里讨论英汉互译的不确定性问题，提到了计算机语言的通用可能性，在于确定性。但对于机器学习的若干问题，我们常常要使用概率，比如蚁群，遗传等全局优化，再比如用随机梯度下降来提高效率。总结一下，机器学习对概率的依赖来源于三点原因： 1. 系统固有的随机性。在量子力学的世界里，一切的粒子都是波，粒子一切的运动都是不确定的，类似这样的模型。 2.

2016-04-08 17:20:58 503

原创 PRML-贝叶斯网络

把贝叶斯网络当做图来描述的宏观一下，google显示此图用图表示概率分布，和马尔科夫链甚是有渊源，联想到有人用neo4j图数据库的ER图解决n-gram问题，肯定都是一个套路给出p(a,b,c)p(a,b,c)的联合分布形式 p(a,b,c)=p(c|a,b)p(a,b)p(a,b,c) = p(c|a,b)p(a,b) 继续 p(a,b,c)=p(c|a,b)p(b|a)p(a)p(

2016-04-07 08:52:35 981

原创 linux解决SQL中文乱码

还挺复杂，记录以免忘记修改环境先到mysqld里修改基本配置cd /etc/mysql/mysql.conf.d#就在这个path附近,找找sudo suvim mysqld.cnf在[mysqld]下添加入init_connect='SET collation_connection = utf8_unicode_ci'init_connect='SET NAMES utf8'cha

2016-04-05 22:06:55 1562

原创基于统计学的中文分词

基于统计学的分词方法可以借鉴2.2节的统计预言模型的思想，常用的有n_gram模型、隐马尔科夫模型、最大熵模型。由于我们本次使用统计预言模型为期刊文本分词，将对上述三个模型一一介绍并比较。n-gram模型给定句子S，假定可由规则A1,A2,A3,...AkA_1,A_2,A_3,...A_k这k个词组成，称之为规则A，则在规则A下出现这个句子的概率P(S)可表示为 PA(S)=P(A1,A2

2016-04-04 00:14:52 1675

原创 Good-turning估计

吴军数学之美又看了一遍，写的有深有浅，这次又有了不同的感觉。统计预言模型的数据稀疏问题解决方案–古德图灵估计

2016-04-03 14:59:29 3310

原创 PRML--Bayesian probabolitis

PRML(P40)考虑使用多项式 y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxjy(x,w) = w_0+w_1x+w_2x^2+...+w_Mx^M = \sum_{j=0}^{M}w_jx^j 拟合给定数据，我们将ww用概率p(w)p(w)表示，给定数据集D=t1,t2,...tnD = {t_1,t_2,...t_n}状态则可以用概率表示为p(D|w)p(D

2016-04-02 19:37:20 457

原创 presentation流程图神器--ProcessOn

一直未毕设的图片发愁，原创水平太低，网上的图片粗制滥造，影响身价。直到遇见ProcessOn 练了下手，决定今天把项目所有要用的图都draw一遍还不太精通，稍微感受一下的说

2016-04-02 11:42:28 977

原创 python中文乱码

关于中文乱码，老夫已经遇到无数次，遍寻良方，也使出无数种招数。总结一下，费话不多说，python中文乱码的根源只有一个，字符编码不统一！有的数据是爬来的，soup解析的，那很可能会出现ascii cannot decode error. OK,把语言环境它统一成utf-8码再说import sysreload(sys)sys.setdefaultencoding("utf-8")上述语句编译

2016-03-31 21:02:18 512

原创 python str转dict

两种方法捷径eval(str)>>> user = "{'name' : 'jim', 'sex' : 'male', 'age': 18}">>> type(user)<type 'str'>>>> b=eval(user)>>> >>> b{'age': 18, 'name': 'jim', 'sex': 'male'}>>> type(b)<type 'dict'>关于eval

2016-03-31 14:40:02 28533 4

原创 latex最简单的中文配置

less is more 最近弄latex，中文构建pdf时老是“！Critical ctex error: “fontset-unavailable””，ctex也装了，字体也有，可就是不行。解决方法：在最上头加上%!TEX program = xelatex这句，即可构建中文！%!TEX program = xelatex\documentclass{article}\usepackage

2016-03-29 08:25:26 3211 1

原创洛克和休谟

休谟是18世纪英国著名的经验论哲学家，怀疑论者，是西方哲学史上最重要人物之一。作为一个伟大的哲学家，他从洛克、贝克莱的经验论出发，把经验主义的原则贯彻到底，建立了一个以怀疑论或不可知论为特征的经验论哲学体系。他的经验论和不可知论不仅影响了近代哲学，而且对现代西方哲学尤其是实证主义、使用主义、逻辑经验主义都产生了深远的影响。休谟曾说过，“太阳每天都从东方升起吗？”。根据休谟的哲学观念，太阳今天虽然已经

2016-03-26 22:42:07 2935

原创洛克《人类理解论》

《人类理解论》第四卷十七章：谈谈理性第四卷的理性话题是基于前几卷的观念、知识来解释的。洛克在经验主义里大谈理性，其内容很值得玩味。首先是一段对理性的定义，洛克认为理性是人的本质，人通过观念、知识等概念的含义来描述人的本质特征，在十七章里具体的阐述了理性的含义。接下来是理性的五种具体形式：推理、三段论法、推论、意见和论证。最后洛克在此基础上把事物分成合乎理性、超乎理性、反乎理性，并由此引出“信仰与

2016-03-26 22:29:59 2600

原创 neo4j删除/查看(node/relationship)

和SQL一样，query大小写效果一样删除节点MATCH(n:City) DETACH DELETE n删除关系match (n)-[r:created]-() detach delete r查看节点MATCH(n:City) DETACH RETURN n查看关系match (n)-[r:created]-() RETURN r

2016-03-26 16:06:29 15075

原创 neo4j cypher语句

neo4j最简单的query语句模块包括三个部分：START/MATCH/RETURN用下面的语句寻找user=’michael’的朋友们：START a=node:user(name='Michael')MATCH (a)-[:KNOWS]->(b)-[:KNOWS]->(c), (a)-[:KNOWS]->(c)RETURN b, c

2016-03-25 13:00:35 2778

原创维比特(vibiter)算法python

缘由再一次做分词，毫无疑问又用了jieba，但是结巴的语料库貌似很多没能与时俱进。比如一句话里的“大数据”，被硬生生分词为“大/数据”，再把“大”纳入stopwords的话，那句子就变了味咯。当然，一个简单办法是，找到jieba的dict, $sudo su$gedit dictctrl+f修改“大数据”的占比重，save即可。想到李航《统计机器学习》里有维比特算法介绍，数学之美里也有一章略讲

2016-03-24 23:59:00 3308

原创 python迭代器与生成器

缘由最近欲一睹python源码，结果大跌眼镜，经常看到_ iter _这个玩意，无奈基础不行，遂遍寻解释。迭代器通俗的说，可在for语句循环的对象就是可迭代对象，就要用上面那玩意。我们平时看不到是因为它已被封装在我们平时常用的数据结构中了。当然，我们如果自己要创建一个这种容器也是可以的，这就是迭代器。下面介绍两种常用的迭代器方式。使用_iter_()和next()方法内置函数iter将可

2016-03-22 19:40:27 248

原创 python中文乱码

python文本乱码的问题几乎确凿让我失去知觉了。以前出问题只要多尝试.encode(‘utf-8’)/decode()/str()/cha()/unicode(”,’utf-8’)/import uniout/…好像就可以了。但这几天这招频频出错，必须来捋一下这个问题的说。编码规则如何使用举栗子

2016-03-22 15:52:50 259

原创 DL的若干tricks

原文在这Must Know Tips/Tricks in Deep Neural Networks，我只是记录，以免忘记。。。拿CNN做图像举例1.尽可能的扩展数据集(Ng课上讲过如何空手把dataset扩展10倍的故事) 2.做好数据预处理(如图像whitening) 3.好的初始化参数 4.卷积核/学习速率调整 5.激活函数(主流还是relu) 6.规则化(大多还是用dropout)

2016-03-21 23:58:07 664

原创选择支持向量机(SVM)核函数

SVM核函数通常有四种： 1. Linear 2. Polynomial 3. Gaussian (RBF) 4. Sigmoid/Logistic 不知为何，RBF最常用一般情况下，给定随意的数据集，你不知道该用什么样的核函数，通常先用简单的映射方式，然后再一步步的复杂化。如果数据集是线性可分的，用linear当然足够；如果数据集线性不可分，这个核函数就显然不行了

2016-03-21 19:16:25 13028