daidaixiong1234-CSDN博客

转载 pyspark rank, dense_rank, row_number不同场景下使用

https://dzone.com/articles/difference-between-rownumber

2018-05-09 19:51:29 3446

原创 cs224

更新梯度时，如果是对同一个变量记得是+，不要直接等于，第二次犯错误了。神经网络更新梯度时，针对的是nerons，在skip gram中，因为输入层就是v_c，所以求梯度时和neron一致，但是在cbow中，输入层是neighbor的v_i球和，所以neron是和，而对其中的每个分量来说，由于chain rule，加法时，梯度为1，所以队每个分量也和neron是一致的。但是加入不是加法，

2017-07-30 01:59:51 420

转载 htons(), ntohl(), ntohs()，htons()

http://www.cnblogs.com/orlion/p/6104204.html博客园首页新随笔联系管理订阅随笔- 220 文章- 0 评论- 18 socket编程为什么需要htons(), ntohl(), ntohs()，htons() 函数　　在C/C++写网络程序的时候，往往会遇到字节的网络顺序和

2017-03-06 16:27:34 668 1

转载网络中进程之间如何通信？

http://www.cnblogs.com/skynet/archive/2010/12/12/1903949.html我们深谙信息交流的价值，那网络中进程之间如何通信，如我们每天打开浏览器浏览网页时，浏览器的进程怎么与web服务器通信的？当你用QQ聊天时，QQ进程怎么与服务器或你好友所在的QQ进程通信？这些都得靠socket？那什么是socket？socket的类型有哪些？

2017-02-13 21:46:36 2354

转载标准差(Standard Deviation) 和标准误差(Standard Error)

http://www.07net01.com/program/306401.html本文摘自Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41

2016-12-17 22:37:12 88978 1

转载 G++ GCC的编译过程

http://blog.csdn.net/edisonlg/article/details/7081357GCC的编译过程总体来说，C/C++源代码要经过：预处理、编译、汇编和链接，四步才能变成相应平台下的可执行文件。File: hw.c[cpp] view plain copy#i

2016-07-28 14:16:49 458

原创单链表反转

T* reverseLinklist(T* p){T* rHead = p;if(p == NULL || p->next == NULL)return p;p = p->next;rHead->next = NULL;reverseLinklistRecursive(p, rHead);return rHead;}void reverseLinklis

2016-07-27 23:33:48 316

转载证明任意6人中必有3人互相认识或不认识

假设6人中的一人为A剩余5人为BCDEF根据抽屉原理，BCDEF中1）至少有3人与A认识，或者2）至少有3人与A不认识（假设x个人与A，认识，满足2),否则满足1), x因此，第1）种情况时，不失一般性假设是BCD, a)假设BCD中有两人互相认识，如BC，则ABC互相认识，满足6人中有3人互相认识b)否则BCD中没有两人互相认识，则满足6人中有3人互相不认识第2）种情

2016-07-27 23:10:06 6970

转载 c++ 内存管理

https://segmentfault.com/q/1010000000253786内存管理有以下几个层次（从高到低）：C程序 - C库（malloc）- 操作系统 - 物理内存首先，操作系统保证每个进程都有独立的虚拟内存空间（32bit上应该是4G吧，一般进程也用不了这么多）。当然实际上物理内存是所有进程共享的，所以当你需要动态内存时，需要向操作系统申请，这时候虽然从你程序

2016-07-27 14:54:51 434

原创最大似然估计

突然明白了最大似然估计的意思固定参数时，得到观察数据的概率L(w) = P(H|w)，假设H为观察数据例子，逻辑斯蒂回归模型中P(Y=1|X) = 1/(1+e(-wtx))假设参数为w，那么观察到训练数据(x1, y1), (x2, y2), ..., (xn, yn)的概率为(1/(1+e(-y1*wtx1)))*(1/(1+e(-y2*wtx

2016-07-24 22:34:07 539

原创朴素贝叶斯分类器

2016-07-21 16:26:03 868

翻译各分类方法应用场景逻辑回归，支持向量机，随机森林，GBT，深度学习

https://www.quora.com/What-are-the-advantages-of-different-classification-algorithms训练样本的数量特征的维度是否线性可分特征之间是相互独立的吗特征是linear dependent 和target variable过拟合问题速度，效果，内存限制logistic r

2016-07-21 13:50:46 15679

转载 kdtree c++版本

等我实现一个python版本的再贴上来http://blog.csdn.net/zhl30041839/article/details/9277807一、如何高效率地实现k近邻法？在SIFT图像特征匹配等应用中，需要在高维特征空间中快速找到距离目标图像特征最近邻的那个特征点，往往需要进行比较的特征向量的数量很大，如果进行朴素最近邻搜索，也就是依次计算目标

2016-07-19 20:48:04 5276 2

转载 Python里的string 和 unicode

转载http://blog.csdn.net/ktb2007/article/details/3876429首先要弄清楚的是，在Python里，string object和unicode object是两种不同的类型。string object是由characters组成的sequence，而unicode object是Unicode code units组成的s

2016-07-18 16:24:53 492

原创泊松分布

泊松分布是一种离散概率分布描述了单位时间/空间内随机事件发现次数的概率分布,λ是单位时间时间发生的平均次数，或成为事件发生率

2016-07-11 17:52:01 626

原创 linux下文件比较工具，文件夹比较工具

sudo apt-get install meldmeld

2016-06-24 14:58:18 937

原创 linux技巧

安装ntp，保持系统时间同步sudo apt-get install ntp

2016-05-18 19:59:24 414

原创学会进程管理，人生迎来新高度，&, [Ctrl]-z, fg, bg, kill, killall, nohup

linux小白，虽然平时也用，以前上学也上过那个课，但是practice较少，最近在看鸟哥的私房菜基础篇，17章程序管理基本上看完了，现在再也不是满屏紫乎乎的terminal了～～～１．　直接扔在后台运行　commnd & 如　python test.py &２．　当在前台操作是，按Ctrl+z，则当前任务在后台以暂停形式存在３．　jobs　命令查看当前terminal

2016-05-18 13:15:52 369

原创 csv文件导入mysql数据库命令

load data local infile 'top-1m-20160501.csv' into table alexa_domains_2 fields terminated by ',' enclosed by '"' lines terminated by '\n' (rank, domain);如果报错ERROR 1148: The used command is not

2016-05-14 17:51:41 1699

原创 linux批量远程管理主机命令 parallel-ssh, parallel-scp, parallel-nuke, parallel-slurp, parallelrsyncp

parallel-ssh -h host_file如果给定多个host_file，那么会认为是所有host_file中的文件，如host_file1中是[192.168.8.230, 192.168.8.231]，host_file2中是[192.168.8.232, 192.168.8.230]，parallel-ssh -h host_file1 -h host_file2 cmd　会

2016-05-12 19:28:57 1267

转载 python中关键词with的使用

http://stackoverflow.com/questions/3012488/what-is-the-python-with-statement-designed-for非常好的回答，值得花时间粘过来，粗浅理解就是with利用context managers来为我们要执行的一些操作做预处理和最后的收尾，也就是把try和finally的操作放在了里面，我们再用with调用的时候，就简化了

2016-05-10 11:08:09 712

原创 python os.path与路径相关的

记性不好，赶紧记一下吧os.listdir(dirname) 列出dirname下所有文件os.path.abspath(dirname) 给出dirname的绝对路径os.path.dirname(dirname) 给出dirname的上一级目录os.path.exist(path) 判断path是否存在

2016-04-09 15:18:31 617

原创 scrapy设置代理proxy

http://stackoverflow.com/questions/4710483/scrapy-and-proxies增加文件middlewares.py放置在setting.py平行的目录下import base64class ProxyMiddleware(object):# overwrite process requestdef process_request

2016-03-24 16:50:11 15247 2

原创 scrapy请求，只返回头部信息

公司的网站最近一直在导数据，经常没有注意到的时候就出来一些404，对网站不利，所以需要检测网站的404，最简单的就是全站爬一遍了，但是如果用scrapy去爬的话，遇到ajax请求这些的还得单写，所以最终的方案是由后台的同事给出他们计算出来的所有slug的列表，从这些slug列表中抽出一些进行404检查，包括这些slug内部的链接也拿出来检查， check的效果还行，就是速度实在

2015-12-29 14:43:49 8338

翻译 python datetime strftime格式变换

参考https://docs.python.org/2/library/datetime.html#strftime-and-strptime-behavior%a Weekday as locale’s abbreviated name. Sun, Mon, …, Sat (en_US); So, Mo, …, Sa (de_DE) (1) %A Weekday as locale’s

2015-12-23 13:44:02 6868

原创 crontab定时任务

crontab -emin/hour/day/month/week* * * * ** */1 * * * command每小时执行command重启sudo /etc/init.d/cron restart

2015-12-22 17:25:34 6151

原创登陆多台远程服务器,执行程序

1. parallel-ssh 亲测有效2. paramiko 用过, 当时是要运行时间很长的任务, 任务里面调用了插件, 发现运行一段时间之后, 程序就无缘无故被挂起了, 还未找到愿意3. fabfile 官网http://www.fabfile.org/, 上面有个例子, 看着听方便了, 但是说是调用了paramiko, 担心出现2中说的问题, 还未测, 下次再有需要时, 可测试一下

2015-12-15 19:22:20 5934

原创 pdf2html 手动编译,解决segmentation fault错误

是这样发现问题的:在ubuntu 14.04上装pdf2htmlEX时, 默认安装的字体是20141104版本的(pdf2htmlEX -v看libfontforge版本),应该是作者https://github.com/coolwanglu/pdf2htmlEX/wiki/Building当时编译的fontforge2014年的版本;在是ubuntu 15.10上安装pdf2html时,

2015-12-12 14:13:54 7948

原创 linux下打包文件夹(不保留路径)

问题: 加入要将/home/moma/Downloads/下的test文件夹压缩成test.tar.gz,放在/home/moma/Documents下命令: tar czf /home/moma/Documents/test.tar.gz –directory=/home/moma/Downloads test 结果: 在/home/moma/Documents

2015-12-09 15:01:31 11715 2

转载 Django项目用mod_wsgi部署到Apache2, Ubuntu 14.04

安装apache2 安装mod_wsgi (https://pypi.python.org/pypi/mod_wsgi),命令sudo pip install wsgi3.

2015-12-09 11:32:09 6412

原创旧版本scrapy升级新版本遇到的一些问题

最近有新同学学抓数据，他们看的是中文文档，大概是0.25版本的，所以按照教程安装的时候，装的也是老版本的scrapy,不能用一些FilePipleline的东西，非常不方便．他们装的时候是用apt-get安装的，升级的时候可以用apt-get remove，然后再按照英文文档里的方法安装就好了．但是另一个同学不知道怎么安装的，scrapy直接就报错．报错信息ibutionNotFound:

2015-11-18 13:31:00 8842

原创 ubuntu 14.04 安装gensim

1. 安装依赖库：Python >= 2.6. Tested with versions 2.6, 2.7, 3.3 and 3.4. Support for Python 2.5 was discontinued starting gensim 0.10.0; if you must use Python 2.5, install gensim 0.9.1.NumPy >= 1.

2015-10-21 19:46:36 9785

原创 what yield does in python?

http://stackoverflow.com/questions/231767/what-does-the-yield-keyword-do-in-pythonyield->generator(生成器)->iterable(迭代器)Everything you can use "for... in..." on is an iterable: lists, strings,

2015-10-21 13:33:23 6111

原创 python string转为dict --- json.loads

import jsoncontent = "{\"Location\":{\"Store\":{\"StoreRegionID\":300,\"StoreGroupID\":394,\"StoreDistrictID\":340},\"TypeDescription\":\"Store\",\"AlternateIdentifier\":{\"TypeDescription\":\"L

2015-10-14 19:20:05 7544

原创 Redis数据类型和抽象

http://redis.io/topics/data-types-intro1. 支持的数据类型有：1） binary-safe strings2） Lists， string元素的集合，根据插入顺序排序3） Sets，无重复的，无顺序的string元素的集合4） Sorted sets，每个string元素都关联一个float number，称为score5） Ha

2015-09-26 13:35:08 6266

转载转载 ---------------- vi 編輯器簡介

原文地址： http://phys.thu.edu.tw/~kkng/comp2010/vi.htmvi 是 Linux 系統內建的全螢幕編輯器 (editor)，功能強大，而且所有的 UNIX 系統上都有，操作方法也相同，是編輯器中的「國際語言」。但是對於習慣使用 word、記事本這些圖形介面編輯器的使用者而言，不是十分容易上手，不過熟悉以後，用起來十分順手，對於程式設計者而言

2015-09-26 11:20:17 6072

转载转载 ------------- scrapy 中判断重复内容的方法(RFPDupeFilter)

转载于http://www.leyle.com/archives/scrapy_dupefilter.htmlscrapy 中判断重复内容的方法(RFPDupeFilter)作者：代码猴时间：April 15, 2015 分类：pythonscrapy 中判断重复内容的方法(RFPDupeFilter)爬虫抓取数据时，重复肯定是存在的，scrapy

2015-09-26 10:38:31 16283

原创使用scrapy-redis分布式爬虫准备工作

环境： ubuntu 14.04需要Scrapy >= 1.0.0, redis-py >= 2.10.0, redis server >= 2.8.01. 安装redis server参考http://redis.io/download$ wget http://download.redis.io/releases/redis-3.0.4.tar.gz$ tar

2015-09-26 09:51:44 7794

原创查看redis keys

>redis-cli 进入redis命令行>keys *查看redis中所有的key>del dmoz:dupefilter 删除key为dmoz:dupefilter的数据

2015-09-26 09:28:11 6455

原创安装ssh登陆其它机器

最近做分布式抓取，需要在其它机器上安装一些软件，并运行爬虫程序。这个时候通过ssh就很方便了1. 在每个机器上安装openssh-server, openssh-client命令sudo apt-get install openssh-server openssh-client2. 在一个机子上访问其它机器 (访问局域网)命令 ssh 192.168.8.151就进去了其它机器

2015-09-25 17:10:34 6138

空空如也

空空如也