自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 XGBoost 阅读之 Weighted Quantile Sketch

3.3 Weighted Quantile Sketch(加权分位数略图)One important step in the approximate algorithm is to propose candidate split points. Usually percentiles of a feature are used to make candidates distribute eve...

2019-04-27 22:11:36 3471

原创 Jupyter Notebook 导入python文件时的问题

在使用Jupyter Notebook进行数据分析时,有时需要从本地py文件中导入函数。这里出现的问题是,当目前的kernel还在运行中,如果对py文件中的函数名进行修改,并在jupyter中修改导入的函数名,则会出现无法导入的问题。这时必须将当前kernel shutdown,重新开始才能导入...

2018-06-14 11:58:18 5816

原创 Python - 字符串

1. 字符串的表示Python中,字符串可以用双引号 "..." 或者单引号 '...' 括起来表示。当字符串中包含单引号或者双引号时,就可以用另一种引号来包含字符串"qwer"Out[1]: 'qwer''qwer'Out[2]: 'qwer'"qwer'qwre"Out[3]: "qwer'qwre"'qwer"qwer'Out[4]: 'qwer"qwer'1.1 转义字...

2018-04-22 21:57:44 384

原创 Python - 模块与包

Python包总结模块简述:在编写程序中,经常会重复用到某些功能,如果将实现这些功能的函数和变量存放到一个文件中,在需要的时候直接调用,就能节省很多工作量。这就是模块的用处:将函数封装到.py文件中,在需要的时候用 import 命令进行访问。包简述:当你有了很多模块,每个模块都完成不同的功能,且不同的模块间存在互补或依赖关系,那么就可以考虑将这些模块文件封装成一个整体,这就是包。包的构成:最简单...

2018-04-22 08:43:47 421

原创 R包开发总结

R包开发流程   1.准备工作  1.1 一些准备好的R函数,数据  1.2 在Rstudio中创建一个R Package项目  1.3 下载并安装devtools包,此包简化了R包开发的许多流程  1.4 下载并安装roxygen2包,此包用来为R包添加文档   2.开发流程  2.1 添加函数  2.1.1 R文件在R包中,所有R文件都要添加到R文件夹中。注意不能在R文件夹中放入子文件夹,否则...

2018-04-19 07:00:55 4004

原创 数据结构 - 折半插入排序

折半插入排序折半插入的原理与普通插入排序完全相同,即在完全排列的子列中寻找插入元素的位置,并将此位置之后直到待排元素前的元素后移一位。区别是:折半插入利用折半查找来提高查找效率。即从中点开始,利用划分的思路进行查找。时间复杂度:每轮比较的次数k,有最少为1次,至多 k^2 = n 即 k = log2(n), 所以 时间复杂度为 O(n*log2(n))。移动的次数最少为0,最多为n。所以移动的时...

2018-04-01 09:53:25 533

原创 数据结构 - 插入排序

插入排序插入排序的原理是:当数组中前 n-1 个元素排序完成之后,将第n个元素往前推,直到此元素在前n个元素中被正确排列。因此插入排序每次都排好前n-1个元素,再将第n个元素放到合适的位置,将此位置后面的元素往后推。时间复杂度:插入排序同样需要进行n轮比较,每一轮会将完成排序的数组长度+1.                 最优情况下,数组已经排序完成,则只需要比较n-1次。不需要排序      ...

2018-04-01 08:12:08 288

原创 数据结构 - 冒泡排序

冒泡排序冒泡排序的主要原理是两两比较,将较大者放在靠后的位置,用此种方法,将最大的值一点一点推到数列的后端。因此,对于一个长为n的数组,经过n-1遍冒泡,一定能将数组排序。时间复杂度:设T(n)为对长度为n的待排序列进行排序的时间。则比较次数为:n-1 + n-2  + ... + 1 = (n-1) * n / 2 = O(n^2) 而且,无论数组排序状况如何,都要进行这么多次的比较交换次数:最...

2018-04-01 06:57:45 280

原创 数据结构 - 快速排序

快速排序算法快速排序是一种基于划分和迭代的排序算法。主要原理:在每一次迭代时,都把向量分城左,中,右(left, mid, right)三部分,其中左边部分全部都小于中间值,而右边部分全部大于等于中间值。这样,将整个向量分解成一个类似二叉树的结构,从而达到排序的目的。而这种方法减小计算量的关键技术是,在选定mid指针所指的值之后,要用最快的方法将小于mid值和大于mid值的数分开。基本思路:在当前...

2018-03-26 22:40:59 238

原创 英语介词使用总结(不定期更新)

英语的介词使用比想象中要灵活得多,复杂得多。我且用这篇文章来总结自己的一些心得。1.work 后加不同的介词比如在描述自己的工作时:I work for an employer,          in a department,          at/in a location/company,          on a project,         

2017-04-26 10:31:12 1424

原创 《Pyhton数据分析》阅读摘要 CH2 Introductory Examples

1 usa.gov data from bit.ly1. read txt: open(path).readline()2. converting json: json.loads(line)3. list comprehension: records = [json.loads(line) for line in open(path)]1.2 Counting T

2017-01-22 23:19:33 431

原创 Scrapyd 学习记录

最近想找一个用来管理scrapy项目的界面或系统,于是发现了scrapyd,也许会有用。在scrapy项目的目录下,在命令行中运行scrapyd就能打开scrapyd。然后在浏览器中打开http://localhost:6800/ 就能进入scrapyd界面。之后在我安装的curl目录下(在学Elasticsearch时安装),用curl运行了几个 scrapy

2016-09-06 21:30:29 958

翻译 sklearn 文档翻译之 sklearn.cluster.KMeans

在sklearn中处理kmeans聚类问题,用到的是 sklearn.cluster.KMeans 这个类。参数:n_clusters:整形,缺省值=8生成的聚类数,即产生的质心(centroids)数。max_iter:整形,缺省值=300执行一次k-means算法所进行的最大迭代数。n_init:整形,缺省值=10用不同的质心初始化值运行算法的次数,最终解是

2016-08-22 01:28:26 17250 1

原创 K-means聚类方法 - Andrew Ng笔记的翻译及理解

The k-means clustering algorithm在聚类问题中,我们给定一组训练集{x(1), . . . , x(m)},要把这些数据归到几个内部联系紧密的簇(cluster)里,其中x(i)∈ Rn,但是并没有事先给出每个样本点的分类,所以这是一个非监督学习的问题。K-means聚类算法如下1. 随机初始化聚类的质心(centroids) µ1, µ2,

2016-08-20 04:19:06 3473 3

原创 学习Flask摘要 - 第1,2章

第一章1.1 使用虚拟环境virrtualenv可以为每个项目单独创建虚拟环境,相当于python解释器的一个副本,并且只安装在这个虚拟环境中用到的包,可以保持全局解释器和项目中用到的包的整洁。pip install virtualenvvirtualenv venvvenv\Scripts\activatedeactivate第二章flask的基本用途就是接收客

2016-08-05 07:47:38 499

原创 阅读MongoDB摘要 - Querying

条件查询:=, > : "$lt", "$lte", "$gt", "$gte"not equal: "$ne"mod模:"$mod"OR/AND 查询:"$in", "$or", "$nin", "$nor", "$not", "$and"null 值为null或键不存在:db.collection.find({"name": null})

2016-07-27 17:22:27 507

原创 关于scrapy有用的链接

如何让不同的spider使用不同的pipeline:http://stackoverflow.com/questions/8372703/how-can-i-use-different-pipelines-for-different-spiders-in-a-single-scrapy-proje

2016-06-27 08:26:46 410

原创 :在scrapy的callback中使用lambda小结

用lambda定义函数 的用法其实很简单: lambda [参数部分]  : [函数部分]1先举一个简单的例子func = lambda x,y : x+y如果定义了这个函数之后我们执行这行命令func(3,5)那么显而易见结果是8。如果我们在定义时给参数缺省值,比如func = lambda x=3,y=5: x+y那么调用func

2016-06-27 04:33:54 5241

原创 用Scrapy抓取Yahoo! WOEID

Yahoo! WOEID (Where On Earth Identifier) 是Yahoo的一套用于识别地球上不同地址的编号系统。许多网站,包括Twitter都用woeid来识别位置信息。本文主题就是利用scrapy从网上抓取给定国家的woeid我将要抓取的网站是http://woeid.rosselliot.co.nz/,我们可以在这个网页输入想要查找的地名,可以是国家名,城市名

2016-06-23 21:44:36 2361 1

翻译 【翻译】Tweepy 3.5.0 Doc (3) Code Snippets

实用代码片段简介下面是一些在使用Tweepy或许对你有用的代码片段。OAuthauth = tweepy.OAuthHandler("consumer_key", "consumer_secret")# Redirect user to Twitter to authorizeredirect_user(auth.get_authorization_url()

2016-06-18 04:16:32 680

翻译 【翻译】Tweepy 3.5.0 Doc (2) Authentication Tutorial

Authentication Tutorial简介Tweepy支持 oauth认证。Tweepy中的身份认证由 tweepy.AuthHandler 类进行处理。OAuth 身份认证Tweepy尽可能试着简化OAuth认证。首先我们需要在Twitter注册一个客户端应用。当创建完成之后你应该能获得你的consumer token 和 consumer secret。将这两个

2016-06-17 22:00:49 721

翻译 【翻译】Tweepy 3.5.0 Doc (6) Streaming With Tweepy

Streaming With TweepyTweepy是的处理twitter流api的授权,连接,创建/删除会话,读取信息以及处理路由信息(?partially routing messagaes)都变得更轻松。此教程旨在帮助你踏出用Tweepy使用Twitter流的第一步。Tweepy流的某些特征没有包括在此教程内,请查看Tweepy的相关源码streaming.py来获取更多信息。

2016-06-17 20:51:03 1929

翻译 【翻译】Tweepy 3.5.0 Doc (4) Cursor Tutorial

Cursor教程此教程详细阐述了如何用Cursor对象进行与分页有关的操作。简介分页在 Twitter API 的开发中有着广泛的运用,如对时间线,用户列表,私信的迭代等等。为了实现分页的操作,我们必须为每一个request提供一个页面/指针(page/cursor)参数。但是单为了处理分页的循环实际上就需要很多样板代码(boiler plate code),所以Tweepy中

2016-06-17 19:43:00 2052

翻译 【翻译】Tweepy 3.5.0 Doc (5) API Reference

API Reference这篇文章涵盖了Tweepy模块一些基本的文档。tweepy.api -- Twitter API 的封装(wrapper)class API([auth_handler=None][, host='api.twitter.com'][, search_host='search.twitter.com'][, cache=None][, api_root='/1

2016-06-16 05:27:56 1779

翻译 【翻译】Tweepy 3.5.0 Doc (1) Getting started

开始简介如果你是第一次接触Tweepy,就请从这里开始。这个教程的目标是提供你学习Tweepy所需的信息,让你学习完本教程后能熟练使用Tweepy。我们在这主要谈论重要的基础内容,而不会涉及太多细节,你好 Tweepyimport tweepyauth = tweepy.OAuthHandler(consumer_key, consumer_secret)auth.s

2016-06-16 04:24:14 1764

原创 Tweepy抓取twitter数据 1

之前一直想用爬虫登陆并抓取twitter数据,试过scrapy,requests等包,都没成功,可能是我还不太熟悉的原因,不过今天发现了一个新包tweepy,专门用于在python中处理twitter API。先尝试一下教程的第一个例子,经过了自己的一点修改代码如下:__author__ = 'xyz'import reimport tweepyauth = tweepy.O

2016-06-15 21:29:58 10820

原创 用BeautifulSoup,urllib,requests写twitter爬虫(1)

在github上找到了一个twitter的爬虫,试了下,修改了其中一个有关编码的问题,可以抓取一定数量的twitterhttps://gist.github.com/TVFlash/cccc2808cdd9a04db1ce代码如下from bs4 import BeautifulSoup, NavigableStringfrom urllib2 import urlopen#No

2016-06-15 03:07:35 3489

原创 编码问题:UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:

在写一个用BeautifulSoup抓取twitter网页时遇到的问题# UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:# illegal multibyte sequence在网上找了一篇解决类似问题的文章(http://www.crifan.com/unicod

2016-06-14 22:15:16 16718 9

原创 初试scrapy编写twitter爬虫

第一步要做的当然是生成一个新projectscrapy startproject twitterProject我计划用这个爬虫做的第一件事就是抓取twitter上希拉里的推文以及她的关注。所以新建一个spiderscrapy genspider hillary https://twitter.com/HillaryClinton本文首先参考 https://github.com

2016-06-09 21:42:37 10905

原创 scrapy提取wikipedia实践1

1.新建Project首先创建一个新的project,在cmd下执行以下命令scrapy startproject wiki得到一个新的project2.新建spider文件现在新建一个spider来抓取wikipedia英文主页上的内容。使用以下命令新建一个spider文件scrapy genspider main en.wikipedia.org然后在编译器里打开在

2016-06-03 19:36:24 1590

原创 html,XPath 学习笔记

XPath1. Chrome和傲游浏览器的Console中执行的Xpath代码有些区别。例如,要提取a tag中的某个属性,在傲游中是这样写:$x('//a/@href')而在Chrome中则是$x('//a')[0].getAttribute('href')2:// 和 /在XPath中,双斜线 "//" 表示收集在Hierarchy中任意位置

2016-05-31 02:54:09 662

原创 Python爬虫之Scrapy 1 stackoverflow示例,基本步骤

放假后看了两周的Web Scraping with Python之前几章看的很happy,尝试了许多小程序,等看到API和Database后开始有点空中楼阁的感觉,觉得应该把前面的内容学好,实践一些后再往下走。所以打算从Scrapy开始一点一点精通Python web crawler,也不枉暑假没实习没RA的苦逼生活。scrapy不仅可以用于web scraping,也同时可以应用API,之前

2016-05-26 04:53:51 1565

原创 初试Twitter API

今天再看Web Scraping with Python 上Twitter API的部分。由于之前一直没用Twitter所以注册了个账号然后create了一个新的Twitter App。按教程安装twitter包,复制了一段代码并换成了我自己的Token和Secret。from twitter import *t = Twitter(auth=OAuth(,,,))pythonT

2016-05-26 01:03:32 4472

原创 python2.7下安装scrapy

我自己的电脑是win7 64位系统,最近在学python爬虫,找了本python3的教材,看到scrapy这块安装好scrapy之后才发现win7现在不支持python3的scrapy,于是要换回python2. scrapy主要的问题是其需要的一系列包似乎需要c的一些代码包所以要安装visual studio之类的东西。现在有python2.7.11和3.4.1,其中2.7里有scr

2016-05-25 03:12:34 10986 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除