Iam-xyZ-CSDN博客

原创 XGBoost 阅读之 Weighted Quantile Sketch

3.3 Weighted Quantile Sketch（加权分位数略图）One important step in the approximate algorithm is to propose candidate split points. Usually percentiles of a feature are used to make candidates distribute eve...

2019-04-27 22:11:36 3471

原创 Jupyter Notebook 导入python文件时的问题

在使用Jupyter Notebook进行数据分析时，有时需要从本地py文件中导入函数。这里出现的问题是，当目前的kernel还在运行中，如果对py文件中的函数名进行修改，并在jupyter中修改导入的函数名，则会出现无法导入的问题。这时必须将当前kernel shutdown，重新开始才能导入...

2018-06-14 11:58:18 5816

原创 Python - 字符串

1. 字符串的表示Python中，字符串可以用双引号 "..." 或者单引号 '...' 括起来表示。当字符串中包含单引号或者双引号时，就可以用另一种引号来包含字符串"qwer"Out[1]: 'qwer''qwer'Out[2]: 'qwer'"qwer'qwre"Out[3]: "qwer'qwre"'qwer"qwer'Out[4]: 'qwer"qwer'1.1 转义字...

2018-04-22 21:57:44 384

原创 Python - 模块与包

Python包总结模块简述：在编写程序中，经常会重复用到某些功能，如果将实现这些功能的函数和变量存放到一个文件中，在需要的时候直接调用，就能节省很多工作量。这就是模块的用处：将函数封装到.py文件中，在需要的时候用 import 命令进行访问。包简述：当你有了很多模块，每个模块都完成不同的功能，且不同的模块间存在互补或依赖关系，那么就可以考虑将这些模块文件封装成一个整体，这就是包。包的构成：最简单...

2018-04-22 08:43:47 421

原创 R包开发总结

R包开发流程 1.准备工作 1.1 一些准备好的R函数，数据 1.2 在Rstudio中创建一个R Package项目 1.3 下载并安装devtools包，此包简化了R包开发的许多流程 1.4 下载并安装roxygen2包，此包用来为R包添加文档 2.开发流程 2.1 添加函数 2.1.1 R文件在R包中，所有R文件都要添加到R文件夹中。注意不能在R文件夹中放入子文件夹，否则...

2018-04-19 07:00:55 4004

原创数据结构 - 折半插入排序

折半插入排序折半插入的原理与普通插入排序完全相同，即在完全排列的子列中寻找插入元素的位置,并将此位置之后直到待排元素前的元素后移一位。区别是：折半插入利用折半查找来提高查找效率。即从中点开始，利用划分的思路进行查找。时间复杂度：每轮比较的次数k，有最少为1次，至多 k^2 = n 即 k = log2(n), 所以时间复杂度为 O(n*log2(n))。移动的次数最少为0，最多为n。所以移动的时...

2018-04-01 09:53:25 533

原创数据结构 - 插入排序

插入排序插入排序的原理是：当数组中前 n-1 个元素排序完成之后，将第n个元素往前推，直到此元素在前n个元素中被正确排列。因此插入排序每次都排好前n-1个元素，再将第n个元素放到合适的位置，将此位置后面的元素往后推。时间复杂度：插入排序同样需要进行n轮比较，每一轮会将完成排序的数组长度+1. 最优情况下，数组已经排序完成，则只需要比较n-1次。不需要排序 ...

2018-04-01 08:12:08 288

原创数据结构 - 冒泡排序

冒泡排序冒泡排序的主要原理是两两比较，将较大者放在靠后的位置，用此种方法，将最大的值一点一点推到数列的后端。因此，对于一个长为n的数组，经过n-1遍冒泡，一定能将数组排序。时间复杂度：设T(n)为对长度为n的待排序列进行排序的时间。则比较次数为：n-1 + n-2 + ... + 1 = (n-1) * n / 2 = O(n^2) 而且，无论数组排序状况如何，都要进行这么多次的比较交换次数：最...

2018-04-01 06:57:45 280

原创数据结构 - 快速排序

快速排序算法快速排序是一种基于划分和迭代的排序算法。主要原理：在每一次迭代时，都把向量分城左，中，右（left, mid, right）三部分，其中左边部分全部都小于中间值，而右边部分全部大于等于中间值。这样，将整个向量分解成一个类似二叉树的结构，从而达到排序的目的。而这种方法减小计算量的关键技术是，在选定mid指针所指的值之后，要用最快的方法将小于mid值和大于mid值的数分开。基本思路：在当前...

2018-03-26 22:40:59 238

原创英语介词使用总结（不定期更新）

英语的介词使用比想象中要灵活得多，复杂得多。我且用这篇文章来总结自己的一些心得。1.work 后加不同的介词比如在描述自己的工作时：I work for an employer, in a department, at/in a location/company, on a project,

2017-04-26 10:31:12 1424

原创《Pyhton数据分析》阅读摘要 CH2 Introductory Examples

1 usa.gov data from bit.ly1. read txt: open(path).readline()2. converting json: json.loads(line)3. list comprehension: records = [json.loads(line) for line in open(path)]1.2 Counting T

2017-01-22 23:19:33 431

原创 Scrapyd 学习记录

最近想找一个用来管理scrapy项目的界面或系统，于是发现了scrapyd，也许会有用。在scrapy项目的目录下，在命令行中运行scrapyd就能打开scrapyd。然后在浏览器中打开http://localhost:6800/ 就能进入scrapyd界面。之后在我安装的curl目录下（在学Elasticsearch时安装），用curl运行了几个 scrapy

2016-09-06 21:30:29 958

翻译 sklearn 文档翻译之 sklearn.cluster.KMeans

在sklearn中处理kmeans聚类问题，用到的是 sklearn.cluster.KMeans 这个类。参数：n_clusters：整形，缺省值=8生成的聚类数，即产生的质心（centroids）数。max_iter：整形，缺省值=300执行一次k-means算法所进行的最大迭代数。n_init：整形，缺省值=10用不同的质心初始化值运行算法的次数，最终解是

2016-08-22 01:28:26 17250 1

原创 K-means聚类方法 - Andrew Ng笔记的翻译及理解

The k-means clustering algorithm在聚类问题中，我们给定一组训练集{x(1), . . . , x(m)}，要把这些数据归到几个内部联系紧密的簇(cluster)里，其中x(i)∈ Rn，但是并没有事先给出每个样本点的分类，所以这是一个非监督学习的问题。K-means聚类算法如下1. 随机初始化聚类的质心(centroids) µ1, µ2,

2016-08-20 04:19:06 3473 3

原创学习Flask摘要 - 第1,2章

第一章1.1 使用虚拟环境virrtualenv可以为每个项目单独创建虚拟环境，相当于python解释器的一个副本，并且只安装在这个虚拟环境中用到的包，可以保持全局解释器和项目中用到的包的整洁。pip install virtualenvvirtualenv venvvenv\Scripts\activatedeactivate第二章flask的基本用途就是接收客

2016-08-05 07:47:38 499

原创阅读MongoDB摘要 - Querying

条件查询：=, > : "$lt", "$lte", "$gt", "$gte"not equal: "$ne"mod模："$mod"OR/AND 查询："$in", "$or", "$nin", "$nor", "$not", "$and"null 值为null或键不存在：db.collection.find({"name": null})

2016-07-27 17:22:27 507

原创关于scrapy有用的链接

如何让不同的spider使用不同的pipeline：http://stackoverflow.com/questions/8372703/how-can-i-use-different-pipelines-for-different-spiders-in-a-single-scrapy-proje

2016-06-27 08:26:46 410

原创 :在scrapy的callback中使用lambda小结

用lambda定义函数的用法其实很简单： lambda [参数部分] : [函数部分]1先举一个简单的例子func = lambda x,y : x+y如果定义了这个函数之后我们执行这行命令func(3,5)那么显而易见结果是8。如果我们在定义时给参数缺省值，比如func = lambda x=3,y=5: x+y那么调用func

2016-06-27 04:33:54 5241

原创用Scrapy抓取Yahoo! WOEID

Yahoo! WOEID (Where On Earth Identifier) 是Yahoo的一套用于识别地球上不同地址的编号系统。许多网站，包括Twitter都用woeid来识别位置信息。本文主题就是利用scrapy从网上抓取给定国家的woeid我将要抓取的网站是http://woeid.rosselliot.co.nz/，我们可以在这个网页输入想要查找的地名，可以是国家名，城市名

2016-06-23 21:44:36 2361 1

翻译【翻译】Tweepy 3.5.0 Doc (3) Code Snippets

实用代码片段简介下面是一些在使用Tweepy或许对你有用的代码片段。OAuthauth = tweepy.OAuthHandler("consumer_key", "consumer_secret")# Redirect user to Twitter to authorizeredirect_user(auth.get_authorization_url()

2016-06-18 04:16:32 680

翻译【翻译】Tweepy 3.5.0 Doc (2) Authentication Tutorial

Authentication Tutorial简介Tweepy支持 oauth认证。Tweepy中的身份认证由 tweepy.AuthHandler 类进行处理。OAuth 身份认证Tweepy尽可能试着简化OAuth认证。首先我们需要在Twitter注册一个客户端应用。当创建完成之后你应该能获得你的consumer token 和 consumer secret。将这两个

2016-06-17 22:00:49 721

翻译【翻译】Tweepy 3.5.0 Doc (6) Streaming With Tweepy

Streaming With TweepyTweepy是的处理twitter流api的授权，连接，创建/删除会话，读取信息以及处理路由信息(？partially routing messagaes)都变得更轻松。此教程旨在帮助你踏出用Tweepy使用Twitter流的第一步。Tweepy流的某些特征没有包括在此教程内，请查看Tweepy的相关源码streaming.py来获取更多信息。

2016-06-17 20:51:03 1929

翻译【翻译】Tweepy 3.5.0 Doc (4) Cursor Tutorial

Cursor教程此教程详细阐述了如何用Cursor对象进行与分页有关的操作。简介分页在 Twitter API 的开发中有着广泛的运用，如对时间线，用户列表，私信的迭代等等。为了实现分页的操作，我们必须为每一个request提供一个页面/指针(page/cursor)参数。但是单为了处理分页的循环实际上就需要很多样板代码(boiler plate code)，所以Tweepy中

2016-06-17 19:43:00 2052

翻译【翻译】Tweepy 3.5.0 Doc (5) API Reference

API Reference这篇文章涵盖了Tweepy模块一些基本的文档。tweepy.api -- Twitter API 的封装（wrapper）class API([auth_handler=None][, host='api.twitter.com'][, search_host='search.twitter.com'][, cache=None][, api_root='/1

2016-06-16 05:27:56 1779

翻译【翻译】Tweepy 3.5.0 Doc (1) Getting started

开始简介如果你是第一次接触Tweepy，就请从这里开始。这个教程的目标是提供你学习Tweepy所需的信息，让你学习完本教程后能熟练使用Tweepy。我们在这主要谈论重要的基础内容，而不会涉及太多细节，你好 Tweepyimport tweepyauth = tweepy.OAuthHandler(consumer_key, consumer_secret)auth.s

2016-06-16 04:24:14 1764

原创 Tweepy抓取twitter数据 1

之前一直想用爬虫登陆并抓取twitter数据，试过scrapy，requests等包，都没成功，可能是我还不太熟悉的原因，不过今天发现了一个新包tweepy，专门用于在python中处理twitter API。先尝试一下教程的第一个例子，经过了自己的一点修改代码如下：__author__ = 'xyz'import reimport tweepyauth = tweepy.O

2016-06-15 21:29:58 10820

原创用BeautifulSoup,urllib,requests写twitter爬虫(1)

在github上找到了一个twitter的爬虫，试了下，修改了其中一个有关编码的问题，可以抓取一定数量的twitterhttps://gist.github.com/TVFlash/cccc2808cdd9a04db1ce代码如下from bs4 import BeautifulSoup, NavigableStringfrom urllib2 import urlopen#No

2016-06-15 03:07:35 3489

原创编码问题：UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:

在写一个用BeautifulSoup抓取twitter网页时遇到的问题# UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 148:# illegal multibyte sequence在网上找了一篇解决类似问题的文章（http://www.crifan.com/unicod

2016-06-14 22:15:16 16718 9

原创初试scrapy编写twitter爬虫

第一步要做的当然是生成一个新projectscrapy startproject twitterProject我计划用这个爬虫做的第一件事就是抓取twitter上希拉里的推文以及她的关注。所以新建一个spiderscrapy genspider hillary https://twitter.com/HillaryClinton本文首先参考 https://github.com

2016-06-09 21:42:37 10905

原创 scrapy提取wikipedia实践1

1.新建Project首先创建一个新的project，在cmd下执行以下命令scrapy startproject wiki得到一个新的project2.新建spider文件现在新建一个spider来抓取wikipedia英文主页上的内容。使用以下命令新建一个spider文件scrapy genspider main en.wikipedia.org然后在编译器里打开在

2016-06-03 19:36:24 1590

原创 html,XPath 学习笔记

XPath1. Chrome和傲游浏览器的Console中执行的Xpath代码有些区别。例如，要提取a tag中的某个属性，在傲游中是这样写：$x('//a/@href')而在Chrome中则是$x('//a')[0].getAttribute('href')2：// 和 /在XPath中，双斜线 "//" 表示收集在Hierarchy中任意位置

2016-05-31 02:54:09 662

原创 Python爬虫之Scrapy 1 stackoverflow示例，基本步骤

放假后看了两周的Web Scraping with Python之前几章看的很happy，尝试了许多小程序，等看到API和Database后开始有点空中楼阁的感觉，觉得应该把前面的内容学好，实践一些后再往下走。所以打算从Scrapy开始一点一点精通Python web crawler,也不枉暑假没实习没RA的苦逼生活。scrapy不仅可以用于web scraping，也同时可以应用API，之前

2016-05-26 04:53:51 1565

原创初试Twitter API

今天再看Web Scraping with Python 上Twitter API的部分。由于之前一直没用Twitter所以注册了个账号然后create了一个新的Twitter App。按教程安装twitter包，复制了一段代码并换成了我自己的Token和Secret。from twitter import *t = Twitter(auth=OAuth(,,,))pythonT

2016-05-26 01:03:32 4472

原创 python2.7下安装scrapy

我自己的电脑是win7 64位系统，最近在学python爬虫，找了本python3的教材，看到scrapy这块安装好scrapy之后才发现win7现在不支持python3的scrapy，于是要换回python2. scrapy主要的问题是其需要的一系列包似乎需要c的一些代码包所以要安装visual studio之类的东西。现在有python2.7.11和3.4.1，其中2.7里有scr

2016-05-25 03:12:34 10986 1

Xiaoyi_Zhang的博客