自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小样的博客

一个业余python爱好者

  • 博客(16)
  • 资源 (4)
  • 收藏
  • 关注

原创 知乎图片爬虫

好久没写csdn博客了,觉得不应该把这个博客荒废了,那就继续写吧。 这回写写知乎爬虫,主要是写模拟登录知乎,以及爬知乎图片。本篇文章分为两个部分: 1. 模拟登录知乎 2. 爬取知乎某个问题下的所有回答里面的照片。1. 模拟登录知乎首先我们打开知乎我们采用chrome浏览器自带的开发者工具进行抓包。 按F12打开开发者工具,选择Network,然后筛选XHR,如图所示 接着填入账号密

2016-11-03 13:39:10 4380 2

原创 Django数据导入

我们先新建一个项目和一个app:django-admin startproject mysitecd mysitedjango-admin startapp blog然后修改blog/models.py:from django.db import modelsclass Blog(models.Model): title=models.CharField(max_l

2015-10-12 11:09:47 2099

原创 Django使用-Django搭建简单博客

一直想学Django,但是看到教程就头疼,因为学习基础知识总是最痛苦的,但是基础又是必须的!所以一般遇到这种情况我都不可能一次把基础学完,总是要学一次,然后放弃,然后过段时间又学一次,放弃......嗯,当我学完(放弃)了几次之后,也差不多把基础知识学完了,接下来就愉快的实战吧!学习Django也是一样的(尿性),之前想学Django或者Tornado,但是学到有关html代码的时候就萎了,,

2015-10-11 19:31:28 4466

原创 无聊之作·->当两个机器人聊天会发生什么?

当两个机器人在一起聊天会发生什么?本着无聊的精神和有病的思想,我做了一个实验。使用器材:1。linux系统(windows下socket无法对话)1。Python2。图灵机器人原理:1。使用图灵机器人api进行对话,原本打算用两种不同的机器人进行对话,但是用到的另外一个逗比机器人速度太慢,就没有去用了。2。使用socket协议进行两个机器人的对话。其实这里不仅可

2015-09-26 20:20:42 5392

转载 简单理解socket协议

TCP/IP要想理解socket首先得熟悉一下TCP/IP协议族, TCP/IP(Transmission Control Protocol/Internet Protocol)即传输控制协议/网间协议,定义了主机如何连入因特网及数据如何再它们之间传输的标准,从字面意思来看TCP/IP是TCP和IP协议的合称,但实际上TCP/IP协议是指因特网整个TCP/IP协议族。不同于ISO模型的七个

2015-09-26 18:28:26 16748 1

转载 进程与线程的一个简单解释

看到一篇解释进程和进程很有意思的一篇文章,再次转载。进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,不容易掌握。最近,我读到一篇材料,发现有一个很好的类比,可以把它们解释地清晰易懂。1.计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。2.假定工厂的电力有限,一次只能供给一个车间使用。也就是

2015-09-23 08:23:05 546

原创 【计蒜客】基础算法入门之快速排序

很想写一个很好的文章引子,但是囿于语文水平有限,写不出什么好东西来,干脆就随便写点东西吧。之前写的文章都是关于爬虫的,爬虫虽好,但是写来写去就是那些东西,是时候学习点新东西了!现在自己很缺关于算法的知识,于是就上计蒜客学习了基础算法入门,但是苦于它教学用的是C++,而我大一学过C++,现在早就忘光了。于是我将写几篇系列文章,将计蒜客上面的C++算法改写成Python。这是第四篇文章《快速排

2015-09-22 09:51:20 818

原创 【计蒜客】基础算法入门之深度搜索(2)蒜头学算术d

很想写一个很好的文章引子,但是囿于语文水平有限,写不出什么好东西来,干脆就随便写点东西吧。之前写的文章都是关于爬虫的,爬虫虽好,但是写来写去就是那些东西,是时候学习点新东西了!现在自己很缺关于算法的知识,于是就上计蒜客学习了基础算法入门,但是苦于它教学用的是C++,而我大一学过C++,现在早就忘光了。于是我将写几篇系列文章,将计蒜客上面的C++算法改写成Python。这是第三篇文章《深度搜

2015-09-21 21:57:05 990

原创 【计蒜客】基础算法入门之深度搜索

很想写一个很好的文章引子,但是囿于语文水平有限,写不出什么好东西来,干脆就随便写点东西吧。之前写的文章都是关于爬虫的,爬虫虽好,但是写来写去就是那些东西,是时候学习点新东西了!现在自己很缺关于算法的知识,于是就上计蒜客学习了基础算法入门,但是苦于它教学用的是C++,而我大一学过C++,现在早就忘光了。于是我将写几篇系列文章,将计蒜客上面的C++算法改写成Python。这是第二篇文章《深度搜索》

2015-09-19 20:12:31 1170

原创 【计蒜客】基础算法入门之二分查找

很想写一个很好的文章引子,但是囿于语文水平有限,写不出什么好东西来,干脆就随便写点东西吧。之前写的文章都是关于爬虫的,爬虫虽好,但是写来写去就是那些东西,是时候学习点新东西了!现在自己很缺关于算法的知识,于是就上计蒜客学习了基础算法入门,但是苦于它教学用的是C++,而我大一学过C++,现在早就忘光了。于是我将写几篇系列文章,将计蒜客上面的C++算法改写成Python。这是第一篇文章《二分查找》

2015-09-19 19:38:24 1834

原创 SAE部署Python-让云端自动运行Python代码

之前写过模拟登录新浪微博的帖子,然而我并没有去爬过微博的数据,觉得有点浪费,于是就想写一个代码来发微博。写完之后觉得如果能自动发微博就好了,但是我又不可能24小时开始(晚上12点后还会断网),也没有vps(穷学生狗),找过几个免费vps未果,然后想到之前用过新浪SAE,就想能不能在上面试试。 试了一天左右终于让我试出来了!! 基本实现了: 1、定时发送,这里是定时半小时 2、离线自动,基

2015-09-09 12:43:08 9234 3

原创 写了一个增量式的爬虫,但是并不完美,希望大牛们可以指正指正!

写了一个增量式的爬虫,但是并不完美,希望大牛们可以指正指正!爬虫以爬4567.tv这个网站的电影为例。把保存过得电影链接以set的形式保存到本地,然后下次运行的时候就会读取这些链接,然后用set的运算将去除以解析过得链接。比如:a=set([1,2,3])#假设这是上次解析过得b=set([3,4,5])#这是本次要解析的链接,但是3是上次解析过的c=(a|b)-a # c=set

2015-09-08 20:05:16 6448

原创 Python爬虫框架--pyspider初体验

之前接触scrapy本来是想也许scrapy能够让我的爬虫更快,但是也许是我没有掌握scrapy的要领,所以爬虫运行起来并没有我想象的那么快,看这篇文章就是之前使用scrapy的写得爬虫。然后昨天我又看到了pyspider,说实话本来只是想看看,但是没想到一看就让我喜欢上了pyspider。先给大家看一下pyspider的后台截图: pyspider是国人写的一款开源爬虫框架,个人觉得这个框架

2015-09-05 10:57:33 25516 2

原创 scrapy爬虫和自写爬虫对比--爬jobbole文章

前几天写了一个爬虫,用来爬伯乐在线的python版块的文章。其实这个爬虫只是保存网页而已,因为伯乐在线的文章既有图片又有代码,爬主要部分的话排版很难看,不如直接把网页保存下来。 然后这两天就在看python的一个轻量级爬虫框架–scrapy,并尝试用scrapy写爬虫。一开始觉得毫无头绪,后来慢慢就觉得挺好使的。但是好使归好使,就是不知道性能如何?于是就用scrapy也写一个爬虫来爬伯乐在线的文章

2015-09-02 12:41:56 6942 3

原创 python模拟登录新浪微博

之前接触爬虫的时候,常常会看到模拟登陆这个词眼,然后也很想去尝试一下,但是又不知道要post的数据是什么?还有就是post的地址怎么来的?说实话,现在我也还不太清楚,只不过今天去模拟登录的时候居然成功了! 首先去模拟登录的是豆瓣,这个简单,根据我前一篇帖子查看需要post数据,主要是用户名和密码的信息,有了这两个信息之后,就可以直接post了。loginurl='https://accoun

2015-08-31 14:47:27 3649 1

原创 Python使用requests库模拟登陆网站的方式--以豆瓣为例

初次接触爬虫的时候,总会看到模拟登录网站的字眼,然后又是get、post等一堆不知道什么意思的字眼。百度get、post之后也不太清楚什么意思,只知道好像是打开网址的时候顺便提交一些数据。然后又在想:我怎么知道哪些网址需要post,又要post什么数据?哪些网址又是需要get的?后来慢慢接触的多了就知道了,get方式其实没什么,看网址就知道了,比如百度搜索关键词:‘get’,那么只需要http

2015-08-31 14:04:32 60105 5

结巴中文切词可用

结巴中文切词,可以直接用来切中文;txt、csv、excel都行

2015-06-13

机器学习实战决策树python实现

机器学习实战第三章决策树代码,说实话感觉这一章不太实用

2015-06-13

机器学习实战KNN代码

机器学习实战第二章k近邻代码python实现

2015-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除