Gavin_CHEN929-CSDN博客

原创 scrapy爬取豆瓣TOP250电影

1.思路分析1.1网页关系分析上图红框内是第一页网址第一页网址：https://movie.douban.com/top250?start=0 第二页网址：https://movie.douban.com/top250?start=25 … 第十页网址：https://movie.douban.com/top250?start=225 可以看出存在规律，实际就是每页展示25部电影。1

2017-02-22 22:21:45 1843 1

原创豆瓣模拟登陆

1、模拟headers 2、登陆豆瓣，查看并构造表单两种实现方式，一种普通，一种使用sessionimport requestsfrom bs4 import BeautifulSoupfrom urllib.request import urlretrievelogin_url = 'https://accounts.douban.com/login' # 登陆网址headers =

2017-02-19 11:17:32 855

原创 python3数据类型简介

python数据类型包含：数字字符串列表元祖字典1.数字整数型 int 123 浮点型 float 1.23 复数型 complex 1.23j2.字符串使用引号定义 ‘abc123’ 单引号 “abc123” 双引号三重引号定义（单双引号都可）可以保存字符串输入格式3.列表使用中括号定义 [1, 2, ‘a’, ‘b’]4.元组使用圆括号定义 (1, 2, ‘a

2017-01-05 23:15:08 401

原创 python运算符和表达式

运算符和表达式python运算符包括：赋值运算符算术运算符关系运算符逻辑运算符1.算术运算符 “+” 加法 “-” 减法 “*” 乘法 “/” 实数除法12/5 “//” 整数除法12//5 “%” 求余12%5 “**” 幂运算2**32.赋值运算符 “a=3” 结合上面算术运算符有 “a-=1”(a的值3减去1再赋值给a)3.关系运算符 “<”小于 “>

2017-01-05 22:44:52 802

转载 ubuntu16.04如何安装下载工具uget+aria2

1.安装uget添加uget依赖： sudo add-apt-repository ppa:plushuang-tw/uget-stable更新依赖： sudo apt-get update安装uget： sudo apt-get sudo apt-get update2.arira2安装添加aria2的依赖： sudo add-apt-repository ppa:t-tujikawa/p

2017-01-02 10:53:28 2081

转载 ubuntu16.04安装pycharm

1.安装java jdk终端执行下列命令sudo add-apt-repository ppa:webupd8team/javasudo apt-get updatesudo apt-get install oracle-java8-installer安装过程中会出现oracle license对话框，选择是。安装完成后，运行java -version 或者javac -version 查

2017-01-02 10:41:49 1280

原创 python-map()函数，reduce()函数，filter()函数

map()是python内置高阶函数（能接受函数作为参数传递的函数），它接受一个函数f和一个list，并把函数f作用在list的每一个元素上，得到一个新list并返回（不改变原有list）。示例ls = [1, -2, 3, -4, -5]print(list(map(abs,ls)))#python3中不使用list转化直接打印是map对象，而不是新生产的列表>>[1, 2, 3, 4,

2016-12-27 10:14:32 545

原创 python使用pymysql操作mysql

1.pymysql安装window命令行使用pip安装：pip install pymysql2.mysql写入引入开发包import pymysql.cursors获取数据库连接connection = pymysql.connect(host='localhost', user='root',

2016-12-24 21:28:44 737

原创 python爬虫抓取晋江网一篇小说

这几天学了python的requests库和BeautifulSoup,闲来爬取晋江网一篇小说。1.过程分析：（1）获取全部免费章节的标题和链接（前23章），后面的章节是vip收费，没有账号充值无法爬取（2）进入每章的链接爬取小说正文其实爬取得思路比较简单，稍微复杂的是小说正文的正则匹配2.代码实现：# coding: utf-8import requestsfrom bs4 import

2016-12-24 14:53:41 12062 6

原创面向对象

面向对象两个基本概念类定义了一件事物的抽象特点对象类的一个实例类的特性： -封装型 -继承 -多态定义类class Programer(object):1.定义类的属性#直接定义class Programer(object): hobby = "play computer"per = Programer()#实例化一个类print(pe

2016-12-24 00:59:55 349

原创 Scrapy框架爬取京东商品

这是上的第二节爬虫课程的课后作业：抓取京东某类商品的信息，这里我选择了手机品类。使用scrapy爬虫框架，需要编写和设置的文件主要有phone.py , pipelines.py , items.py , settings.py , 其中主要编写的是前两个文件，最后一个文件主要设置破解反爬方法。phone.py编写程序如下：import scrapyfrom sc

2016-12-13 21:57:05 3838 2

原创正则表达式学习笔记

做爬虫免不了要接触正则表达式，而我完全不懂啊网上有好多文字的教程，然而看了还是一知半解。于是想搜一下正则的学习视频，还挺多的，这里推荐某云课堂的学习视频，感兴趣的可以自行搜索。下面也是我视频学习的笔记，整理出来方便日后查看。大神请绕道哦正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某

2016-11-25 08:01:55 421

原创 Scrapy框架爬取昵图网图片

这是第一篇博文，小白学习Python快一个月。从上周开始学习CSDN的韦玮老师的《Python大型网络爬虫实战课》。第一节课讲授大型图片网站的图片爬取，老师以千图网为例，讲解基于Scrapy爬取一般图片网站的流程和方法。Scrapy 图片爬虫构建思路为：1. 分析网站2. 选择爬取方式和策略3. 创建爬虫项目--》定义items4. 编写爬虫文件5. 调试pipelines

2016-11-20 17:01:27 3375 3

Gavin_CHEN929的博客