自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 scrapy爬取豆瓣TOP250电影

1.思路分析1.1网页关系分析 上图红框内是第一页网址 第一页网址:https://movie.douban.com/top250?start=0 第二页网址:https://movie.douban.com/top250?start=25 … 第十页网址:https://movie.douban.com/top250?start=225 可以看出存在规律,实际就是每页展示25部电影。1

2017-02-22 22:21:45 1843 1

原创 豆瓣模拟登陆

1、模拟headers 2、登陆豆瓣,查看并构造表单 两种实现方式,一种普通,一种使用sessionimport requestsfrom bs4 import BeautifulSoupfrom urllib.request import urlretrievelogin_url = 'https://accounts.douban.com/login' # 登陆网址headers =

2017-02-19 11:17:32 855

原创 python3数据类型简介

python数据类型包含: 数字 字符串 列表 元祖 字典1.数字整数型 int 123 浮点型 float 1.23 复数型 complex 1.23j2.字符串使用引号定义 ‘abc123’ 单引号 “abc123” 双引号 三重引号定义(单双引号都可)可以保存字符串输入格式3.列表使用中括号定义 [1, 2, ‘a’, ‘b’]4.元组使用圆括号定义 (1, 2, ‘a

2017-01-05 23:15:08 401

原创 python运算符和表达式

运算符和表达式python运算符包括:赋值运算符 算术运算符 关系运算符 逻辑运算符1.算术运算符 “+” 加法 “-” 减法 “*” 乘法 “/” 实数除法12/5 “//” 整数除法12//5 “%” 求余12%5 “**” 幂运算2**32.赋值运算符 “a=3” 结合上面算术运算符有 “a-=1”(a的值3减去1再赋值给a)3.关系运算符 “<”小于 “>

2017-01-05 22:44:52 802

转载 ubuntu16.04如何安装下载工具uget+aria2

1.安装uget添加uget依赖: sudo add-apt-repository ppa:plushuang-tw/uget-stable更新依赖: sudo apt-get update安装uget: sudo apt-get sudo apt-get update2.arira2安装添加aria2的依赖: sudo add-apt-repository ppa:t-tujikawa/p

2017-01-02 10:53:28 2081

转载 ubuntu16.04安装pycharm

1.安装java jdk终端执行下列命令sudo add-apt-repository ppa:webupd8team/javasudo apt-get updatesudo apt-get install oracle-java8-installer安装过程中会出现oracle license对话框,选择是。 安装完成后,运行java -version 或者javac -version 查

2017-01-02 10:41:49 1280

原创 python-map()函数,reduce()函数,filter()函数

map()是python内置高阶函数(能接受函数作为参数传递的函数),它接受一个函数f和一个list,并把函数f作用在list的每一个元素上,得到一个新list并返回(不改变原有list)。 示例ls = [1, -2, 3, -4, -5]print(list(map(abs,ls)))#python3中不使用list转化直接打印是map对象,而不是新生产的列表>>[1, 2, 3, 4,

2016-12-27 10:14:32 545

原创 python使用pymysql操作mysql

1.pymysql安装window命令行使用pip安装:pip install pymysql2.mysql写入引入开发包import pymysql.cursors获取数据库连接connection = pymysql.connect(host='localhost', user='root',

2016-12-24 21:28:44 737

原创 python爬虫抓取晋江网一篇小说

这几天学了python的requests库和BeautifulSoup,闲来爬取晋江网一篇小说。1.过程分析:(1)获取全部免费章节的标题和链接(前23章),后面的章节是vip收费,没有账号充值无法爬取 (2)进入每章的链接爬取小说正文 其实爬取得思路比较简单,稍微复杂的是小说正文的正则匹配2.代码实现:# coding: utf-8import requestsfrom bs4 import

2016-12-24 14:53:41 12062 6

原创 面向对象

面向对象两个基本概念类 定义了一件事物的抽象特点 对象 类的一个实例类的特性: -封装型 -继承 -多态定义类class Programer(object):1.定义类的属性#直接定义class Programer(object): hobby = "play computer"per = Programer()#实例化一个类print(pe

2016-12-24 00:59:55 349

原创 Scrapy框架爬取京东商品

这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类。使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.py , settings.py , 其中主要编写的是前两个文件,最后一个文件主要设置破解反爬方法。phone.py编写程序如下:import scrapyfrom sc

2016-12-13 21:57:05 3838 2

原创 正则表达式学习笔记

做爬虫免不了要接触正则表达式,而我完全不懂啊网上有好多文字的教程,然而看了还是一知半解。于是想搜一下正则的学习视频,还挺多的,这里推荐某云课堂的学习视频,感兴趣的可以自行搜索。下面也是我视频学习的笔记,整理出来方便日后查看。大神请绕道哦正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某

2016-11-25 08:01:55 421

原创 Scrapy框架爬取昵图网图片

这是第一篇博文,小白学习Python快一个月。从上周开始学习CSDN的韦玮老师的《Python大型网络爬虫实战课》。第一节课讲授大型图片网站的图片爬取,老师以千图网为例,讲解基于Scrapy爬取一般图片网站的流程和方法。Scrapy 图片爬虫构建思路为:1. 分析网站2. 选择爬取方式和策略3. 创建爬虫项目--》定义items4. 编写爬虫文件5. 调试pipelines

2016-11-20 17:01:27 3375 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除