yedoubushishen-CSDN博客

原创 pyecharts报错：jinja2.exceptions.TemplateAssertionError: no test named ‘false‘

升级jinja2即可：pip install --upgrade jinja2。

2023-12-05 17:00:39 484

原创 OSError: Initializing from file failed

参考链接：http://t.csdn.cn/KtMHG

2023-08-30 22:04:39 138

原创 Python爬取新闻动态评论

1.前些天打开网易新闻，于是点开爬取该新闻的评论。也可以点这里打开！2.以前爬取的网页都是静态的，都是源代码中直接就有，一眼就可以观察到的，而这次打开却不一样，根本没有自己想要的评论内容。然后通过搜索学习，知道了获取数据的办法。主要是html中的JavaScript和Python中json模块。具体步骤如下：1.输入网址，用谷

2020-04-05 11:04:59 4645 2

原创 back~

前几天找回了账号，鞭策自己时常更新一下子，不要鸽。

2020-04-04 18:38:39 211 2

原创 mysql的两个小问题

1.关于concat函数用到此函数是为了多个字段对应同一个值进行模糊匹配。例如： select * from course_info where course_id like '%xxx%' or course_name like '%xxx%' or course_school like '%xxx%'上述语句等同于：select * from course_info whe

2017-12-01 11:13:35 278

转载 xshell 评估过期

如下为 Home&School 免费版链接，卸载原程序，下载安装此程序即可。http://www.netsarang.com/download/free_license.html邮箱必须填写正确，Home&School 版的下载地址会发送到邮箱，如下

2017-10-24 11:51:04 765

原创 Python多线程爬取QQ音乐的专辑信息

1 需求：获取专辑信息：专辑名字，歌手，流派，语种，发行时间，发行公司，类型，介绍以及专辑中的歌曲，歌手和时长全部保存为json格式2 分析页面专辑链接所在的url为上图右方的链接：去掉多余参数则如下图所示： page从0开始。观察专辑的链接，红框中的内容恰好是一图中的albu

2017-04-14 21:49:11 2515

原创 Python安装lxml出错：ERROR: 'xslt-config' 不是内部或外部命令，也不是可运行的程序的解决办法。

想用xpath，from lxml import etree的时候发现没有lxml。（直接蹦到四五步就好）1 pip install lxml 然后报一堆错。ERROR: 'xslt-config' 不是内部或外部命令，也不是可运行的程序的解决办法。2 下载whl文件。安装依旧出错。3 下载exe文件，手动安装。 https://pypi.pyth

2017-04-14 21:33:21 4561

原创 scrapy连接mysql出错

报错内容大概是：connection localhost（无法连接localhost）忘记截图。。。。。只把解决方法写进了txt settings.py文件中的设置： pipeline.py文件中连接数据库的设置：

2017-04-06 17:49:21 1562

原创解决安装python没有scripts文件夹的问题

好久不更。安装Python2.7，好多次都不会产生scripts文件夹，导致无法使用pip。折腾了一下，找到了解决办法。让人无法接受的是，只要是我给的安装包一定不会产生scripts文件夹，所以应该是我的安装包出现了问题，建议出现这个问题的宝宝们先去换个安装包，如果换了之后还有这个错误，可以看一下我是怎么解决的，仅供参考。

2017-04-06 17:11:21 37224 3

转载 python设置代理ip爬取知乎图片

原文链接：http://blog.csdn.net/willib/article/details/52374507本文接着前面两文中提到的内容来继续完善我们的Python爬虫。上文地址：通过Python爬虫爬取知乎某个问题下的图片设置代理的方式很简单，可以看看这里Requests的官方文档，这里也有对应的中文版介绍，点击打开链接先简单说下requests代理的使

2017-03-17 19:57:35 1098

转载 python爬取的图片无法显示的问题

一开始把图片爬下来的时候完全都不能看，查了很多也没清楚原因，最近看到一篇解决这个问题的博客，膜拜呀。原博客地址：http://www.cnblogs.com/eastmount/p/5055908.html一. 简单分析原因及知识巩固 1.urllib.urlretrieve() 通过urlretrieve()函数可设置下载进度发现图

2016-10-20 17:44:50 24821

原创 csv.Error: line contains NULL byte解决方法

写代码的时候，导入一个csv文件，就一直报这个错误。csv.Error: line contains NULL byte查了查，是说包含了空字符。看了一下csv的源码，其中一个函数表示，不能有空操作符，即不能有“\0”或者“\x00”（16进制）。解决办法：1.如果你的文件是从xlxs格式另存为csv格式的话，那么重新再另存为csv格式一下就ok。2.将空字符全部替

2016-10-15 15:47:44 34069

转载 Python识别验证码的模块--- pytesser

pytesser识别简单的数字和英文字母还好，复杂的以及中文都无法识别的。而且该模块需要PIL库的支持。如果要识别其他语言，需要下载相应的语言数据包放入tessdata中，然后在调用image_to_string()函数时多加一个language参数。该博客里讲解了pytesser的安装使用、解决识别率低的问题以及通过修改源代码来识别其他语言，我改了，但是。。。。。一直报错。（不明所以脸）

2016-10-10 20:52:49 6641

原创 phantomjs+selenium爬取拉勾招聘信息

我又回来了我。从开学到现在仔细想想干了点啥，嗯。。。。。没啥。一直想着补博客，然后就想着。。刚为祖国大人庆完生，又被老妈拽去地里各种折腾，回来都不想动脑子，不想不想不想，啊。。。。。还是补博客吧，废话太多了，呵呵呵。说说要达到的目标：就是获取六个热门城市中数据挖掘职位的招聘职位、职位要求、面试评价等，最后转存为json格式。遇到的问题大概就是模拟登陆和验证码识别两大块问题吧。前提啊

2016-10-10 20:12:54 2297

原创 python排序函数sort()、sorted()、argsort()

1.sort()sort()是可变对象的方法，无参数，无返回值，但会影响改变对象。例如：>>> a = [2,5,1,3,0,1,8]>>> a.sort()>>> a[0, 1, 1, 2, 3, 5, 8]2.sorted()sorted(iterable[, cmp[, key[, reverse]]])sorted()不会发生上述情况，sorted()函数

2016-07-22 18:36:55 7134

原创 python字典的get函数和iteritems函数

1.get()当我们获取字典里的值的时候，一个是通过键值对，即dict['key'],另一个就是dict.get()方法。例如：>>> dict = {'a':'AA', 'b':'BB', 'c':'CC'}>>> dict['a']'AA'>>> dict.get('a')'AA'get()方法语法：dict.get(key, default=None)ke

2016-07-21 17:15:40 15917 1

转载 NumPy的详细教程

转自：http://blog.csdn.net/lsjseu/article/details/20359201先决条件在阅读这个教程之前，你多少需要知道点Python。如果你想从新回忆下，请看看Python Tutorial.如果你想要运行教程中的示例，你至少需要在你的电脑上安装了以下一些软件:PythonNumPy这些是可能对你有帮助的:ipy

2016-07-21 10:09:40 486

原创 scrapy爬取post的数据

1.爬取瑞钱宝的投资方式的数据，爬取内容如下： 2.查看网址，可以发现：点击下一页时，地址栏里的链接均无任何变化。可以判断出该网页的数据都是post方式上传的。说一下get和post的区别：get显式的传参，而post是隐式的。get的URL会有限制，而post没有。get没有post安全。不过，小某还看到一篇内容。点击打开

2016-04-27 21:25:44 15425 1

原创 python-----os模块

常用方法：可以通过help进行查看相关的用法1.os.name---判断正在使用的平台。Windows返回“nt”，Linux返回“posix”。2.os.getcwd()---获取python脚本工作的目录路径3.os.listdir()---获取指定目录下的所有文件和目录名4.os.remove()---删除指定文件5.os.rmdir()---删除指定目录

2016-04-25 20:09:44 467

原创用scrapy爬取网页数据

刚开始接触scrapy，乍那么一看，这都是些什么鬼，感觉好难。。。。。。学习历程大概是这样的：1.先百度了scrapy的官方文档，scrapy官方文档，早就安装了scrapy，cmd->python->import scrapy的时候是很正常的，不过在pycharm中导入一直都有红杠杠的。。。。不得不又卸了重新装。在这里特别要注意scrapy的s的大小写。pip安装的时候是大写，导入模块的

2016-03-25 22:01:52 4470

原创 pandas安装与学习

小某已经消失很长时间了，现在回来了，(*^__^*) 嘻嘻……1.关于Scripy的安装（寒假装的。。。。）这个需要依赖很多包才能运行，大家可以借鉴一下这篇博客。http://www.cnblogs.com/CLTANG/archive/2011/07/05/2098531.html每安装一个，就要在Python中import一下，看看是否已安装。在安装过程中，遇到的问题就是弹出一

2016-03-14 21:21:55 21481

转载 struct和typedef struct

祝大家新年快乐呦！！struct和typedef struct分三块来讲述：　　1 首先：//注意在C和C++里不同　　　　在C中定义一个结构体类型要用typedef:　　　　typedef struct Student　　　　{　　　　int a;　　　　}Stu;　　　　于是在声明变量的时候就可：Stu stu1;(如果没有typedef就必须用st

2015-12-31 19:58:29 346

原创 Python爬取返利网（今日值得买）数据

双十一还没消停，双十二又来了。看返利网的数据时时不断的在更新。。。。。。1.爬取返利网的商品名，分类，推荐人，好评数和差评数2.商品信息不断更新，查看页面源代码仅可以看见一开始显示的几个商品的代码。页面加载规律是往下拉页面，便加载5个商品，一页有50个商品。所以，还是打开谷歌浏览器，按F12，向下拉页面，使数据完全加载完毕。一开始并不知道数据存在哪，便一个一个点开看，查找数

2015-12-09 14:47:29 2847

原创 Python小知识

1.eval()函数的用法使用Python GUI，help一下>>> help(eval)Help on built-in function eval in module __builtin__:eval(...) eval(source[, globals[, locals]]) -> value Evaluate the source in the c

2015-12-02 21:32:43 601

原创使用BeautifulSoup爬取药智标准网数据（更改）

#coding:utf-8import urllib2import bs4from bs4 import BeautifulSoupclass YZBZ(): def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 6.

2015-11-29 21:05:18 1108

原创爬取豆瓣网电影信息

#coding:utf-8import urllib2import bs4from bs4 import BeautifulSoup#爬取豆瓣网电影简介，包括电影名，导演，评分以及介绍等class DBTOP(): def __init__(self): self.usr_agent='Mozilla/5.0 (Windows; U; Windows NT 6.1

2015-11-28 21:53:32 1429

原创使用BeautifulSoup爬取药智标准网的数据

#coding:utf-8import urllib2import bs4from bs4 import BeautifulSoupclass YZBZ(): #初始化方法 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/5.0 (Windows; U;

2015-11-23 21:34:54 1088

原创 Python小错误

1.打开文件时，总是出现IOError：[Error:22]......（省略号一般写的是文件名不存在之类的英文）。但是路径与文件名完全正确。解决方法：在路径前加r或者R，例如：f=open(r"D:\pythontest\test.txt","w")这是因为原始字符串的一些特性。原始字符串是指没有进行转义的字符。打开文件时出现异常是因为“\t”被当成了特殊字符进行处理，在前面加上“r/R

2015-11-23 20:49:35 2881

转载 Python标准库urllib2的使用细节

Python 标准库 urllib2 的使用细节此文貌似也是某博主转载的吧，转自道可叨。转载自道可叨|Python标准库urllib2的使用细节（http://zhuoqiang.me/python-urllib2-usage.html）不过小某是转自“一块努力的牛皮糖”Python 标准库中有很多实用的工具类，但是在具体使用时，标准库文档上对使用细节描述的并不清楚，比如 ur

2015-11-21 22:56:58 564

转载关于headers验证的问题

关于headers验证

2015-11-20 21:41:49 2396

原创安装BeautifulSoup

在windows下安装BeautifulSoup安装方法：1.去网站http://www.crummy.com/software/BeautifulSoup/下载压缩包2.解压到本地硬盘上3.将名称为beautifulsoup4-4.2.0的文件夹放到D:\Python27下（形成路径D:\Python27\beautifulsoup4-4.2.0）4.运行cmd，切换目录到D

2015-11-19 21:53:04 747 4

原创用正则表达式爬取链接和标题

1.爬取中国大数据首页的链接和标题2.出现好多错误，特别是正则表达式#coding:utf-8import reimport urllib#获取网页def getHtml(url): page=urllib.urlopen(url) html=page.read() return html#用正则匹配相应的链接和标题def getText(html):

2015-11-19 18:58:15 7356

原创初用正则表达式爬取图片

#coding:utf-8#导入正则模块import reimport urllib#获取网页def getHtml(url): #打开该网页 page=urllib.urlopen(url) #读取网页的源代码 html=page.read() #print html 测试一下是否成功读取 return html#获取图片def ge

2015-11-17 21:18:04 5246 7

夜斗不是神