优木-CSDN博客

原创 Win10 中 Python 3.7.6 如何安装 opencv-python

在 Win10 或 win7 系统中用 python 3.7.6 执行 import cv2 的时候，往往提示找不到指定的模块。其实找不到的不是 cv2 这个模块，而是 opencv-python 模块。很多教程说 pip install opencv-python 之后，就可以 import cv2 成功。但是，事实证明在Windows系统中，这是解决不了问题的。还有人说，先把 wheel 文件下载下来再安装就行了（下载地址：https://www.lfd.uci.edu/~gohlk..

2020-06-21 22:07:54 1484 1

原创 Kivy文件选择器FileChooser控件中路径的中文显示

Kivy的中文显示有一些问题，我不想改变默认字体设置，只想通过在代码中改变字体编码从而显示中文的目的。思考很久了，还是没有找到应该在哪里改，希望懂的大神指点一下：from kivy.app import Appfrom kivy.uix.filechooser import FileChooserListViewfrom kivy.uix.boxlayout import ...

2020-04-26 17:29:18 1116 1

原创 armeabi-v7a__ndk_target_21/python3/Include/Python.h:8:10: fatal error:'pyconfig.h' file not found

在使用buildozer工具打包安卓apk文件的时候使用了buildozerandroid debug deploy run命令，一通下载操作后出现以下错误：这里先把问题记下来，找到解决办法了再更新本教程。...

2020-04-08 12:54:50 801 2

原创 RHEL7安装openssl：解决the ssl module in Python is not available问题

我的系统是RHEL7，改了Centos的yum源，安装python3后发现ssl经常出问题，pip无法从网站下载第三方库，常出现以下这种类型的提示：[root@localhost ~]# pip3 install virtualenvpip is configured with locations that require TLS/SSL, however the ssl module in...

2020-03-27 18:41:26 1202

原创 RHEL7更改yum源后出现redhat-release与 initscripts 冲突问题

大家在更改yum源以后可能会遇到initscripts-9.49.47-1.el7.x86_64与redhat-release-server-7.0-1.el7.x86_64冲突的问题，解决思路是将redhat-release-server-7.0-1.el7.x86_64删除，安装centos-release.x86_64 的某个版本，再升级initscripts就行了。网上很多人只给出删除re...

2020-03-26 20:51:49 5381 4

原创 RHEL7 安装python3.7.6

先去python官网下载python3的源码包，网址：https://www.python.org/downloads/release/python-376/，下载Gzip包：第一步：将下载的包解压后放到Linux的/usr/local目录下：[root@linuxprobe 桌面]# mv /home/kivy/Python-3.7.6/ /usr/local/第二步：在...

2020-03-26 13:43:43 908

原创解决RHEL7无法使用YUM源的问题

在使用RHEL7的时候，经常遇到yum源没有注册的问题，老有上图这样的提示，很烦，所以从网上找了些教程试了试，终于把yum源改为了阿里云的。 RHEL的YUM源需要注册用户才能更新使用，由于CentOS和RHEL基本没有区别，并且CentOS已经被REHL收购。所以将RHEL的YUM源替换为CentOS即可。第一步：清除原有RHEL的YUM及相关软件包： ...

2020-03-26 13:33:48 776

原创 pycharm async关键字出现红线，提示unresolved reference

在学习aiohttp模块的时候，使用了async关键字，结果提示如下错误：运行没有问题，但是下划红线很烦人，也影响后续开发调试，所以必须解决这个问题。async是个关键字：如图，关键字列表里也有，但是 def 就不会出现下划红线，async就会出现这个情况，真让人头大。不过既然能够运行，说明是pycharm 软件设置的问题。未完待续。。。。。。...

2020-02-25 10:58:27 2258 3

原创 pycharm pip 安装第三方库出错的终极解决方案

大家都知道 pip 在安装第三方库的时候是十分方便的，在 Windows 平台上，一条命令就可以将依赖关系都搞定：pip install requests 但还是有几个小问题。1.有时候会提示权限不够。当初没有留下那个权限不足的截图，但是根据英文意思就是提示权限不够，这个时候解决办法很简单，加个 --user 参数就行了，有人解释说 --use...

2020-02-07 20:21:28 5137 4

原创 Python Scrapy 修改默认图片管道，更改缩略图文件名

在学习使用Scrapy图片管道的时候，书上没有给出修改下载的缩略图文件名称的方法。自己研究了下，搞定了，记下来。要爬的是起点中文网：items.py 中要爬的有这么几项：import scrapyclass DownloadimageItem(scrapy.Item): # 小说名称 title = scrapy.Field() # 小说作者 ...

2019-12-25 21:47:23 444

原创 Python Scrapy 编写自定义文件管道自动下载文件

http://yjs.hebut.edu.cn/yjsgzb/xzzq/ 通过河北工业大学研究生院-学生工作-下载专区，测试如何使用FilesPipeline。通过下载链接可以看出有些直接可以下载，而有些则要从点开的页面中寻找。为简化学习过程，我们只保存后面4个。（1）创建项目：scrapy startproject filedownload（2）使用genspider创建爬虫...

2019-12-25 17:22:19 383

原创 python Scrapy 编写自定义管道，将数据保存到 json 文件中

本文是对《scrapy网络爬虫实战》一书中，第5.2节内容的重写，由于伯乐在线网站代码有较大改动，原书中代码已经失效。以下示例演示了抓取https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0中...

2019-12-22 15:08:15 490

原创 scrapy框架下使用SitemapSpider爬取织梦园模板网的网站地图

Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式，就是XML 文件，在其中列出网站中的网址以及关于每个网址的其他元数据（上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等），以便搜索引擎可以更加智能地抓取网站。Google、微软都支持一个被称为xml网站地图（xml Sitemaps）的协议，而百度Sitemap是指百度...

2019-12-16 15:17:35 379

原创 scrapy框架下使用通用爬虫XMLFeedSpider爬取新浪微博的RSS

我们一般用xmlfeed模版爬虫去处理RSS订阅信息。RSS是一种信息聚合技术，可以让信息的发布和共享更为高效和便捷。RSS是基于XML标准的，扩展名是 .xml ，需要下载专门的阅读器才能打开，否则看到的就是这个样子：（1）创建项目：scrapy startproject xmlfeedspider（2）使用XMLFeedSpider模板创建爬虫：scrapy genspid...

2019-12-16 13:33:44 447

原创你可能不知道的Python基础知识

内置函数dir(__builtins__)：查看三个方面的内容：异常名称、相关的属性名称（如__debug__）、内置函数的名称。 help(str.isalnum)：查看函数的具体使用方法。常用内置函数 isinstance() 判断类型的函数 hello = “rar”isinstance(hello,str)结果：True id(3) 查看...

2019-11-29 22:13:10 825

原创 Python 多协程实验时报错 Error: maximum recursion depth exceeded 程序退出代码1073741571

在多协程程序代码过程中，试验了一个小项目，获取上千个url中页面，代码如下：import geventfrom gevent.queue import Queueimport timeimport requestsfrom gevent import monkey#把下面有可能有IO操作的单独做上标记monkey.patch_all() # 将IO转为异步执行的函数link_...

2019-11-21 10:52:22 716

原创 multiprocessing 使用 Process+Queue 的多进程爬虫示例

《Python网络爬虫：从入门到实践》书中7.3.1节讲到，使用multiprocessing库的第一种方法，是Process+Queue 的多进程爬虫，还给出一个例子，发现有重大逻辑bug，经1天时间研究，将正确的代码公布出来，方便广大爱好者使用、参考。以下代码同时统计了各个子进程爬取的页面数量，已经在Pycharm 5.0.3上测试通过，欢迎大家评论留言，有问题我看到后会及时回复，谢谢。...

2019-11-19 13:19:29 282

原创 csv格式文件

csv格式文件经常用在Python爬虫程序中存储文件，原因一是这种类型的文件既能用Excel打开，又能用记事本打开，而txt文件经常遇到变量分隔的问题；原因二是csv文件和txt文件占用的存储空间差不多，只是用英文逗号做行分隔，用换行符做列分隔。不过不同的os使用的换行符不一样，Linux使用的是\n，windows使用的是\r\n，mac用的是\r用Excel打开时的样子如下：用...

2019-11-09 14:56:16 428

原创 requests后用 soup.find 找不到指定标签的原因分析

在实践中，用 Microsoft Edge 浏览器打开了 www.santostan.com 进行BeautifulSoup.find()方法的学习实践，开发工具看到的源代码如下：我想找到选中的标签，所以用了如下的代码：import requestsfrom bs4 import BeautifulSoupheaders = {'user-agent' : 'Mozilla/5...

2019-11-09 10:56:11 2723

原创 Python获取TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类及评分

《Python网络爬虫：从入门到实践》3.4.3自我实践题：获取豆瓣网上TOP250电影的英文名、港台名、导演、主演、上映年份、电影分类及评分。学习嘛，就费了点劲自己试了一下，挺耽误时间的，不过好在搞出来了，书上给的代码有点问题，不够全面。现在把自己测试过的源代码给大家分享出来，供大家学习借鉴，正好正则表达式一起学了，还是很有收获的。由于电影的英文名、港台名爬取过滤比较麻烦，太耽误...

2019-11-08 19:11:16 4449 1

原创 python 根据关键字删除列表中的元素

"""根据关键字删除列表中的元素"""def remove_contents(contents,targets): """删除targets列表中与contents列表共有的元素""" for content in contents: while content in targets: targets.remove(content) return targetsdef fi...

2019-11-02 16:58:55 3117

原创 selenium获取文章所有评论

《网络爬虫：从入门到精通》第4.3.3节 selenium获取文章的所有评论geckodriver.exe版本是geckodriver-v0.23.0-win64。代码在 FireFox Developer Edition 71.0b5(64 位) 中测试通过，可以将1到16页所有评论提取出来，现在的代码是在作者给出的代码的基础上改动过来的，在此向他们致敬！原来的代码中‘button.mo...

2019-11-02 16:40:29 927 2

原创 Python写的一个身份证验证程序

住院期间闲来无事，学了下比较流行的Python语言，用了一周，学得过于快了。写了个身份证号码验证程序。一段时间后，发现存在重大问题，所以不辞劳苦又大改了一下。感兴趣的可以试一试，还是有问题的话，请留言。from datetime import datetimeclass IDnumber(object): '''身份证号码类''' #类属性 IDnumber.address_co...

2018-04-09 18:36:16 7608

Python Supporter