临安初雨一夜落红-CSDN博客

安装依赖包pip3 install --upgrade pippip3 install --user virtualenvpip3 install virtualenvwrapper查找脚本[root@iZ2zebx2gvardoac9z68txZ ~]# find / -name virtualenvwrapper.sh/usr/local/python3/bin/virtualenvwrapper.sh新建文件夹mkdir /root/.virtualenvs编辑 .bashrc

2021-06-16 13:10:02 288

原创 centos7.6 安装 Python3

安装包位置：http://npm.taobao.org/mirrors/python

2021-06-16 11:13:07 120

原创评论字数长度分布测试

单纯的sql语句实现创建临时表create TABLE temp as SELECT LENGTH(content) as zishu,COUNT(*) as pinglunshu FROM `toal_ppx_database`.`mid_comments_ceshi` GROUP BY zishu统计字数SELECT sum(pinglunshu) FROM `toal_ppx_database`.`评论内容统计` WHERE `zishu` >= '50';...

2020-07-29 13:45:57 260

原创怎样查看 linux 是 Ubuntu 还是centos

root@iZuf664ql5phdkjf2aw85sZ:~# lsb_release -a

2020-03-09 10:43:27 188

原创 linux下安装多版本python，示例python3.7.1，python2和python3任意切换

切换root用户下，到 /usr/bin 路径下，执行一下命令：ls python*如图所示：我已经安装python2.7和python3.5创建安装路径mkdir -p /app/software/下载：python3.7，安装。wget https://www.python.org/ftp/python/3.7.1/Python-3.7.1rc2.t...

2019-07-31 19:06:54 489

原创 linux 安装 gedit

参考链接：https://ldzyz007.iteye.com/blog/1954602sudo apt-get update sudo apt-get install gedit-gmate sudo apt-get install gedit-plugins sudo apt-get remove gedit ...

2019-07-31 16:51:08 16813 2

原创 linux 安装 nodejs

下载安装包，所有指令在root下运行wget http://cdn.npm.taobao.org/dist/node/v10.16.0/node-v10.16.0-linux-x64.tar.xz解压tar -xvf node-v10.16.0-linux-x64.tar.xz建立路径 /anzhuang/software/复制node-v10.16.0-linux-...

2019-07-31 11:37:44 382

原创 Linux 定时清理缓存的脚本

代码需要在root 用户下执行，直接看代码。# coding=utf-8# author: bogger# create: 2019-07-31# version: 1.0# todo:# 该脚本在root用户下运行，定时清理linux 缓存，默认是20分钟执行一次####################################################...

2019-07-31 11:15:59 1033

原创 windows安装scrapy

pip install Scrapy用上面命令行报错，缺少twisted先安装twisted，找到对应包下载，搜索twisted，下载对应的版本，下图cp36就是python3.6x版本用的，win32是指的python的位数。https://www.lfd.uci.edu/~gohlke/pythonlibs/ 我的电脑是64位，安装的python3.5.2，所以下载...

2019-07-16 11:03:46 85

原创 python 的list 差集并集

两个列表a =[1,2,3]b = [2,3,4]1、a 和 b 取差集：有两种实现方式： 1、常用，效率低的办法 ...

2019-06-26 15:38:00 134

原创 BeautifulSoup报错input conversion failed due to input error

简单又暴力的方法，自己可以试试：直接看代码：from bs4 import BeautifulSoup, Commentimport requestsfrom retrying import retry@retry(stop_max_attempt_number=5)def _get_url_three_content(requests_url): proxies =...

2019-06-21 09:40:42 834

原创爬虫，清洗，自己常使用的清洗办法。。。。

1、deling_surplus_special_characters_to_json方法，用于删除每个字段的的特殊字符2、过滤文章表情，主要用于爬取马蜂窝游记的时候使用的# coding=utf-8# author: bogger# create: 2018-11-5# version: 1.0# 功能说明：# 删除特殊字符#########...

2019-06-20 14:40:40 1326

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 30073: invalid continuation byt

出错代码： @retry(stop_max_attempt_number=10) def _get_url_content(self, start_url): proxies = get_proxies_requests(start_url) random_header = get_header() add_header = {...

2019-05-22 17:57:31 2046

原创处理文章内的表情-emoji-马蜂窝、微信

直接上代码................ def filter_emoji(filter_data_str, replace_content=''): ''' 过滤表情 :param desstr: :param restr: :return: ''' tr...

2019-04-05 14:30:39 347

原创 Python-马蜂窝全站抓取。。。今天先写抓取国家和城市，下次有时间在写景点、自由行攻略和游记。。。

1、抓取全部国家1）开始的urlstart_url = 'http://www.mafengwo.cn/mdd/'2）请求部分代码 proxies = get_proxies_requests() random_header = get_header() add_header = { 'Accept': 't...

2018-11-23 19:43:43 1182

原创在linux下安装mplayer

指令安装：sudo apt-get install mplayer

2018-09-20 16:38:49 7297

原创 ubuntu16.04 安装 htop

直接指令安装：sudo apt-get install htop

2018-09-20 15:29:54 7472

原创 MySQL TEXT数据类型的最大长度

MySQL TEXT数据类型的最大长度TINYTEXT 256 bytes TEXT 65,535 bytes ~64kb MEDIUMTEXT 16,777,215 bytes ~16MB LONGTEXT 4,294,967,295 bytes ~4GB 假如还是超字段长度，需要改mysql默认字段配置长度，需改my...

2018-09-11 16:34:40 842

原创 Http error code 总结

HTTP 1xx-信息提示这些状态代码表示临时的响应。客户端在收到常规响应之前，应准备接收一个或多个1xx响应。 100-继续。 101-切换协议。 2xx-成功这类状态代码表明服务器成功地接受了客户端请求。 200-确定。客户端请求已成功。 201-已创建。 202-已接受。 203-非权威性信息。 204-无内容。 205-重置内容。 206-部分内容。 3x...

2018-09-05 19:20:55 9661

原创 mysql磁盘空间总结

在跑爬虫的时候，遇到一个sql错误（1159），查了一下资料，解决了，重新启动爬虫，发现跑了5000数据，爬虫又报错了，在debug模式下，发现执行sql插入语句不动了，查阅资料，百般测试，发现mysql数据库的磁盘空间占满了。下面是这次错误的总结。1、drop table table_name 立刻释放磁盘空间，不管是 Innodb和MyISAM 。2、truncate...

2018-09-04 10:51:37 920

原创 ERROR 1129 (00000): #HY000Host ‘...’ is blocked because of many connection errors;

今天使用工具nvicat连接mysql的时候报错误： ERROR 1129 (00000): #HY000Host ‘*.*.*.*’ is blocked because of many connection errors; unblock with ‘mysqladmin flush-hosts’。解决办法：使用mysqladmin flush-host...

2018-09-03 10:33:48 460

原创安装虚拟机以及Ubuntu-16.04.4

1、下载虚拟机并且安装如有安装其他版本的需要，可到官网自行下载。VMware百度云下载：https://pan.baidu.com/s/1geJHNMj#list/path=%2F自己用自带的密钥激活。 2、下载安装 Ubuntu 16.04.4官网网址：http://releases.ubuntu.com/16.04/64位PC（AMD64）桌面映像-----&g...

2018-08-30 18:24:24 1248

原创 Linux 安装 Scrapy 或Twisted 报错 error: command 'x86_64-linux-gnu-gcc' failed with exit status 1

首先查看你安装Scrapy或者Twisted的 python版本，然后按照下面方式安装对应的包，重新执行你的命令： pip install Scrapypip install Twisted之前Linux内置的版本是3.5，自己重装了个3.6，估计因此要重装依赖包。按照所需版本安装： For Python 2.x use:$ sudo apt-get insta...

2018-08-20 11:40:48 646

原创 git的使用

git登录网址：https://github.com/login1、输入账号和密码：没有的话自己申请一个。登录界面如下： 2、创建新的项目： 3、填写一下信息： 4、ubuntu中安装git：sudo apt-get install git5、安装成功后，运行如下命...

2018-07-23 20:05:53 153

原创 pycharm光标变粗

在PyCharm写代码时，光标变粗了，并且按退格键会删除编写的内容，如图：原因：光标进入了改写状态。解决方法：1、按一下鼠标Insert键2、按笔记本的Insert键...

2018-07-11 15:56:28 479 1

原创 python爬虫导入自己事先定义好的配置文件，在服务器运行出现ImportError: No module named 'a005_BanGuMi_spider_subject' 错误

原有的爬虫配置文件导包如下：# coding=utf-8import requests# 自己定义的文件配置from a005_BanGuMi_spider_subject import BanGuMi_Subject_Spider_Configfrom lxml import etreefrom retrying import retryimport json# 自己定义的方法f...

2018-07-09 18:49:43 256

原创使用xpath 定位 p标签，定位到了，但取不到内容。。。，爬虫：番组计划

这是我爬取的目标网站start_url： http://bangumi.tv/person/1/works/voice在抓取角色页的日文名字和名字的href属性时，都成功了，详细的日文名字的定位xpath语法如下：role_item["role_japanese_name"] = role.xpath('./div[@class="ll innerLeftItem"]//h3/a/text()...

2018-07-05 19:21:14 11137 1

原创解决Python报错：local variable 'xxxxxxxx' referenced before assignment

目的：想把提取到的时间数字结果转换加上‘年’‘月’。直接上错误代码：list_content_v1每次传入的结果如下：[u'2018', u'5'][u'6'，u'2018'][u'2018', u'2'][ u'3'，u'2017'][u'2018', u'5'][u'2018', u'6'][ u'6'，u'2018'][u'2017', u'1'][u'2017', u'4']for x i...

2018-06-28 09:53:53 2453

liumangjuntuan的博客

原创安装RabbitMQ centos 7.6

原创 centos7.6 安装配置 workon