自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 安装RabbitMQ centos 7.6

安装RabbitMQ

2022-07-27 15:23:51 320 1

原创 centos7.6 安装 配置 workon

安装依赖包pip3 install --upgrade pippip3 install --user virtualenvpip3 install virtualenvwrapper查找脚本[root@iZ2zebx2gvardoac9z68txZ ~]# find / -name virtualenvwrapper.sh/usr/local/python3/bin/virtualenvwrapper.sh新建文件夹mkdir /root/.virtualenvs编辑 .bashrc

2021-06-16 13:10:02 288

原创 centos7.6 安装 Python3

安装包位置:http://npm.taobao.org/mirrors/python

2021-06-16 11:13:07 120

原创 评论字数长度分布测试

单纯的sql语句实现创建临时表create TABLE temp as SELECT LENGTH(content) as zishu,COUNT(*) as pinglunshu FROM `toal_ppx_database`.`mid_comments_ceshi` GROUP BY zishu统计字数SELECT sum(pinglunshu) FROM `toal_ppx_database`.`评论内容统计` WHERE `zishu` >= '50';...

2020-07-29 13:45:57 260

原创 怎样查看 linux 是 Ubuntu 还是centos

root@iZuf664ql5phdkjf2aw85sZ:~# lsb_release -a

2020-03-09 10:43:27 188

原创 linux下安装多版本python, 示例python3.7.1,python2和python3任意切换

切换root用户下,到 /usr/bin 路径下 ,执行一下命令:ls python*如图所示:我已经安装python2.7和python3.5创建安装路径mkdir -p /app/software/下载:python3.7,安装。wget https://www.python.org/ftp/python/3.7.1/Python-3.7.1rc2.t...

2019-07-31 19:06:54 489

原创 linux 安装 gedit

参考链接:https://ldzyz007.iteye.com/blog/1954602sudo apt-get update sudo apt-get install gedit-gmate sudo apt-get install gedit-plugins sudo apt-get remove gedit ...

2019-07-31 16:51:08 16813 2

原创 linux 安装 nodejs

下载安装包,所有指令在root下运行wget http://cdn.npm.taobao.org/dist/node/v10.16.0/node-v10.16.0-linux-x64.tar.xz解压tar -xvf node-v10.16.0-linux-x64.tar.xz建立路径 /anzhuang/software/复制node-v10.16.0-linux-...

2019-07-31 11:37:44 382

原创 Linux 定时清理缓存的脚本

代码需要在root 用户下执行,直接看代码。# coding=utf-8# author: bogger# create: 2019-07-31# version: 1.0# todo:# 该脚本在root用户下运行,定时清理linux 缓存,默认是20分钟执行一次####################################################...

2019-07-31 11:15:59 1033

原创 windows安装scrapy

pip install Scrapy用上面命令行报错,缺少twisted先安装twisted, 找到对应包下载,搜索twisted,下载对应的版本,下图cp36就是python3.6x版本用的,win32是指的python的位数。https://www.lfd.uci.edu/~gohlke/pythonlibs/ 我的电脑是64位,安装的python3.5.2,所以下载...

2019-07-16 11:03:46 85

原创 python 的list 差集 并集

两个列表a =[1,2,3]b = [2,3,4]1、a 和 b 取差集: 有两种实现方式: 1、常用,效率低的办法 ...

2019-06-26 15:38:00 134

原创 BeautifulSoup报错input conversion failed due to input error

简单又暴力的方法,自己可以试试:直接看代码:from bs4 import BeautifulSoup, Commentimport requestsfrom retrying import retry@retry(stop_max_attempt_number=5)def _get_url_three_content(requests_url): proxies =...

2019-06-21 09:40:42 834

原创 爬虫,清洗,自己常使用的清洗办法。。。。

1、deling_surplus_special_characters_to_json方法,用于删除每个字段的的特殊字符2、过滤文章表情,主要用于爬取马蜂窝游记的时候使用的# coding=utf-8# author: bogger# create: 2018-11-5# version: 1.0# 功能说明:# 删除特殊字符#########...

2019-06-20 14:40:40 1326

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 30073: invalid continuation byt

出错代码: @retry(stop_max_attempt_number=10) def _get_url_content(self, start_url): proxies = get_proxies_requests(start_url) random_header = get_header() add_header = {...

2019-05-22 17:57:31 2046

原创 处理文章内的表情-emoji-马蜂窝、微信

直接上代码................ def filter_emoji(filter_data_str, replace_content=''): ''' 过滤表情 :param desstr: :param restr: :return: ''' tr...

2019-04-05 14:30:39 347

原创 Python-马蜂窝全站抓取。。。今天先写抓取国家和城市,下次有时间在写景点、自由行攻略和游记。。。

1、抓取全部国家1)开始的urlstart_url = 'http://www.mafengwo.cn/mdd/'2)请求部分代码 proxies = get_proxies_requests() random_header = get_header() add_header = { 'Accept': 't...

2018-11-23 19:43:43 1182

原创 在linux下安装mplayer

指令安装:sudo apt-get install mplayer 

2018-09-20 16:38:49 7297

原创 ubuntu16.04 安装 htop

直接指令安装:sudo apt-get install htop 

2018-09-20 15:29:54 7472

原创 MySQL TEXT数据类型的最大长度

MySQL TEXT数据类型的最大长度TINYTEXT 256 bytes TEXT 65,535 bytes ~64kb MEDIUMTEXT 16,777,215 bytes ~16MB LONGTEXT 4,294,967,295 bytes ~4GB 假如还是超字段长度,需要改mysql默认字段配置长度,需改my...

2018-09-11 16:34:40 842

原创 Http error code 总结

HTTP 1xx-信息提示 这些状态代码表示临时的响应。客户端在收到常规响应之前,应准备接收一个或多个1xx响应。 100-继续。 101-切换协议。 2xx-成功 这类状态代码表明服务器成功地接受了客户端请求。 200-确定。客户端请求已成功。 201-已创建。 202-已接受。 203-非权威性信息。 204-无内容。 205-重置内容。 206-部分内容。 3x...

2018-09-05 19:20:55 9661

原创 mysql磁盘空间总结

在跑爬虫的时候,遇到一个sql错误(1159),查了一下资料,解决了,重新启动爬虫,发现跑了5000数据,爬虫又报错了,在debug模式下,发现执行sql插入语句不动了,查阅资料,百般测试,发现mysql数据库的磁盘空间占满了。下面是这次错误的总结。1、drop table table_name 立刻释放磁盘空间 ,不管是 Innodb和MyISAM 。2、truncate...

2018-09-04 10:51:37 920

原创 ERROR 1129 (00000): #HY000Host ‘*.*.*.*’ is blocked because of many connection errors;

今天使用工具nvicat连接mysql的时候报错误:         ERROR 1129 (00000): #HY000Host ‘*.*.*.*’ is blocked because of many connection errors; unblock with ‘mysqladmin flush-hosts’。 解决办法:      使用mysqladmin flush-host...

2018-09-03 10:33:48 460

原创 安装虚拟机以及Ubuntu-16.04.4

 1、下载虚拟机并且安装如有安装其他版本的需要,可到官网自行下载。VMware百度云下载:https://pan.baidu.com/s/1geJHNMj#list/path=%2F自己用自带的密钥激活。 2、下载安装 Ubuntu 16.04.4官网网址:http://releases.ubuntu.com/16.04/64位PC(AMD64)桌面映像-----&g...

2018-08-30 18:24:24 1248

原创 Linux 安装 Scrapy 或Twisted 报错 error: command 'x86_64-linux-gnu-gcc' failed with exit status 1

首先查看你安装Scrapy或者Twisted的  python版本,然后按照下面方式安装对应的包,重新执行你的命令: pip install Scrapypip install Twisted之前Linux内置的版本是3.5,自己重装了个3.6,估计因此要重装依赖包。 按照所需版本安装: For Python 2.x use:$ sudo apt-get insta...

2018-08-20 11:40:48 646

原创 git的使用

git登录网址:https://github.com/login1、输入账号和密码:没有的话自己申请一个。登录界面如下:             2、创建新的项目:  3、填写一下信息:  4、ubuntu中安装git:sudo apt-get install git5、安装成功后,运行如下命...

2018-07-23 20:05:53 153

原创 pycharm光标变粗

在PyCharm写代码时,光标变粗了,并且按退格键会删除编写的内容,如图:原因:光标进入了改写状态。解决方法:1、按一下鼠标Insert键2、按笔记本的Insert键...

2018-07-11 15:56:28 479 1

原创 python爬虫导入自己事先定义好的配置文件,在服务器运行出现ImportError: No module named 'a005_BanGuMi_spider_subject' 错误

原有的爬虫配置文件导包如下:# coding=utf-8import requests# 自己定义的文件配置from a005_BanGuMi_spider_subject import BanGuMi_Subject_Spider_Configfrom lxml import etreefrom retrying import retryimport json# 自己定义的方法f...

2018-07-09 18:49:43 256

原创 使用xpath 定位 p标签,定位到了,但取不到内容。。。,爬虫:番组计划

这是我爬取的目标网站start_url:   http://bangumi.tv/person/1/works/voice在抓取角色页的日文名字和名字的href属性时,都成功了,详细的日文名字的定位xpath语法如下:role_item["role_japanese_name"] = role.xpath('./div[@class="ll innerLeftItem"]//h3/a/text()...

2018-07-05 19:21:14 11137 1

原创 解决Python报错:local variable 'xxxxxxxx' referenced before assignment

目的:想把提取到的时间数字结果转换加上‘年’‘月’。直接上错误代码:list_content_v1每次传入的结果如下:[u'2018', u'5'][u'6',u'2018'][u'2018', u'2'][ u'3',u'2017'][u'2018', u'5'][u'2018', u'6'][ u'6',u'2018'][u'2017', u'1'][u'2017', u'4']for x i...

2018-06-28 09:53:53 2453

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除