自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 资源 (16)
  • 收藏
  • 关注

原创 python 读文件 decode error ‘utf8‘ ‘GBK‘ 问题

1. 读取日文txt,出现gbk解码错误问题。line.encode('gb18030') 解决2.读英文csv,出现utf8解码错误问题。with open(jp_data_total_path,'r',encoding='gb18030')as f_jp encoding='utf8'改为encoding='gb18030'解决

2020-12-02 12:47:05 318

原创 liunx pytroch安装(离线安装)

liunx pytroch安装(离线安装)#pip3 --default-timeout=100 --no-cache-dir install torch==1.4.0 加--default-timeout=10无法解决timeout问题选择离线安装https://pypi.tuna.tsinghua.edu.cn/packages/47/69/7a1291b74a3af0043db9048606daeb8b57cd9dea90b9df740485f3843878/torch-1.4.0...

2020-11-30 09:50:00 193

原创 工作中常用的liunx 命令

1.批量杀死包含某个程序或端口的进程PID(经常碰到端口占用的情况)lsof -i:8000 | awk '{print $2}'| xargs sudo kill or kill -9 $(lsof -i tcp:8080 -t)2.查看某个文件夹下各文件的大小/占用内存(因为是爬虫工程师磁盘空间经常不够,根据情况需要删除占用空间大的文件)du -sh * d...

2019-06-26 13:17:06 169

原创 ubuntu python 版本升级后 No module named 'apt_pkg' No module named 'pip._internal'

1.解决No module named 'apt_pkg'sudo apt-get remove python3-aptsudo apt-get install python3-apt2.解决No module named 'pip._internal'curl https://bootstrap.pypa.io/get-pip.py -o get-pip.pypyt...

2019-06-24 15:15:24 728 1

原创 Python---爬虫---清洗---unicode编码转成中文显示问题

unicodestr = '\u4f60\u597d'eval("u"+"\'"+unicodestr+"\'")

2019-03-14 13:52:10 852

原创 python安装tensorflow出现No matching distribution found for tensorflow

pip install -ihttps://pypi.tuna.tsinghua.edu.cn/simple/--upgrade tensorflow

2019-03-12 17:23:05 5978 2

原创 Python---爬虫---Save---CSV

csv写入:import csv# 文件写入with open('data.csv', 'w') as csvfile: # 初始化写入对象f_csv_wt = csv.writer(csvfile) # writerow 写入f_csv_wt.writerow(['id', 'name', 'age']) # writerow...

2019-03-09 11:17:27 778

原创 Python---爬虫---Save---Execel

Execel读取:1、导入模块 import xlrd2、打开Excel文件读取数据 data = xlrd.open_workbook('excel.xls')3、获取一个工作表1 table = data.sheets()[0] #通过索引顺序获取2 table = data.sheet_by_index(0) #通过索引...

2019-03-09 10:56:41 166

原创 Python---爬虫---速---aiomultiprocess

# -*- coding: utf-8 -*-## Imports#import asyncioimport hashlibimport timeimport datetimeimport jsonfrom aiomultiprocess import Poolfrom redis import *from pybloom_live import BloomFilt...

2019-03-09 10:32:09 1320

原创 Python---爬虫---速---asyncio

import asyncioimport timeimport reimport multiprocessing as mpimport osimport aiohttpfrom scrapy import Selectorimport xlwt# from apscheduler.schedulers.asyncio import AsyncIOScheduler# fro...

2019-03-09 10:25:36 281

原创 Python---爬虫---速---multiprocessing

import requestsimport timeimport multiprocessingimport osfrom lxml import etreestart = time.time()def request(url): headers = { 'Accept': 'text/html,application/xhtml+xml,applicat...

2019-03-09 10:19:17 167

原创 Python---爬虫---速---gevent

import gevent.monkeygevent.monkey.patch_all()# 补丁 修改了低层 scoket模块; 非阻塞from gevent.pool import Poolfrom queue import Queueimport timeimport reimport csvimport requestslist = []list_url = [...

2019-03-09 10:15:21 219

原创 Python---爬虫---反反爬---execjs(python执行js库)

1.pip3 installPyExecJS2.需要安装一个JS运行环境:Node.js 或 PhantomJS。import execjs# Init environmentnode = execjs.get()# Compile javascript(自己需要调用方法的js文件)file = 'open_id.js'ctx = node.compile(open...

2019-03-09 09:59:51 1195 3

原创 Python---爬虫---清洗---NLTK

安装语料库:import nltk nltk.download()NLTK自带语料库:>>> from nltk.corpus import brown>>> brown.categories()['adventure', 'belles_lettres', 'editorial','fiction', 'government', 'ho...

2019-03-08 22:54:34 408

原创 Python---爬虫---清洗---SnowNLP(基础NLP处理库)

安装:pip3 install snownlpfrom snownlp import SnowNLPs = SnowNLP(data)1.# 分词s.words2.# 词语标注s.tags3.# 情感分析s.sentiments4.# 转换拼音s.pinyin5.# 转换简体s.han6.# 提取关键字s.keywor...

2019-03-08 20:26:12 850

原创 Python---爬虫---清洗---Levenshtein(计算字符串相似度,编辑距离等)

安装:pip install python-Levenshtein1.Levenshtein.hamming(str1, str2) ,计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。2.Levenshtein.distance(str1, str2),计算编辑距离(也成Levenshtein距离)。是描述由一个字串转化成另一个字串最少的操...

2019-03-08 19:42:00 1071

原创 Python---爬虫---清洗---phonenumbers(电话号码解析)

安装:pip3 installphonenumbers1.把看似不一样的号码规范到同一个号码>>> import phonenumbers>>> x = phonenumbers.parse("+442083661177", None)>>> y = phonenumbers.parse("020 8366 1177", ...

2019-03-08 18:11:39 1904

原创 Python---爬虫---清洗---jieba分词

jieba中文处理和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。1.基本分词函数与用法jieba.cut 以及 jieba.cut_for_search 返回...

2019-03-08 15:40:05 2271

原创 爬虫智能解析浅谈

智能解析的深度学习切入方向 标题,一般它的字号是比较大的,而且长度不长,位置一般都在页面上方,而且大部分情况下它应该和 title 标签里的内容是一致的 正文,它的内容一般是最多的,而且会包含多个段落 p 或者图片 img 标签,另外它的宽度一般可能会占用到页面的三分之二区域,并且密度(字数除以标签数量)会比较大。 时间,不同语言的页面可能不同,但时间的格式...

2019-03-08 14:19:38 238

原创 mac 终端 安装及运行 jupyter notebook

pipinstall jupyter notebook 输入 jupyter notebook ,ok!

2019-03-05 22:58:03 2967

原创 深度学习入门—基于python的理论与实现笔记

感知机感知机的例子:x1、x2是输入信号,y是输出信号,w1、w2是权重(w是 weight 的首字母)。图中的○称为“神经元”或者“节点”。输入信号被送往神经元时,会被分别乘以固定的权重(w1x1、w2x2)。神经元会计算传送过来的信号的总和,只有当这个总和超过了某个界限值时,才会输出 1。这也称为“神经元被激活”。这里将这个界限值称为阈值,用符号θ表示。 w1和w2是控...

2019-03-05 16:04:46 1680

原创 吴恩达机器学习笔记

机器学习定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,有个经验E后,经过P的评判,程序在处理T时的性能有所提高。经验E是机器上万次的自我练习的经验,任务T是下棋,性能度量值是P回归问题是通过之前数据来推出一个连续的输出,分类问题是推出一组离散的结果。单变量线性回归函数:只含有一个特征/输入变量建模误差:模型所预测的智与训练集中的实际值之间的差距,目标是选出使建模误...

2019-02-27 11:56:40 147

原创 网络编程---HTTP中的重定向和请求转发的区别

转发是服务器行为,重定向是客户端行为 重定向,其实是两次request

2019-02-23 14:10:13 153

原创 Python lambda函数

1.列表中嵌套字典进行排序:列表.sort(key=lambda x : x[age]),key赋值匿名函数,接受列表传参,通过键获取值,进行比较。2.函数实参传匿名函数给形参,赋值运算,进行匿名函数的调用,返回值,得到函数的最后的值。3. input匿名函数,用eval()将字符串转换成匿名函数,python解释性语言相较于编译性语言,不代表会按程序编写的走,可以给程序输入一个东西,这个...

2019-02-22 00:13:37 278

原创 Python 中文乱码问题

可以采用编码忽略非法字符的方式来处理,strs = strs.decode("UTF-8","ignore").encode("UTF-8"),decode的第二个参数表示遇到非法字符时所采取的方式

2019-02-22 00:12:26 80

原创 Python list , tuple ,dict,set 的用法和特点

tuple 1.元祖,固定长度不可变的顺序容器,访问效率高, 适合存储一些常量数据,可以作为字典的键使用(因为元组不可变),元组对不需要改变的数据进行“写保护”将使得代码更加安全2.如何让元组内部可变:元组内部 每个元素 存 列表 或者字典  可以修改内部的列表 和字典 里面的内容list 列表,是长度可变有序的数据存储容器,可以通过下标索引取到相应的数据,有序的,list随着数量...

2019-02-22 00:12:07 963

原创 爬虫---反反爬---User-Agent

User-Agent1、用户代理,浏览器身份识别2、通过它判断是谁在发送请求,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等3、代码中添加User-Agent实现模拟浏览器4.某大牛写了个库,fake-useragent,本质其实也是个爬虫。可随机生成UA。pip install fake-useragent...

2019-02-20 09:58:03 583

原创 爬虫---反反爬---IP

IPip反爬不用说了,入门级的解决:git上开源的proxy_pool很多,找那个most star的,缺点用的人多,响应速度慢,可用率低。 公司有预算的话,购买付费代理,常用的几家:芝麻代理,阿布云,多贝云,大象,曾打电话给代理公司,貌似都是在全国各地拉网线,建机房,ADSL拨号,质量差不太多,详细参考崔庆才博客,有自测12家付费代理文章。 ip封的不是太厉害的,在家庭网状态下,...

2019-02-20 09:57:47 211

原创 爬虫---反反爬---Cookie

服务端通过cookie判断是否为一个爬虫程序,爬虫通过添加cookie获取登录后的页面 cookie一般开始的时候先不要携带,如果不确定反爬的防线,尝试先从UA,ip入手,开始的时候携带cookie有可能服务器通过识别cookie发现爬虫。 cookie反反爬的解决 直接粘贴复制chrome开发者中找到的cookie,根据网站情况不同,请求速度不是太快的话,可以使用 更换账...

2019-02-20 09:57:06 2166

原创 爬虫---反反爬---验证码

尝试手机版,相对来说反爬较弱。 图形验证码 OCR二值化,去灰度,识别率低。 打码平台(超级鹰,云打码) 深度学习训练,成本高,适用范围小 OpenCV,SimpleCV 算数验证码 OCR 打码平台 滑动验证码 selenium 破解加密算法 深度学习训练,标注缺口,识别缺口 点触验证码 OCR + 图像匹配(百度识图) 打码平台 ...

2019-02-20 09:55:42 801

原创 爬虫---反反爬---headers

1.一般可直接全复制进去2.部分网站放入部分参数才可以,全部放进去反而获取不到理想页面,比较重要的3个:UA,Cookie,Referer。3:可用pycharm正则处理复制过来的headers,也可写脚本处理。其他参数的解释: Connection:链接类型 keep-alive 支持使用长连接,复用上次连接,因为有三次握手,四次挥手消耗时间,不断开连接,直接使用上次的连...

2019-02-20 09:54:49 952

原创 爬虫---反反爬---前端

前端js生成formdata中的参数,普通例如:生成16位随机字符串,高级点的加密字符串:网易音乐 font-face拼凑式,woff字体文件,猫眼电影:相对来说简单,找到字体对应的正确数值,替换就可以。 background拼凑式,与font的策略类似,美团里用到的是background拼凑。数字其实是图片,根据不同的background偏移,显示出不同的字符,并且不同页面,图片的字符排序也...

2019-02-19 09:41:11 297

原创 爬虫---请求错误后重试---retrying

pip3 install retryingfrom retrying import retry在代码上添加@retry(添加错误次数)@retry(stop_max_attempt_number=10)

2019-02-19 09:39:56 454

原创 Python---爬虫请求库---requests

使用request的优势 requests的底层实现就是urllib(更加简单,方便。) requests在python2 和python3中通用,方法完全一样 requests简单易用 Requests能够自动帮助我们解压(gzip压缩的等)网页内容(urllib需要自动解压)response.status_code (状态码) response的常用方...

2019-02-19 09:38:02 183

原创 Python pprint 美化

作用:美观打印数据结构pprint 包含一个“美观打印机”,用于生成数据结构的一个美观视图。格式化工具会生成数据结构的一些表示,不仅可以由解释器正确地解析,而且便于人类阅读。输出尽可能放在一行上,分解为多行时则需要缩进。data = [(1,{'a':'A','b':'B','c':'C','d':'D'}), (2,{'e':'E','f':'F','g':'G','h':'...

2019-02-19 09:37:39 158

原创 Python---爬虫---清洗---json 和 demjson

json json.load,json.dump是实现类文件对象(具有read和write方法的对象,比如一个file)和python类型的转化 json.loads 将josn转换成字符串,josn.dumps将字符 串转换成josn json.dumps(ret,ensure_ascii = Flase,indent=2(进行可视化操作,往后退2个)),添加ensu...

2019-02-19 09:37:19 350

原创 Python---爬虫---解析---xpath

重要语法 / 根节点选取 //当前目录下所有该节点 .当前节点 ..当前节点的父节点 节点选择语法 /a/b[1], 选取a节点下的第一个b节点 /a/b[last()], 选取a节点下的最后一个b节点 /a/b[last()-1], 选取a节点下的倒数2个b节点 /a/b[position()...

2019-02-19 09:36:41 184

原创 Python---爬虫---解析---CSS选择器

   

2019-02-19 09:32:24 359

原创 Python---爬虫---解析---lxml

解析习惯用lxml + xpath1.from lxml import etree2.使用etree.HTML()将bytes类型和html类型的字符串转换为element对象,然后使用 xpath处理element对象3.etree.tostring把element对象转换为字符串,自动补全代码 ...

2019-02-19 09:31:55 118

原创 Python---爬虫---解析---正则表达式(re)

预定义字符集 \d[0,9],\D取反 \s[空格\r\f\t\n\v](空白字符),\S取反 \w[A-Za-z0-9_],\W取反 字符re.findall(".","\n",re.DOTALL(可以匹配换行符)/re.S(DOTALL的缩写)),在DOTALL模式中 . 可以匹配换行符。 \ 反斜杠转义 , a[a,b,c]z或者| (或者abc|ac...

2019-02-19 09:31:21 249

精通正则表达式(第3版) epub格式 带目录 精排极致版 猫头鹰的那本

随着互联网的迅速发展,几乎所有工具软件和程序语言都支持的正则表达式也变得越来越强大和易于使用。本书是讲解正则表达式的经典之作。本书主要讲解了正则表达式的特性和流派、匹配原理、优化原则、实用诀窍以及调校措施,并详细介绍了正则表达式在Perl、Java、.NET、PHP中的用法。 本书自第1 版开始着力于教会读者“以正则表达式来思考”,来让读者真正“精通”正则表达式。该版对PHP的相关内容、Java1.5和Java1.6的新特性作了可观的扩充讲解。任何有机会使用正则表达式的读者都会从中获益匪浅

2019-07-21

自然语言处理综论 第2版_2018.03_784_14391789.pdf

自然语言界的圣经 从本书第一版出版以来,一直好评如潮,被国外许多大学选作自然语言处理或计算语言学的教材,被认为该领域教材的“黄金标准”。 本书第一版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书四大特色: 覆盖全面 强调实用 注重评测 语料为本内容简介本书全面论述了自然语言处理技术。

2019-07-21

百面机器学习 算法工程师带你去面试.pdf.zip

人工智能领域正在以超乎人们想象的速度发展,本书赶在人工智能彻底占领世界之前完成编写,实属万幸。 书中收录了超过100道机器学习算法工程师的面试题目和解答,其中大部分源于Hulu算法研究岗位的真实场景。本书从日常工作、生活中各种有趣的现象出发,不仅囊括了机器学习的基本知识 ,而且还包含了成为出众算法工程师的相关技能,更重要的是凝聚了笔者对人工智能领域的一颗热忱之心,旨在培养读者发现问题、解决问题、扩展问题的能力,建立对机器学习的热爱,共绘人工智能世界的宏伟蓝图

2019-06-20

使用Python解决算法与数据结构问题 第2版 极清 pdf.pdf.zip

北京大学地空学院 SESSDSA内部教材 貌似没卖的吧

2019-06-20

《我的第一本算法书》高清PDF.pdf.zip

本书采用大量图片,通过详细的分步讲解,以直观、易懂的方式展现了7个数据结构和26个基础算法的基本原理。第1章介绍了链表、数组、栈等7个数据结构;从第2章到第7章,分别介绍了和排序、查找、图论、安全、聚类等相关的26个基础算法,内容涉及冒泡排序、二分查找、广度优先搜索、哈希函数、迪菲 - 赫尔曼密钥交换、k-means 算法等

2019-06-20

《Python深度学习》2018中文版pdf+英文版pdf+源代码.zip

本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(François Chollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,涉及计算机视觉、自然语言处理、生成式模型等应用。书中包含30多个代码示例,步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化,读者无须具备机器学习相关背景知识即可展开阅读。在学习完本书后,读者将具备搭建自己的深度学习环境、建立图像识别模型、生成图像和文字等能力

2019-06-20

美团机器学习实践.美团算法团队(详带细书签)--2019.04.20.pdf.zip

美团算法团队由数百名优秀算法工程师组成,负责构建美团这个生活服务互联网大平台的“大脑”,涵盖搜索、推荐、广告、风控、机器学习、计算机视觉、语音、自然语言处理、智能调度、机器人和无人配送等多个技术方向,在帮助美团数亿活跃用户改善用户体验的同时,也帮助餐饮、酒店、婚庆、丽人、亲子等200多个行业的数百万商户提升运营效率。我们致力于通过算法和人工智能技术,帮大家吃得更好,活得更好

2019-06-20

斯科特扬思维习惯高效全能套系( 共4册).epub.zip

加拿大马尼托巴大学商科毕业,如今经营着世界上最大的学习博客之一。从高中开始斯科特几乎课下不学习,尽管如此,他还是以全班第2名的成绩毕业。读大学时,大考之前一般每天学习不过两个小时。不过,4年来,他的平均成绩总在A和A+之间。毕业后他又以超凡的速度,成为麻省理工大学历史上最快毕业的人,并登上TEDx的演讲台,向全世界宣讲自己的学习经验,是不折不扣的超级学霸。

2019-05-16

深度学习.epub.zip

该书从浅入深介绍了基础数学知识、机器学习经验以及现阶段深度学习的理论和发展,它能帮助人工智能技术爱好者和从业人员在三位专家学者的思维带领下全方位了解深度学习。《深度学习》通常又被称为花书,深度学习领域最经典的畅销书。由全球知名的三位专家IanGoodfellow、YoshuaBengio和AaronCourville撰写,是深度学习领域奠基性的经典教材。该书被大众尊称为“AI圣经”

2019-05-16

Python密码学编程.pdf

本书主要介绍了加密算法,同时从Python编程的角度来引导读者将加密算法更好地实现。书中不仅讲述了详细的算法理论,还附以详细的代码示例帮助读者更好地学习算法,并最终实现加密算法。除此之外,书中还提供了相应的源码下载资源,能够让读者获取到最完整真实的代码示例,帮助读者更好地进行后续的开发和学习。

2019-03-11

SELENIUM2+自动化测试实战+基于PYTHON语言.pdf

虫师编写,适合自动化测试人员,爬虫工程师。(精排+目录)

2019-03-11

python绝技:运用python成为顶级黑客(精排+目录)

Python 是一门常用的编程语言,它不仅上手容易,而且还拥有丰富的支持库。对经常需要针对自己所 处的特定场景编写专用工具的黑客、计算机犯罪调查人员、渗透测试师和安全工程师来说,Python 的这些 特点可以帮助他们又快又好地完成这一任务,以极少的代码量实现所需的功能。《Python绝技:运用Python成为顶级黑客》结合具体的场景和真 实的案例,详述了 Python 在渗透测试、电子取证、网络流量分析、无线安全、网站中信息的自动抓取、 病毒免杀等领域内所发挥的巨大作用。 《Python绝技:运用Python成为顶级黑客》适合计算机安全管理人员、计算机犯罪调查和电子取证人员、渗透测试人员,以及所有对计算机 安全感兴趣的爱好者阅读。同时也可供计算机、信息安全及相关专业的本/专科院校师生学习参考。

2019-03-11

程序员的数学(日-平冈和幸)三部曲打包(精排带目录)

如果你只想当个good programmer,那么数学不重要;但是如果你想当个great programmer,那么数学很重要。当你要超越CRUD,做任何一点点有创新性的技术的时候,最有机会遇到的问题,其实是数学问题。

2019-03-11

改善Python程序的91个建议+编写高质量Python代码的59个有效方法+流畅的Python(精排+目录)

python入门到精进,3本书刷完下来,可以是python小牛一个。

2019-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除