自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 一些网站基础的反爬虫机制以及应对方法

为什么要做反爬当我们肆无忌惮的抓取网站内容的时候(首先,我不建议大家肆无忌惮的抓取),会对目标网站造成相当大的压力 一些网站需要的是真实用户的反馈信息,而爬虫恰恰干扰了网站真实信息的获取 网站部分隐私内容是不希望被人大批量抓取的 防止竞争对手抓取信息盗用或者分析反爬机制真的可以阻止爬虫吗?答案是否定的,可以说先有的爬虫,再有的反爬,接着反反爬,不要觉得太过于高大上,其实只是见招拆招...

2020-04-09 18:12:45 747

原创 python该如何入门?为什么选择python?心态篇

最近上班好无聊哦自从疫情结束来上班后,工作比去年少了很多,同事也有几个离职了;再呆下去估计我这个号就废了,所以我觉得尝试写几篇文章,研究一下技术;刚开始可能生涩,希望大家不要介意。不过说实在的,我能有什么技术呢,我是一个爬虫工程师,也就是大家所说的,抓数据的。语言呢,当然是python了。其实在csdn这个平台上看到好多的大佬写的基础教程都挺不错,不管自己看懂看不懂的,不明觉...

2020-04-09 15:33:17 134

原创 Liunx 初识

最近公司工作涉及到数据库,而我对这方面的知识可谓是相当的浅薄,初步学习以后,想要用 Linux 来搭建一个分布式的数据库,记录出现的error 希望能对自己以及他人有所帮助。- linux - linux的基本操作看的我一阵头大。安装基本不用说了,mini版本和桌面版本 - 查看虚拟机ip地址的时候出现了一个小问题 - ...

2019-06-25 11:05:45 148

原创 58字体加密解决思路

加密思路关于字体加密,其实是将一种特定的字体库来代替浏览器本身的字体库显示的过程58字体库加密方式58同城中,无论是简历中的字体加密,还是房产信息中的加密都是有迹可循的;正如我们所知,加密的字体数量一般都不会太大且会随访问请求而变化,也就是说 ,字体加密的字体库每次都是变化的,我们需要在爬去网页的同时拿取加密的字体库,进行解密,请求页面获取加密的字体库解析字体库,获取字体间的映射关系...

2019-06-03 11:07:54 1101 3

原创 python关于极验滑块思路

selenium 基本操作, canvas 直接js下载验证图片 ,对比像素值, 拼接图片,对比像素值 移动 说穿了就以上这些,不过有一些之前没接触的东西 有些浪费时间...

2019-05-28 11:33:40 378 1

原创 RGBA 与 RGB 色彩模式差异

(0,0,0,0) RGBA -------------> png RGB +Alpha(透明度)色彩空间通道(0,0,0) RGB -------------> jpg

2019-05-28 10:35:48 998

原创 Python + (京东)JD评论爬取

今天闲来无事,打开jd 想看看抓取规则是不一样 刚开始还好,慢慢的 咦 单独拿出评论的js打开 咦 咦 咦 这样 :响应 200 没错呀 看了一会 哦 原来是有个地方出了问题 ~ 大意大意...

2019-05-13 11:52:42 464

翻译 代理与反向代理

普通转发代理,(x----y----z) 你的客户端 x 想要访问目标网站 z 你客户端所在的网段禁止了你对目标网站的访问 你的访问对目标网站构成威胁,目标网站管理员决定阻止你的访问从而拉黑你的ip地址等 客户端向代理发送请求,并将目标网站定为目标,代理在目标网站获取请求并将其返回客户端 反向代理(x-y-z) 通常人们访问网站是直接x-z 客户端认为自己只是与...

2019-03-01 10:17:45 90

原创 mysql连接出现time out 无法连接服务器

1,mysql存储  问题原因:         1,服务没启动         2,查询量过大,循环过多2,解决:       1 ,设置timeout的有效时间       2,使用redis + mysql...

2019-01-22 08:32:41 3291

原创 python 备份Mysql数据库

 经常借鉴网上的知识,但是能用的实在是少的但是  。我写的办法都是亲测可用的   大家可以放心使用   共创和谐网络环境 # coding=utf-8# !/usr/bin/python# author:shoooghooogimport osimport timeimport schedulefrom datetime import datetime# My...

2019-01-18 15:06:04 366

原创 mysqlerror :"You have an error in your SQL syntax; check the manual that corresponds to your MySQL

(1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ')' at line 1") 错误是不可避免的 ,有时候自己的粗心会付出代价    比如说。。。这个错误是...

2019-01-18 14:20:05 630

转载 AI知识体系(转载,侵权删)

1,数学基础:微积分 线性代数 概率统计 信息论 集合论和图论 博弈论2、技术基础 计算机原理 程序设计语言 操作系统 分布式系统 算法基础 3、机器学习算法 机器学习基础:估计方法、特征工程 线性模型:线性回归 逻辑回归 决策树模型:GBDT 支持向量机 贝叶斯分类器 ...

2019-01-07 14:40:41 261

原创 爬虫代理池实现

1,requests  设置ip代理          proxies = {'http':'http://192.168.0.1:8000'}    需要注意格式,http与https 不能混用 2,scrapy 设置ip代理         middlerware  中设置代理中间键 ...

2018-12-03 14:13:22 266

原创 SQL数据库基本操作

######### select基础查询 #####插入插入语句## id是自动更新的,并且唯一INSERT INTO jd_info(p_name,p_url)VALUES(“ss”,“dd”); ## INSERT INTO表名值(“”,“”); ####### update更新语句###注意where的使用 UPDATE products SET Img=...

2018-11-02 15:25:04 707

转载 Scrapy之AttributeError: 'str'/"list" object has no attribute 'xpath'问题分析

环境介绍Scrapy 1.5.1 , Python 3.6.5问题描述在调用过程中,会报出以下错误信息:'str' object has no attribute 'xpath'1在代码中,尝试对于Selector对象调用xpath方法,选取特定的Web元素节点。代码示例如下: def parse_item(self, response): i...

2018-10-10 13:22:34 2443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除