自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Boss直聘招聘数据分析-202104月版

西安boss直聘4月招聘信息分析关于boss直聘数据采集可查看另一篇文章《Boss直聘数据采集及分析》    金三银四,一年里比较火热的招聘季即将结束,那么西安软件开发行业截止目前还剩余的招聘岗位都还有哪些呢,近期在查看boss站点的时候就顺手采集了一波数据,刚好在研究BI报表,那就顺带分析一下最近西安软件市场招聘情况。本次分析主要采集了:“Python”、“JAVA”、“数据分析”、“大数据”、“ETL”,后面也会从这5大招聘岗位、整体招聘情况6个部分展开分析

2021-04-11 14:56:07 6493

原创 中国采购招标网爬虫采集破解

中国采购招标网URL,通过爬虫去请求该网站会返回521状态码,需要带着特定cookie去访问,此cookie又是动态变化,如果想要持续采集就得破解此cookie生成规则。站点反爬分析通过Fiddler抓包分析,可以看出它的请求顺序。1. 首次发起请求,返回状态码为521,返回第一段加密cookie,携带第一段加密的cookie去请求会返回第二个521状态码,会返回第二段加密cookie,然后携带第一段和第二段cookie去请求页面,才返回正常状态码,通过观察第二段加密cookie有时效性,.

2020-10-22 14:58:00 8045

原创 python 创建临时文件读写

python读 写临时文件看到网上一篇文章提到面试的时候,面试官提到以下要求:假设你正在编写的方法,需要每次执行时,在服务器上创建一个临时文件同时支持书写部分内容,而后将该文件的位置传输给第三方的类。待第三方类获取到你文本内的数据时,最后执行对该临时文件的删除操作,同时需要支持高可用,也就是写入,再读取一次便销毁。挺有意思的一个题,本来想手写实现,搜了搜原来python已经有了相关的轮子,那干嘛还造轮子,下面是代码。import tempfiledef read_temp_file(

2020-06-12 15:08:53 1975

原创 Boss直聘数据采集及分析

Boss直聘数据采集及分析我主要采集了Boss web端西安5月Python招聘情况,后面会在代码注释中进行解释采集中碰到的问题参考,也许你也会遇到采集问题点为了绕过boss直聘网站对selenium的检测需要做以下初始化工作:首先开启:chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenum\AutomationProfile";这句话在你的谷歌浏览器可执行文件夹运行,会在你的C:\selenum...

2020-05-29 16:30:43 7792 6

原创 python pyecharts x轴标签名太长

问题:利用pyecharts绘图,有时候我们的x轴标签名比较长,发现会被挤出去,就算调整x轴标签旋转45°都没用,那么该如何解决该问题呢?利用Gird解决dataZoom与x轴标签重叠问题pyecharts 版本1.5.1from pyecharts import options as optsfrom pyecharts.charts import Bar,Gridimport...

2019-12-11 10:10:06 9639

原创 爬虫之短信验证码自动化接收——Tasker

1. Tasker是什么Tasker是Android的一个应用程序,它 根据用户定义的配置文件或可点击或计时器主屏幕小部件中的上下文(应用程序,时间,日期,位置,事件,手势)执行任务(操作集)。这个简单的概念深刻地扩展了您对Android设备及其功能的控制,无需“root”或特殊的主屏幕。2. Tasker能做什么爬虫遇到需要登录的时候如果出现需要输入手机短信验证码我们改怎么办?在某种环境中...

2019-09-15 13:20:53 10807 6

原创 python gzip+base64方式压缩

gzip方式下的两种压缩:1. gzip+base64方式压缩,如果压缩对象本事比较小,压缩后因为base64缘故反而会变大,因此,只有长度很大,要利于传输数据才采用该方式;2. gzip原始方式压缩。#!/usr/bin/python3 # encoding: utf-8 """ @version: v1.0 @author: W_H_J @license: Apac...

2019-07-23 16:12:17 6404

原创 flask-restful与flask的restful风格下安全认证

flask 实现 flask Restful什么是restful网上解释很多,怎么用flask实现restful例子也数不胜数,可自行查阅,本篇主要是不同风格实现restful时候的安全认证。注解方式实现的安全认证,也是网上例子最多的方式在需要安全认证的方法前加上安全认证注解:@basic_auth.login_required,这个方法在下一段代码中。注意:flask错误码或者认证失败的...

2019-07-07 20:12:53 2510 2

原创 基于python的redisGraph简介及实现

RedisGraph探索结果官方文档基于Github上2018年6月24日更新版本文章目录RedisGraph探索结果[官方文档](https://oss.redislabs.com/redisgraph/)1.RedisGraph是什么?2.RedisGraph能做什么?功能介绍3.如何使用Redisgraph?构建RedisGraph模块加载RedisGraph(Redis4.0及以上...

2019-05-25 22:33:34 2296

原创 Python SQLite3 基本操作类

简介SQLite3只是一个轻型的嵌入式数据库引擎,占用资源非常低,处理速度比Mysql还快,专门用于移动设备上进行适量的数据存取,它只是一个文件,不需要服务器进程。SQLite是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。它是一个零配置的数据库,这意味着与其他数据库一样,您不需要在系统中配置。就像其他数据库,SQLite 引擎不是一个独立的进程...

2019-05-17 16:26:10 5224 1

原创 python基于flask_socketsio实现WebSocket——肆

Flask-Sockets和Flask-SocketIO区别Flask-Sockets和Flask-SocketIO之间的主要区别在于前者仅仅将WebSocket协议(通过使用gevent-websocket项目)进行包装,因此它只适用于原生支持WebSocket协议的浏览器,对于那些不支持WebSocket协议的较老的浏览器,就无法使用它了。Flask-SocketIO则不同,通过前面的介...

2019-03-05 17:59:29 4756 2

原创 python基于flask_sockets实现WebSocket——叁

WebSocket是啥?WebSocket是HTML5引入的新的通信协议,主要由Web客户端和服务器实现,当然它也可以在Web之外实现。 与HTTP连接不同,WebSocket连接是客户端和服务器之间永久的双向通信通道,其中任何一个都可以启动交换。 一旦建立,连接一直有效,直到其中一方断开连接。flask实现websocket的两种方式flask 实现websocket有两种方式实现...

2019-02-25 11:11:06 26163 4

原创 python基于flask-socketio实现WebSocket消息广播(发布订阅模式)——贰

场景在应用中可能有一中场景,客户端A只需要发布消息,另一头多个客户端只需要接收客户端A发过来的消息,即发布订阅模式。也可用于大屏展示端,客户端只负责发布推送内容,广播接收端则进行消息接收。因此在flask应用内,通过引入flask-socketio实现站内WebSocket消息广播。各网页接收广播消息并动态刷新页面。为便于观察,我们通过向服务端发送"/push?msg=test" http 请...

2019-02-22 19:05:00 7330 4

原创 python基于socket实现WebSocket简易实现——壹

基于socket包,简易websocket客户端服务端实现,可通过客户端发送消息至服务端,服务端接受消息。python中socket、socketio、flask-socketio、WebSocket的区别与联系---TCP/IP原理图socket 是通信的基础,并不是一个协议,Socket是应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口。在设计模式中,Socket其实就是一...

2019-02-22 16:11:37 14562 12

原创 python adb 实现对支付宝登录及后台监控

python 加载adb实现对支付宝登录及后台监控,与手机自身(电量,网络状态、进程后台)监控,及实现手机任意位置模拟点击。 #!/usr/bin/env python# encoding: utf-8"""@version: v1.0@author: W_H_J@license: Apache Licence@contact: [email protected]@softwar...

2019-02-22 15:23:28 2471 1

原创 基于MQTT的消息发布订阅python实现

简介:MQTT 全称为 Message Queuing Telemetry Transport(消息队列遥测传输)是一种基于发布/订阅范式的“轻量级”消息协议。该协议构建于TCP/IP协议上。MQTT协议是轻量、简单、开放和易于实现的,这些特点使它适用范围非常广泛。在很多情况下,包括受限的环境中,如:机器与机器(M2M)通信和物联网(IoT)。其在,通过卫星链路通信传感器、偶尔拨号的医疗设备、...

2019-02-22 14:57:31 8801 7

原创 webscraper 中文教程

webscraper 中文教程简介Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。因为集成在chrome浏览器中,因此,想要获取数据,只需要在浏览器中安装此插件,然后数据获取就交给爬虫去完成吧,一个不是程序员也可以获取网页数据的神器。教程链接抓取案例、流程环境设置Sitemap Start ...

2019-01-23 17:37:54 11896 3

原创 大众点评评论抓取-加密评论信息完整抓取

前言:之前写的抓取大众的商家信息和点评评论星级,前两篇博文可以自行查阅,后面经常有人问我评论信息怎么抓取,因为以前评论部分没有加密,如今大众点评的评论信息做了前端字体加密,因此一般不会完整的抓取到信息,今天做一下更新。前两篇博文:大众点评热门餐厅抓取与数据分析大众点评评论抓取,这个是老版本的,但是注意点还是可以看看的,以免被反爬。本篇博文更新于2018/12/20,针对目前加密...

2018-12-20 16:53:45 20240 41

原创 基于phantomjs与robot对网页截屏

在爬虫开发过程中,或者其他方面有时候会有这种需求,截取网页图片,作为一种快照信息进行存储,在最近开发过程中也刚好碰到了这种需求,需要将爬虫过程中的网页进行快照信息保存,因此查看了一部分文档,现提供以下两种方式进行快照截图。Python版本python需要安装selenium,通过pip方式便可安装,期中下面有三种方式:1. 调用Chrome或者FireFox浏览器方式,这种都需要打开本...

2018-12-03 14:25:26 720

原创 DataX安装部署-Reader插件二次开发

 DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。DataX详细介绍请参考:DataX-IntroductionDataX是什...

2018-11-14 18:23:06 6649 1

原创 requests-html 爬虫编写及通用爬虫模块搭建

requests升级版requests-html 爬虫编写及通用爬虫模块搭建安装: pip install requests-html中文文档:https://cncert.github.io/requests-html-doc-cn/#/源码:https://github.com/Liangchengdeye/Requests_Html_Spider搭建常用通用爬虫各组件简介...

2018-10-31 17:41:20 964

原创 pyinstaller打包报错: RecursionError: maximum recursion depth exceeded,UnicodeDecodeError

RecursionError想使用python打包生成exe文件,突然发现在打包过程中会出现:RecursionError: maximum recursion depth exceeded异常,然而百度好久,都在说明一个问题:报错提示超过最大递归深度,解决办法: import sys sys.setrecursionlimit(1000000) #例如这里设置为一百万 但...

2018-09-25 16:33:43 3976

原创 大众点评评论抓取

一、背景大众点评评论部分还是值得我们关注的,因为我们上点评网看的也就是评论,通过评论抓取分析,也有利于我们对店铺有更加清晰的定位二、 抓取分析首先通过店铺列表页可以得到各家店铺的URL列表,或者店铺的ID,因为店铺详情页就是通过店铺ID做的相应拼接。如:http://www.dianping.com/shop/2972056/review_all/p; 第一个关键字就是店铺ID,第...

2018-08-01 15:09:22 11543 18

原创 python QQ聊天机器人,qqbot 使用简介

一、介绍qqbot 是一个用 python 实现的、基于腾讯 SmartQQ 协议的 QQ 机器人框架,可运行在 Linux 、 Windows 和 Mac OSX 平台下。你可以通过扩展 qqbot 来实现:监控、收集 QQ 消息 自动消息推送 聊天机器人 通过 QQ 远程控制你的设备二、安装方法在 Python 2.7/3.4+ 下使用,用 pip 安装:pip ...

2018-07-29 10:12:36 11041 2

原创 大众点评热门餐厅抓取与数据分析

大众点评抓取与分析(完整代码) 背景 有没有一种去其他城市旅游的时候想吃地方特色,但是却又不知道到该去哪里吃的感觉呢?反正我是有这种感觉,尤其是不想去其他城市却在泡面中度过,无法感受当地的美食特色,因此对大众点评热门城市热门店铺进行了数据获取,然后对想去的城市的网红店铺大众评分及各项指标进行了获取与分析。数据获取详见:https://blog.csdn.net/sinat_3265136...

2018-07-20 11:55:18 24192 6

原创 大众点评各城市热门餐厅数据爬虫抓取

大众点评抓取网址链接http://www.dianping.com/shoplist/shopRank/pcChannelRankingV2?rankId=fce2e3a36450422b7fad3f2b90370efd71862f838d1255ea693b953b1d49c7c0 通过观察每个城市的链接主要区别于ranKld,每个城市有特定的ID,因此先获取到相应城市的ID,便可...

2018-07-19 18:50:26 31349 40

原创 python List列表查找相同元素下标位置

python的list怎么查找它的下标呢?并能实现记录下标位置。如下:list_position_name为原list,可以发现‘网络工程师’有多个重复值,那么我们想知道它的下标,最后返回字典形式。list_position_name= ['网络工程师', '网络工程师', '网络工程师', '网络工程师', '网络工程师', '网络工程师', '网络工程师', '网络工程师', '网络工程师',...

2018-07-06 14:39:09 22831 4

原创 Dpark简介

DparkDpark-AND-SparkDpark:Dpark是国内豆瓣公司根据Spark进行的克隆版本的实现DPark 是一个类似MapReduce 的基于Mesos(Apache 下的一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享等功能)的集群并行计算框架(Cluster Computing Framework),DPark 是Spark 的Python克隆版本,是一个Pyt...

2018-06-07 18:34:00 4157

原创 RedisGraph Python 实现

redisGraph,作为redis的图形数据库刚推出不久,网上案例相对较少,作者及使用者都在探索阶段,关于怎么搭建redisGraph环境可参考官方文档:http://redisgraph.io/,运行在Linux环境中,主要往原来redis服务中加载一项: Module 'graph' loaded from /home/hadoop/redis-module-graph/src/redisg...

2018-04-16 19:25:11 1367

原创 redisGraph

什么是GraphRedis?它是redis的一个分支,它是一个支持字符串,列表,哈希,集合和有序集合的数据结构服务器。项目的目标是通过添加图形支持来扩展redis 。官方参考文档:点击打开链接节点搭建:gnode graph1 a b c d e节点权值:gedge graph1 a b 1 gedge graph1 b c 1 gedge graph1 c d 1 gedge graph1 d ...

2018-04-08 17:14:05 1020 8

原创 代理IP获取并再次验证,可生成IP池

在本人用scrapy框架抓取目标网站时由于抓取信息量过大,常常会碰到目标网站封闭本人主机IP,因此学习并找到通过代理IP解决IP限制问题,scrapy里怎么设置可参考:scrapy设置IP池,这里只做代理IP获取并验证部分演示。#!/usr/bin/env python # encoding: utf-8 """ @version: v1.0 @author: W_H_J @lice...

2018-03-13 15:55:34 651

原创 scrapy-Twisted资源文件

在Python3,Windows环境下安装scrapy框架时候经常会出现Twisted缺少该模块,同时提示“error: Microsoft Visual C++ 14.0 is required”错误信息,所以需要安装Twisted模块之后就可以正常安装了。资源链接:点击打开链接安装方法参考:http://blog.csdn.net/YRHaoo/article/details/7262

2018-02-05 21:50:18 182

原创 Python抓取淘宝手机销量排行榜

#!/usr/bin/env python # encoding: utf-8 """ @version: v1.0 @author: W_H_J@license: Apache Licence @contact: [email protected] @site: @software: PyCharm @file: taoBaoSpider.py @time: 2017/

2018-01-29 17:06:33 3864

原创 python自然语言处理 jieba分词处理

自然语言NLP处理之一jieba分词需要自行安装jieba模块,通常使用pip install jeiba即可安装,体验分词就是那么简单。#!/usr/bin/env python # encoding: utf-8 """ @version: v1.0 @author: W_H_J@license: Apache Licence @contact: 41590061

2018-01-25 15:34:24 620

翻译 Python语言特性

参考自:GitHub Python语言特性1 Python的函数参数传递2 Python中的元类(metaclass)3 @staticmethod和@classmethod4 类变量和实例变量5 Python自省6 字典推导式7 Python中单下划线和双下划线8 字符串格式化:\x和.format9 迭代器和生成器10 *args and **kwargs11 面向切面编程

2018-01-25 10:36:50 218

原创 Python设计模式

参考自:GitHub地址Python设计模式代码直戳: https://github.com/faif/python-patterns创建型模式工厂方法实例 -> 类 -> 类工厂抽象工厂简单来说就是把一些具有相同方法的类再进行封装,抽象共同的方法以供调用.是工厂方法的进阶版本.实例 -> 类 -> 类工厂 -> 抽象工厂惰性初始化

2018-01-25 10:19:49 1085

原创 Spark连接mysql

spark连接mysql,注意mysql的配置等问题需要在pom文件中添加。版本根据自己版本对应添加。 mysql mysql-connector-java 5.1.22这是spark连接mysql文件:package SqlSparkimport org.apache.spark.{SparkConf, SparkContext}o

2018-01-24 19:05:13 1190

原创 Spark操作hdfs

Windows平台spark连接hadoop集群,并读取hdfs数据开发工具:idea数据hdfs://hdfs://192.168.10:9000/word/在idea运行地方,选择RUN-->Edit-->program arguments:添加hdfs目录地址,即可运行。此例子适合调试使用,实际生产环境中最终将程序打包,部署到服务器中通过spark命令进行运行。pac

2018-01-24 18:58:34 2513

原创 scrapy同一个爬虫里包含不同item,pipelines文件编写

pipelines文件编写首先应该导入items文件里的不同的item类from NcepuSpider.items import ArticleViewsCountItemfrom NcepuSpider.items import ArticleBodyItemfrom NcepuSpider.items import NcepuNewsSpiderItem然后通过if判断方式进行items

2018-01-18 10:03:19 11132 6

原创 Spark入门学习

最近学习spark所以搜了些视屏自己学习,然后找到了这些资料,分享给大家。spark-scala学习免费视屏链接https://www.bilibili.com/video/av14949824/?from=search&seid=13010232225179035576同时相关代码已经上传至GitHub,大家一起参考学习。https://github.com/Liangchengdeye

2018-01-10 18:03:39 214

python3-Twisted

python3,Windows平台安装scrapy框架报错需要安装Twisted

2018-02-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除