自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jonny

编程菜鸟的进阶之路

  • 博客(143)
  • 资源 (9)
  • 收藏
  • 关注

原创 极验汉字点选识别(二)----基于深度学习的端到端文字识别代码实现

注:该算法原理参考网上相关资源,代码做了部分复用了,并在其基础上做了些许改动,应用到了极验点选图片左下方图片的识别处理过程过程中,涉及公司内部数据,本文不会有任何主体代码展示。由于前期对某网站有数据采集需求,在采集过程过程中遇到了极验点选验证码,涉及到汉字识别问题,本文重点介绍一下图片左下方图片的识别过程。 数据处理:利用已经破解掉的底层极验处理逻辑,一共下载了16w张极验图片,涉及词类包括社会百科,百味食谱等,并按照固定像素位置...

2020-07-14 20:09:20 2201 1

转载 极验汉字点选识别(一)----端到端不定长文字识别CRNN算法详解

在以前的OCR任务中,识别过程分为两步:单字切割和分类任务。我们一般都会将一连串文字的文本文件先利用投影法(水滴法)切割出单个字体,在送入CNN里进行文字分类。上述方法目前已经不再流行,面临的显而易见的问题就是容易造成将当个字符切开,导致后续分别出错,而且汉字处理识别成本较高,当下更流行的是基于深度学习的端到端的文字识别,我们不需要显示的对汉字进行切割,而是将汉字转成序列学习问题,虽然输入的图像尺度不同,文本长度不同,但是经过DCNN和RNN后,在输出阶段经过一定的翻译后,就可以对整个文本图像进行识别,也就

2020-07-12 10:44:20 2005

原创 Python爬虫之利用爬虫利器puppeteer搭建远程服务

什么是puppeteer?Chrome59(linux、macos)、 Chrome60(windows)之后,Chrome自带headless(无界面)模式很方便做自动化测试或者爬虫。但是如何和headless模式的Chrome交互则是一个问题。通过启动Chrome时的命令行参数仅能实现简易的启动时初始化操作。Selenium、Webdriver等是一种解决方案,但是往往依赖众多,不够扁平。...

2019-08-13 22:02:58 3221

翻译 外文翻译:Study on Key Technology of Power Users Credit Rating Evaluation Ba(基于大数据的电力用户信用评级评估关键技术研究)

(博文并非完整版,图片并未能加载,完整版参见 外文翻译:基于大数据的电力用户信用评级评估关键技术研究)ABSTRACTElectricity power supply company has entered the era of market economy as the deepening of reform, and the pressure to run the company we...

2019-06-06 11:05:03 1011

原创 大数据起步之wormhole初识

第一个接触wormhole是公司的一个开发项目,由于之前供职于宜信,接触到这个开源项目,目前宜信已经推出Davinci、Moonbox、Wormhole、UAV.Monitor等10项领先开源技术,以将宜信的技术和方法开放共享,繁荣技术生态。开源网址:https://github.com/edp963/wormholewormhole的简介: Wormhole是一个SP...

2019-04-21 15:21:49 1857 2

原创 大数据起步之centos7环境中安装kafka

本博文默认用户已经安装了jdk1.8 及以上一、安装Zookeeperwget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gztar -zxvf zookeeper-3.4.6.tar.gzcd zookeeper-3.4.6cp zoo_sample.cfg zo...

2019-04-19 09:25:00 254

原创 职场小记-实习归来,感慨万千

我胡汉三又回来!惊不惊喜,意不意外!从去年6月份一个实习生的身份走出校园,放弃考研,依然走进职场,不知道对还是错,之前目前来看还算是正常的,辗转北京,最终选择目前的“归宿”——浙江核新同花顺网络信息技术有限公司,如今回头来看,自己还是满满的幸运,虽然不及年薪30w+的阿里头条等大厂,但是至少也能放得下我这卑微的躯壳。其实这都是废话,还是看看这一年的经历吧,分享出来与大家共勉。去年6月10日...

2019-04-11 11:28:49 538 3

原创 Python基础之堆栈基础的二次代码封装

#!/usr/bin/env python3# encoding : utf-8# @author : 'Jonny'# @location: '北京'# @date : '2018/11/26 15:02'# @Email : [email protected]# @File : StackHelp.py# @Software: PyCharm# @blo...

2018-11-26 15:09:45 704 1

原创 职场小记-宜信大数据团队

2018年11月26日,今天我离职了,离开了供职168天的致诚信用大数据团队,这是我的第一份工作,对于一个刚刚踏入社会 青涩小伙来说,这可能会让我终生难忘。选择离开,其实也是必然,必然的发展,我不知道这个决定是对是错,就像我当初选择加入宜信一样,只有经历了才能知道是对是错,回顾这168天的工作,感觉自己收获不少。2018年6月11日踏上北京这块土地,走进温特莱中心,进入宜信大家庭,成为大数据团...

2018-11-26 13:50:03 1475 5

转载 大数据起步之Paxos算法

Paxos算法是莱斯利·兰伯特(英语:Leslie Lamport,LaTeX中的“La”)于1990年提出的一种基于消息传递且具有高度容错特性的一致性算法 问题和假设 分布式系统中的节点通信存在两种模型:共享内存(Shared memory)和消息传递(Messages passing)。基于消息传递通信模型的分布式系统,不可避免的会发生以下错误:进程可能会慢、被杀死或者重启,消...

2018-11-16 16:41:52 202 1

转载 #Wormhole# (开源)流式处理平台设计思想

导读:互联网的迅猛发展使得数据不再昂贵,而如何从数据中更快速获取价值变得日益重要,因此,数据实时化成为了一个大趋势。越来越多的业务场景需要实时分析,以极低的延迟来分析实时数据并给出分析结果,从而提高业务效率,带来更高价值。流式处理作为实时处理的一种重要手段,正在因数据实时化的发展而蓬勃发展。本文是敏捷大数据(Agile BigData)背景下的实时流式处理平台Wormhole的开篇介绍。Wormh...

2018-11-16 10:33:31 359

原创 Python常用操作之excle文件的基本操作(功能后续更新)

废话不多说,直接上代码:#!/usr/bin/env python3# encoding : utf-8# @author : 'Jonny'# @location: '北京'# @date : '2018/11/12 17:37'# @Email : [email protected]# @File : ExcleHelp.py# @Software: ...

2018-11-14 11:20:54 331

原创 Python进阶之关于协程的那些事

 目录什么是协程。Python中对协程的实现 什么是协程。 协程:又称微线程,纤程。英文名Coroutine。首先我们得知道协程是啥?协程其实可以认为是比线程更小的执行单元。 为啥说他是一个执行单元,因为他自带CPU上下文。这样只要在合适的时机, 我们可以把一个协程 切换到另一个协程。 只要这个过程中保存或恢复 CPU上下文那么程序还是可以运行的。一句话说明什么是线程:协程是...

2018-11-09 15:40:07 843

原创 Python进阶之CPU计算密集型和IO密集型

在最近往服务器部署爬虫程序的时候,遇到了一个很奇怪的问题,就是部署上之后运行一段时间或者是直接不运行就进入休眠状态了,开始一直怀疑是由于服务器内存不足导致的程序休眠,后来废了好大的劲,最终找到了罪魁祸首,具体分析我通过这几篇连载的博客来分析一下,正好也对给自己充充电。第一种任务的类型是计算密集型任务,其特点是要进行大量的计算,消耗CPU资源,比如计算圆周率、对视频进行高清解码等等,全靠CPU的...

2018-11-09 15:06:58 5301 1

原创 python进阶之进程、线程和协程在实际应用中的问题

多线程 vs多进程vs协程Python中比较常见的并发方式主要有两种:多线程和多进程。当然还有协程。基础的程序开发这里就不说了,想要了解基本的协程开发的参见另一篇博客Python进阶之关于协程的那些事...

2018-11-08 18:26:08 1138

原创 Python面试之同花顺Python开发工程师(二面)

        这次面试正好我在外地实习期间,面试地点在西安电子科技大学,我当时正好在北京实习,当时自己的多少也有些犹豫,到底是去还是不去,去可能被刷掉,不去便失去了这次机会,但最终还是选择做了13个小时的火车硬座,从北京赶回西安做了这次面试,但是幸运的是,面试结束之后马上就进行了HR面,三面结束立即告诉我面试通过了,我当时真的很开心,感觉自己要和太阳肩并肩了,兴奋只是因为我对自己的决定感到很明智...

2018-11-01 17:14:21 1254 1

原创 服务器部署之nohup与程序的后台运行

# 1.后台启动程序 nohup Command [ Arg … ] [ & ] # nohup命令 参数可选但不是必须的,又需要看文档既可 # 举例 # 在后台运行 main.py的python脚本 nohup python main.py & # 在后台运行uwsgi nohup uwsgi --http :8001 ...

2018-10-24 12:07:46 1585

转载 Linux vi/vim编辑器常用命令与用法总结

(一)vi/vim是什么?Linux世界几乎所有的配置文件都是以纯文本形式存在的,而在所有的Linux发行版系统上都有vi编辑器,因此利用简单的文字编辑软件就能够轻松地修改系统的各种配置了,非常方便。vi就是一种功能强大的文本编辑器,而vim则是高级版的vi,不但可以用不同颜色显示文字内容,还能进行诸如shell脚本、C语言程序编辑等功能,可以作为程序编辑器。(二)为什么要学习vi/vim?...

2018-10-18 13:37:32 364

原创 Python面试之同花顺Python开发工程师(一面)

同花顺的一面相对简单,是通过电话面试的,对面的小哥哥感觉很不错,给我讲了很多的东西和以后需要提高的方面:下面做个见得总结:     面试面容主要两个方面:一个方面是python方面,另一个方面是数据库方面。     Python方面主要是和Python基础相关的东西,就不在赘述了,有兴趣和可以参考一下本人的其他博文。需要特别说明的是,需要了解scrapy框架的基本原理。     主要介...

2018-10-12 10:54:42 1799 2

原创 Python面试之睿智融科售前策略工程师(二面)

之前的一面就不在说了,水的很,具体来说说二面的问题:1、介绍一下linux常用命令:参看:Linux 命令大全 | 菜鸟教程2、介绍一下vi常用操作键:后续补充3、为什么Python没有多线程:Python中的多线程没有真正实现多现程! 为什么这么说,我们了解一个概念,全局解释器锁(GIL)。Python代码的执行由Python虚拟机(解释器)来控制。Python在...

2018-10-12 10:19:27 521

原创 python面试之腾讯测试开发工程师

今天面试了腾讯的测试开发工程师岗位,总体感觉一般,问的问题都还是比较基础性的东西,当然也问了很多实习期间做的项目,各占一半吧。下面基础部分的东西总结一下:1、假定我有100M的一个文本数据,但是我的电脑内存只有10M,我怎么在有限的资源条件的情况下,找出这个文本中出现次数最多的那一行字符串?解决思路:说来也巧,其实这不难,只是有时候突然没了思路,灵感来自于一个小学妹的一句话,他最近在搞数学...

2018-09-26 14:32:01 3831 1

转载 大数据学习之Kafka原理总结

KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Li...

2018-08-28 15:24:09 612 1

转载 hadoop探索之 浅析 Secondary NameNode(辅助namenode)

在初学Hadoop时,有个让人疑惑的概念:Secondary NameNode,也叫辅助namenode。从命名看,好像是第二个namenode,用于备份主namenode,在主namenode失败后启动。那么,Secondary NameNode的作用是什么?是如何工作的?一,NameNode HDFS集群有两类节点以管理者和工作者的工作模式运行,namenode就是其中的管理者。它管理着...

2018-08-09 19:07:18 317

转载 谷歌Chrome浏览器开发者工具教程—JS调试篇

上一篇我们学习了谷歌Chrome浏览器开发者工具的基础功能,下面介绍的是Chrome开发工具中最有用的面板Sources。 Sources面板几乎是最常用到的Chrome功能面板,也是解决一般问题的主要功能面板。通常只要是开发遇到了js报错或者其他代码问题,在审视一遍代码而一无所获之后打开Sources进行js断点调试,几乎能解决8成的代码问题。js断点功能让人兴奋不已,以前只能在IE中靠al...

2018-08-07 13:24:14 346

转载 谷歌Chrome浏览器开发者工具教程—基础功能篇

Chrome(F12开发者工具)是非常实用的开发辅助工具,对于前端开发者简直就是神器,但苦于开发者工具是英文界面,且没有中文,这让很多朋友都不知道怎么用。下载吧小编为大家带来Chrome开发者工具基础功能和高级性能分析器(Timeline、Profiles)的图文详解教程,下面是基础功能篇。提示:右键点击图片选择在新窗口或新标签页中打开可查看大图。一、Elements在Elemen...

2018-08-07 13:22:40 1906

原创 python爬虫进阶之scrapy的暂停与重启

scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一:1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行)2、在scrapy项目里创建保存记录信息的文件夹3、执行命令:  scrapy crawl 爬虫名称 -s JOBDIR=保...

2018-08-01 16:12:37 12480 4

转载 为何大量网站不能抓取?爬虫突破封禁的6种常见方法

为何大量网站不能抓取?爬虫突破封禁的6种常见方法 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 U...

2018-08-01 10:16:10 212

原创 Python爬虫实习之scrapy运行后未爬取直接结束

一开始看到这种情况也soil一连懵逼,什么鬼,难道是我的IP不行被网站看上了,想想不可能啊,毕竟是第一次爬取,于是开始了我一点一点的纠错过程,一开始以为是我的工程项目的文件设置路径错了,后来发现并不是,于是又想是不是程序的启动运行脚本程序错了,改了半天发现也不是,于是我无奈了。。。。可是,有时候灵感就是那么一瞬间,是不是网址写错了。事实证明却是是这样,这里说写错了,并不是那种直接把网址真的写错...

2018-07-20 17:44:22 3873 3

原创 GitHub代码上传及出错修正

第一步:创建Github新账户第二步:新建仓库第三部:填写名称,简介(可选),勾选Initialize this repository with a README选项,这是自动创建REAMDE.md文件,省的你再创建。第四步:安装Github shell程序,地址:http://windows.github.com/第五步:打开Git Shell,输入以下命令生成密钥来验证身份ssh-keygen...

2018-07-03 10:37:41 446

原创 Python爬虫之crawlspider源码解析

做了好久的爬虫,还没有真正的阅读过crawlspider的源码,下面是一些源码的解析:Spider基本上能做很多事情了,但是如果你想爬取全站的话,可能需要一个更强大的武器。CrawlSpider基于Spider,但是可以说是为全站爬取而生。CrawlSpiders是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rul...

2018-07-02 17:46:14 628

原创 Python爬虫之异常重试的解决方案详解

大家在做数据抓取的时候,经常遇到由于网络问题导致的程序保存,先前只是记录了错误内容,并对错误内容进行后期处理。原先的流程:def crawl_page(url): pass def log_error(url): passurl = ""try: crawl_page(url)except: log_error(url)?改进后的流程:attempts = 0success...

2018-06-28 19:23:15 8936

转载 Python爬虫之数据的提取和清洗的正则应用规则

最近在做一个项目,爬虫获取的数据可谓一锅粥,果断选择了正则表达式,下面是常用的规则:表达式全集字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位...

2018-06-27 15:25:49 1918

原创 Python爬虫之selenium 父子、兄弟、相邻节点定位方式详解

selenium中根据父子、兄弟、相邻节点定位的方法,很多人在实际应用中会遇到想定位的节点无法直接定位,需要通过附近节点来相对定位的问题,但从父节点定位子节点容易,从子节点定位父节点、定位一个节点的哥哥节点就一筹莫展了,接下做出详尽的解析。1. 由父节点定位子节点最简单的肯定就是由父节点定位子节点了,我们有很多方法可以定位,下面上个例子:对以下代码:<html><body&gt...

2018-06-25 14:23:50 4200

原创 Python爬虫进阶之selenium定位不到元素的几种情况和解决方法

1>动态ID,每次调用页面出现的元素的ID会动态随机分配。解决方案:推荐使用xpath的相对路径方法查找到该元素。2>内嵌页面Iframe,导致无法定位到Iframe的页面元素。解决方案:driver.switchTo().frame(Id/name/element)来进行进入指定id/name/element的iframe内嵌页面中,从而可以定位iframe内部元素。具体来说:如果i...

2018-06-20 17:40:48 8272 1

转载 Python爬虫之浏览器User-Agent大全

一、基础知识篇:Http Header之User-Agent    User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标 识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访...

2018-06-14 11:10:32 21249

原创 Python常见错误之error: Microsoft Visual C++ 14.0 is required.

原因: 可能是直接使用 pip install 【第三方库名】 安装自己需要的第三方库。结果错误: Microsoft Visual C++ 14.0 is required解决办法: 一定要安装和自己windows版本和python版本对应的第三方库。推荐在:python库下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs...

2018-06-03 08:44:16 1301

原创 Python进阶之爬虫url去重(可用于文件去重)

主要介绍几个常用和目前了解的,当然还有其他方法,这里只说目前本人自己能实现的几种方法的基本思想:基于Hash算法的存储。对每一个给定的URL,都是用一个已经建立好的Hash函数,映射到某个物理地址上。当需要进行检测URL是否重复的时候,只需要将这个URL进行Hash映射,如果得到的地址已经存在,说明已经被下载过,放弃下载,否则,将该URL及其Hash地址作为键值对存放到Hash表中。这样,URL去...

2018-05-14 20:39:21 3584

原创 Python进阶之爬虫进阶selenium的使用

不在以文字赘述了,直接上代码,代码中都已经做了注解。。。其余内容稍后更新# encoding=utf-8__author__ = 'Jonny'__location__ = '西安'__date__ = '2018-05-14'from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom ...

2018-05-14 19:17:10 310

原创 Python进阶之借助selenium爬取淘宝商品信息

稍后更新

2018-05-14 19:16:13 480

原创 Python爬虫进阶之Chromedriver版本映射

暂时不做评述

2018-05-14 16:10:35 378

chrome-linux.zip

puppeteer是继phantomjs停止维护之后有一款自动化无头浏览器,无论是在爬虫还是自动化测试方面都表现出很好的性能,而且支持远程服务操作。

2019-08-13

chrome-win.zip

puppeteer是继phantomjs停止维护之后有一款自动化无头浏览器,无论是在爬虫还是自动化测试方面都表现出很好的性能,而且支持远程服务操作。

2019-08-13

数值分析答案

数值分析作业答案分析

2017-07-13

Android-21

Android,sdk,21

2017-06-27

c/cpp指针详解

通过不同的方面详细的讲解了指针的各种用法

2017-06-27

数值分析实验报告书

实验内容包括牛顿插值等试验

2017-06-27

数据图进阶与文件句柄实验报告

1. rand()函数的相关内容 2. 指定要求的伪随机数生成与呈现 3. 用文件句柄对生成的伪随机数矩阵进行保存

2017-06-07

Visio studio 2017

这是最新版的vs,vs2017改进2015版的不足,支持跨平台移动端的开发

2017-06-07

c++函数模板和类模板计实验报告

练习 C++中函数模板、类模板的创建和使用方法。 (1) 理解模板的作用。 (2) 学习函数模板及其声明方法,掌握模板函数及其生成方法。 (3) 学习函数模板的两种不同的实例化方法。 (4) 学习类模板的声明与使用方法。

2017-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除