自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

coolcooljob的博客

但行好事,莫问前程!

  • 博客(33)
  • 收藏
  • 关注

原创 win10下安装tesserocr失败(问题已解决,见文末)

        在win10下使用pip install tesserocr安装时,始终报错,未解决问题解压tesserocr-2.2.2.tar.gz该文件夹后,查看setup.py文件,发现似乎model只能再linux下安装。记录该问题,希望以后能够找到根本问题所在,并解决。问题如下:网上搜了一下下,个人感觉比较权威的是这个点击打开链接,不过这个也没能完全解决问题,而且就我个人而言,目前阶段...

2018-05-20 21:17:51 28244 35

原创 unix进程间的通信方式

unix进程间的通信方式(1)管道(Pipe):管道可用于具有亲缘关系进程间的通信,允许一个进程和另一个与它有共同祖先的进程之间进行通信。(2)命名管道(named pipe):命名管道克服了管道没有名字的限制,因此,除具有管道所具有的功能外,它还允许无亲缘关系进程间的通信。命名管道在文件系统中有对应的文件名。命名管道通过命令mkfifo或系统调用mkfifo来创建。(3)信号(Sig...

2018-09-09 20:44:37 4467 1

转载 详解python中的单例模式以及其实现方法

原文出处单例模式单例模式单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中,某个类只能出现一个实例时,单例对象就能派上用场。比如,某个服务器程序的配置信息存放在一个文件中,客户端通过一个 AppConfig 的类来读取配置文件的信息。如果在程序运行期间,有很多地方都需要使用配置文件的内容,也就是说...

2018-09-01 10:18:41 613

转载 网络爬虫与反爬虫实战

本文转自网络爬虫与反爬虫实战,由作者韦玮首发自GitChat我们经常会写一 些网络爬虫,想必大家都会有一个感受,写爬虫虽然不难,但是反爬处理却很难,因为现在大部分的网站都有自己的反爬机制,所以我们要爬取这些数据会比较难。但是,每一种反爬机制其实我们都会有相应的解决方案,作为爬虫方的我们,重点需要处理这些反爬机制,所以,今天我们在这里就为大家分析常见的反爬策略以及破解的手段。1. 知己知彼-...

2018-08-25 09:28:37 709

转载 进程,线程,协程概念

本文转自进程,线程,协程概念一、概念  1、进程  进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。在早期面向进程设计的计算机结构中,进程是程序的基本执行实体;在当代面向线程设计的计算机结构中,进程是线程的容器。程序是指令、数据及其组织形式的描述,进程是程序的实体。  进程是一个具有独立功能的程序关于某...

2018-08-06 14:23:11 240

转载 关于如何成为一名爬虫工程师!

本文转自详情看这里如何成为一名爬虫工程师程序员有时候很难和外行人讲明白自己的工作是什么,甚至有些时候,跟同行的人讲清楚“你是干什么的”也很困难。比如我自己,就对Daivd在搞的语义网一头雾水。所以我打算写一篇博客,讲一下“爬虫工程师”的工作内容是什么,需要掌握哪些技能,难点和好玩的地方等等,讲到哪里算哪里吧。一、爬虫工程师是干嘛的?1.主要工作内容?互联网是由一个一个的超链接组...

2018-08-05 16:00:14 5062 1

转载 简直不能更全面的docker学习笔记!

一、Docker 简介Docker 两个主要部件:Docker: 开源的容器虚拟化平台Docker Hub: 用于分享、管理 Docker 容器的 Docker SaaS 平台 -- Docker HubDocker 使用客户端-服务器 (C/S) 架构模式。Docker 客户端会与 Docker 守护进程进行通信。Docker 守护进程会处理复杂繁重的任务,例如建立、运行、发布你的 Docker...

2018-06-09 16:47:40 874

原创 Ubuntu 16.04安装Docker-Compose

关于Ubuntu16.04安装Docker-Compose笔记Linux环境    ubuntu 16.04(LTS)curl安装安装# curl -L https://github.com/docker/compose/releases/download/1.7.1/docker-compose-`uname -s`-`uname -m` > /usr/local/bin/docker-c...

2018-06-09 12:29:51 882

转载 Docker启动Get Permission Denied

本文转自:作者:warm3snow,原文链接:https://www.cnblogs.com/informatics/p/8276172.html以下问题及解决方法都在Ubuntu16.04下,其他环境类似问题描述安装完docker后,执行docker相关命令,出现”Got permission denied while trying to connect to the Docker daemon...

2018-06-09 09:48:19 1482

原创 python中连接三大主流数据库mysql,mongodb,redis

1.python中mysql数据库的连接import pymysqlconnection=pymysql.connect('localhost','root','password','database') #创建连接对象cursor=connection.cursor() #创建游标对象sql=...

2018-06-05 21:09:33 1358

原创 幕布分享---Scrapy框架入门(思维导图)

具体内容见这里

2018-06-02 14:27:21 937

原创 幕布分享---算法的一些概念

具体请查看这里,里面有思维导图,可以加深印象。

2018-06-02 14:22:19 933

转载 ubuntu安装和查看已安装软件

摘要:原文地址:http://www.cnblogs.com/forward/archive/2012/01/10/2318483.html说明:由于图形化界面方法(如Add/Remove...和SynapticPackageManageer)比较简单,所以这里主要总结在终端通过命令行方式进行的软件包安装、卸载和删除的方法。一、Ubuntu中软件安装方法1、APT方式(1)普通安装:apt-get...

2018-06-02 14:11:25 22431 1

转载 计算机网络基础总结大全

转自计算机网络基础

2018-06-01 14:13:42 402

原创 初步了解爬虫框架pyspider

本文只对pyspider的简单使用作一介绍,有关pyspider的详细使用请看:点击打开链接。在开始之前,我们先来看一下pyspider的架构:pyspider的架构主要分为Scheduler(调度器),Fetcher(抓取器),Processer(处理器)撒个部分,整个爬取过程受到Monitor(监控器)的监控,抓取的结果被Result Worker(结果处理器)处理,Scheduler发起任务...

2018-05-26 21:34:24 637

转载 大概了解git和docker

        一次偶然机会,看到别人的github里面的项目都有这两个文件,.gitignore,和README.md,也不知道这两个文件到底有什么作用,于是乎就网上查了一下,结果仿佛好像是发现了新大陆一样,就是这个点击打开链接,就对docker和git又有了了解,于是乎就把这个东西分享一下,毕竟对我这种小白来说,以后肯定是要用到这两样东西的,提前了解一下也没有什么不好的,哈哈~~知识的学习也许...

2018-05-25 21:15:27 4240 1

转载 redis数据库总结

本文转自点击打开链接第一部分 redis的常用指令一、针对key的操作1.1 del key [key .. ]                 , 删除指定的一个或者多个key;1.2 dump key                          , 序列化给定的key1.3 restore key ttl serialized-value  , 反序列化到key1.4 exists ke...

2018-05-23 20:38:16 214

原创 关于代理的设置

        由于一些网站采取了一些反爬虫的措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阈值,那么服务器会直接拒绝服务,返回一些错误信息。这种情况可以称为封IP,也就是网站把我们的IP给封掉了。解决方法当然就是使用代理了。本文主要经一些 常用的Python模块代理的使用,包括urllib,requests,selenium。...

2018-05-23 09:59:37 830

原创 极验验证码识别

    很多网站的登陆都有验证码一项,而极验的方案就是应用的非常普遍。更多的场景是反反爬虫的对抗中,极客验证码更是首选。本次目标则是用程序来识别并通过极验验证码的验证(本文来源于崔庆才<网络爬虫实战>一书,此文只是将此案例做一总结,不喜勿喷)。本次使用的是Python库是selenium库,Chrome浏览器,并配置ChromeDriver。极验验证码官网为:https://auth....

2018-05-22 09:44:39 11507 7

原创 利用selenium爬取淘宝商品

        目标:利用selenium抓取淘宝商品并利用pyquery解析得到的商品名称,图片,价格,购买人数,店铺名称和店铺所在地信息,并将其保存在mongodb。1.打开淘宝首页,搜索你要搜索的商品名称,比如我这里搜索ipad,注意观察此时的url有什么变化(附上链接https://s.taobao.com/search?q=ipad)),仔细观察便可以看到不同,然后查看网页源代码,找到商...

2018-05-20 16:09:00 3811 4

转载 在windows10上使用docker

在开发环境使用docker已经有一段时间,虽然也遇到一些问题,但是总体来说对非常值得使用,大大简化了开发环境的建立和复制, 最近发现Docker发布了针对windows10和Mac的官方封装版本普大喜奔,终于不用boot2docker了,你要知道boot2docker是基于virtualbox的,virtualbox自己在我机器上崩溃了好多回,每次都得像大爷一样伺候着,祈祷它老人家长命百岁.......

2018-05-19 17:50:46 1648 2

原创 分析Ajax爬取今日头条街拍美图

本次目标:以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。1.抓取分析在抓取之前,首先要分析主权去的逻辑,打开今日头条的首页http://www.toutiao.com/,右上角有搜索入口,这里尝试抓取街拍美图,输入'街拍'搜索,结果如图所示:这时打开开发者工具,network,xhr选项,如图所示,可以发现一个Ajax请求,继续下拉页面皆可以发现后面的链接不断在温暖过增加,点开第一...

2018-05-18 16:51:47 630

转载 Github备忘录

        本文转自Github备忘录,需要快速入门Github的小伙伴注意啦!~~~以备自己日常查询以及广大博友查询资料所用!

2018-05-05 11:18:22 382

原创 Python中利用functools工具包消除装饰器的副作用

        在开始今天的阅读之前,最好对python中的装饰器有个了解      在开始之前,有必要讲一下Python中装饰器的副作用,装饰器首先是针对函数来说的,它有很多作用,比如引入日志,函数执行时间的统计,执行函数之前预备处理,执行函数之后清理功能,权限校验等场景,缓存等等。除此之外,使用装饰器之后,还可以改变被装饰函数的说明文档,以及之后调用函数时函数在内存中的位置等等,今天要讲的就是...

2018-04-29 12:31:09 508

原创 手把手教你自己写一个Python模块,并将其发布并安装到自己的Python环境中去

     首先得说明一点,python的模块就是有一些.py文件所构成的,所以要想写一个模块,自己得先写一些python程序,我这里就写一个module1.py1.接下来,就是先建立一个文件夹my_package,将自己写的.py文件放到这个文件夹下面,并且在同级目录同时创建一个__init__.py文件2.在my_package的同级目录下面建立一个setup.py文件文件内容如下:from d...

2018-04-25 18:02:19 25738 9

原创 浅谈python的两种单例模式

1.第一种:写一个装饰器函数,装饰需要单例的类,并将该类的单实例缓存下来。2.第二种:实现__new__方法,并将一个类的实例绑定到类变量__instance上

2018-04-24 18:25:19 1122

转载 dpkg被中断问题解决办法

注:本文转自点击打开链接       linux系统安装软件是有时会碰到“dpkg 被中断,您必须手工运行 sudo dpkg –configure -a解决此问题”,然而按照提示运行却并没能很好的解决问题。其实导致这个问题的主要原因是因为/var/lib/dpkg/updates文件下的文件有问题,可能是其他软件安装过程或是其他原因导致的,这里删除掉然后重建即可。sudo rm /var/lib...

2018-04-16 19:07:14 14144 7

转载 ubuntu16.04中安装谷歌拼音输入法

ubuntu16.04中安装谷歌拼音输入法声明:本文转自ubuntu中安装中文输入法在命令行中运行:’sudo apt install fcitx-googlepinyin’在 system setting > Language Support 中 Keyboard input method system 选择 fcitx当你的系统中存在其他的中文输入法时,需要在 Text Entry 中 ...

2018-04-16 17:55:55 878

转载 关于启动ubuntu虚拟机时遇到Host SMBus controller not enabled的解决办法

废话不多说,直接上步骤!1.编辑文件:sudo vim /etc/modprobe.d/blacklist.conf2.通过下面指令操作,在配置文件的末行插入:blacklist i2c_piix43.重启:reboot这样问题就解决了!...

2018-04-16 10:07:51 16949 9

原创 关于解决ubuntu16.04中 you are using pip version 8.1.1,however version 10.0.0 is avaiable问题

       问题如题所示,博主也是小白一枚,在Linux ubuntu系统中安装python相关库是遇到这个问题,也很懵逼,安装其他库是并没有遇到这个问题,不知道为啥,网上找了一下,也算解决了,解决办法如下:使用wget安装成功,具体如下:1.sudo apt-get update2.sudo apt-get upgrade3.wget https://bootstrap.pypa.io/get...

2018-04-15 13:01:41 674

原创 关于ubuntu中区域截图的问题

        对于自带的“PrtSrc”按键,虽然能够截图,但满足不了我们区域截图的需求。同时,想必很多人已经被qq的截屏”ctrl+alt+A”毒害了,希望能够直接截图,然后截图的数据保存在粘贴板上,方便我们粘贴在任何我们想要的地方。 这里我给大家推荐一个方法,不是下载任何别的工具: 这里调用了系统自带的一个截图指令:gnome-screenshot1调用这个指令,可以直接全屏截图。而我们再加...

2018-03-27 14:47:13 457

转载 使用码云(类似Github一样的版本控制系统)

本文转自廖雪峰的官方网站(不知道的小伙伴可以自行百度哟,不过既然来了就看完在走吧,反正也不要钱) 使用GitHub时,国内的用户经常遇到的问题是访问速度太慢,有时候还会出现无法连接的情况(原因你懂的)。如果我们希望体验Git飞一般的速度,可以使用国内的Git托管服务——。和GitHub相比,码云也提供免费的Git仓库。此外,还集成了代码质量检测、项目演示等功能。1.使用码云和使用G...

2018-03-26 21:01:36 1800

原创 Git将文件托管到Github上遇到的问题(小白版)

先来一问题描述:  执行:$ git push -u origin master  结果  Warning: Permanently added the RSA host key for IP address '13.250.177.223' to the list of known hosts.  Permission denied (publickey).  fatal: Could not ...

2018-03-26 20:33:26 153

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除