自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

csdn_yym的博客

https://github.com/yanyaming http://avata.cc

  • 博客(22)
  • 资源 (3)
  • 收藏
  • 关注

原创 【随笔】虚拟机CentOS启动报错-entering emergency mode解决办法

虚拟机中CentOS非正常关机,再启动出现这样的错误界面:解决方法只需要在这里的shell键入一条命令:xfs_repair -v -L /dev/dm-0执行完成后即可重启,恢复正常。此命令的作用是强制清除日志,不会删除自己的文件。...

2019-02-27 13:28:40 23415 16

原创 【系列】scrapy爬虫开发(9)Splash下载服务器

8.Splash下载服务器

2019-02-15 17:11:57 549

原创 【系列】scrapy爬虫开发(8)Redis分布式

8.Redis分布式原生scrapy不支持分布式,不适合大型开发。安装redis数据库,然后pip install scrapy_redis安装对应的库,可基于redis实现分布式功能。redis数据库简介Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。Redis是非关系数据库。Redis是轻量型...

2019-02-15 17:11:29 367

原创 【系列】scrapy启动流程源码分析(7)Spider爬虫

7.Spider爬虫这是基本爬虫开发唯一需要自己实现的类。原生scrapy所有的爬虫都需要继承自scrapy.spiders里的各类Spider类。Spider标准爬虫(最常用)CrawlSpider规则爬虫(更灵活)XMLFeedSpiderXML标记语言爬虫CSVFeedSpiderCSV文本爬虫SitemapSpider网站地图爬虫...

2019-02-15 17:10:54 356

原创 【系列】scrapy启动流程源码分析(6)Downloader下载器

6.Downloader下载器

2019-01-05 22:08:54 1202

原创 【系列】scrapy启动流程源码分析(5)Scraper刮取器

5.Scraper刮取器对ExecutionEngine执行引擎篇出现的Scraper进行展开。Scraper的主要作用是对spider中间件进行管理,通过中间件完成请求,响应,数据分析等工作。Scraper对象scrapy/core/scraper.py#Scraper:class Scraper(object): def __init__(self, crawler): ...

2019-01-05 22:08:38 775 1

原创 【系列】scrapy启动流程源码分析(4)Scheduler调度器

4.Scheduler调度器

2019-01-05 22:08:22 1783

原创 【系列】scrapy启动流程源码分析(3)ExecutionEngine执行引擎

3.ExecutionEngine执行引擎上一篇分析了CrawlerProcess和Crawler对象的建立过程,在最终调用CrawlerProcess.start()之前,会首先建立ExecutionEngine执行引擎,执行其open_spider和start方法。ExecutionEngine.open_spiders()scrapy/core/engine.py#ExecutionE...

2019-01-05 22:08:09 757 1

原创 【系列】scrapy启动流程源码分析(2)CrawlerProcess主进程

CrawlerProcess主进程它控制了Twisted的reactor,也就是整个事件循环。它负责配置reactor并启动事件循环,最后在所有爬取结束后停止reactor。另外还控制了一些信号操作,使用户可以手工终止爬取任务。此类在scrapy/crawler.py中定义,同文件内有三个类:Crawler、CrawlerRunner和CrawlerProcess。scrapy/crawl...

2019-01-05 22:07:49 1668

原创 【系列】scrapy启动流程源码分析(1)命令行启动

前言虽然爬虫的入门级编写并不难,但要让爬虫真正稳定可靠的运行起来,真不是一件容易的事。首先,必须要读懂scrapy这个爬虫框架,如果连这个框架的执行逻辑都搞不懂,那么爬虫也很难写好。下面,我将粗略研究一遍scrapy源码,再结合其他博主的文章,把scrapy的启动和运行过程捋一遍。1.命令行启动这里先不谈使用了各种框架的复杂情况,比如scrapyd服务、redis分布式队列等。只看最简单...

2019-01-05 22:06:32 1711

原创 【随笔】网站遭受疑似网络攻击

近日查看网站日志,发现一大批未知POST操作:POST的url多为敏感操作,比如webshell,admin,数据库操作等。初步估计极有可能是网络攻击。日志信息量太少,无法获取更多详细信息。看来以后要把日志结构改一下,获取详细信息后可以设置屏蔽这类攻击。这种攻击显然是比较low的一种,估计是随机撞库,撞到一个算一个,且只适用于php网站,而我的网站并不是,它们显然找错了对象。但是像我这种个...

2018-12-31 16:07:21 368

原创 【随笔】不同系统间以及git软件仓库的行尾坑(LF和CRLF)

不同操作系统间的文本行尾差异首先要明确CR和LF的概念:CR= Carriage Return= 回车= \rLF= Line Feed= 换行= \nWindows=CRLF=\n\rUnix系=LF=\n——包括linux&macWindows操作系统与Unix系操作系统的默认行尾符是不一样的,这直接影响到所有能够以文本形式读写的文件。比如在Windows下新建一个文本文...

2018-12-24 15:42:16 818 1

原创 【总结】计算机网络原理

(本文只是自己的学习总结,不一定正确,仅供参考)文章目录计算机网络基础OSI参考模型实际网络架构网络接口层数据链路层网络层传输层应用层管理机构计算机网络五层架构网络接口层通信频谱无线电波-散射(网线,广播电台,对讲机,近场通信)微波-散射到直线(卫星广播/通信,移动通信,有线电视,无线局域网)红外线-直线(遥控器)可见光-直线(光纤)通信方式电话线(无线电波波段)双绞线(普通网线,无线电波波段)...

2018-12-24 14:29:33 3531

原创 【总结】项目管理(适用于软件工程)

(本文只是自己的学习总结,不一定正确,仅供参考)文章目录项目管理基础(适用于软件工程)项目基本概念项目特点项目分类项目流程模型瀑布模型快速原型模型增量模型螺旋模型构建集成模型项目生命周期总览墨菲定律工作比设想的复杂花费的时间比设想的多所需的费用比设想的多问题总是层出不穷项目总体控制控制范围时间成本质量相关干系人1项目经理-全程参与2项目组-系统建设3领导-全程参与4用户-项目规划和测试验收资源与...

2018-12-24 14:08:19 1678

原创 【总结】Python编程语言

(本文只是自己的学习总结,不一定正确,仅供参考)(文档.md代码由.docx文档转码而成,会有部分乱码)文章目录Python语言语言特性动态解释型语言动态类型&强类型允许面向过程编程(全局变量和函数)对比其他面向对象语言Python语言的不同实现CPython(官方C实现)Jython(Java实现)PyPy(Python实现,更快)Cython(C实现,更快,py与c混合编程,可编译...

2018-12-24 13:47:30 956

原创 【总结】数据库原理

(本文只是自己的学习总结,不一定正确,仅供参考)文章目录数据库通用概念数据库的产生理论分类关系数据库非关系数据库规模分类内存型文档型服务型应用场景事务型OLTP分析型OLAP建模思路范式建模(雪花型模型)维度建模(星型模型)大数据分析数据迁移ETL数据仓库DW多维数据数据分析关系数据库(RDBMS)基本概念ACID规则A-原子性C-一致性I-独立性D-持久性E-R模型SQL语言关系数据库的分类数...

2018-12-24 13:28:33 5888

原创 【总结】操作系统原理

(本文只是自己的学习总结,不一定正确,仅供参考)文章目录操作系统原理基本内容基本特征并发分时(时间片轮转)共享互斥共享交替共享虚拟时分复用(虚拟处理器)空分复用(虚拟存储器,虚拟设备)异步运行机制用户态和内核态时钟管理中断机制内核kernel/壳shell分时操作系统/实时操作系统网络操作系统/分布式系统串行/并行/并发/分布式同步/异步阻塞/非阻塞读/写/执行硬件平台及系统位数定义ARM处理器...

2018-12-24 13:21:31 8585 2

原创 【总结】计算机组成原理

(本文只是自己的学习总结,不一定正确,仅供参考)计算机组成一个完整的计算机系统示意:相关概念数据存储比特bit/字节byte/字word1bit=1位1byte=8bit=1字节1word=2byte=1字存储器的地址按字节或字编址。机器字长/存储字长机器字长即CPU一次能够处理的二进制位数,32位CPU/64位CPU指的就是机器字长。32位系统/64位系统指的是适配对应位...

2018-12-24 13:04:15 2020

原创 【随笔】Linux系统是一个宝库之磁盘分析

一张闪存卡我开发所用的系统为CentOS,以VMWare虚拟机的形式安装在一张闪存卡中,就是那种长宽不到一厘米的所谓的“手机内存卡”,然后插在电脑的卡槽里,可以被识别为普通的硬盘,且接口协议为USB3.0,速度不高不低可以接受,能够正常运行。卡的容量为64GB,我觉得足够用了,不光可以装这一个系统,还可以装上ubuntu,windowsxp,windows7等系统,未来如果能够换装128乃至2...

2018-12-24 01:54:58 300 1

原创 【随笔】学得杂而不精不好么

我一直有一个毛病,学得杂而不精,一会儿学这个,一会儿学那个,好奇心倒是挺强,光是我个人网站(http://avata.cc)上那些总结文档,就涵盖了世界上绝大部分的知识领域。这并非是自己注意力不集中,而是大多数世间事,实在让我找不到归属感,实在让我找不到坚持下去的动力,很多东西根本就是毫无意义的,只是为了经济流动而凭空制造的虚假概念。人生有太多颠倒,儿童时代有没钱的苦恼,学生时代有应试教育的禁锢...

2018-12-22 00:07:37 957

原创 【随笔】网站被谷歌搜索引擎爬取crawl-66-249-79-2

我正在公网网站上测试时,每当查看日志时,都会发现除了我的访问,还出现了许多陌生访问。于是进入后台查看到底是谁在访问。输入命令netstat:从图中可以看到,有一个叫做crawl-66-249-79-2的机器跟我的网站建立了多个连接。于是百度查询这个名称,才知道这是谷歌的爬虫。服务器就在美国,刚上传完文档没几天就被爬了,只是服务器内存只有512M,而文档多为500k~2M之间的大文档,均为...

2018-12-21 19:30:15 1228 1

转载 【测试】欢迎使用CSDN-markdown编辑器

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-12-03 14:08:48 82

电路模拟与计算工具集合Electrodroid+EveryCircuit+iCircuit

三款国外电子电路模拟软件。第一款电路专家Electrodroid主要是各种电子元器件的参数计算,算是一款特殊的计算器;后两款可以自己画电路图并实时模拟电路运行状态,非常适合学生学习理解电路概念。安卓手机软件,亲测可用。

2017-12-08

diff工具(多文件夹比较,多文件比较,找不同)

国外一款diff工具,简洁的英文界面。可比较两个文件夹的异同、两个文件的异同,适用于代码版本比较以及文件备份时的查缺补漏

2017-12-08

一款免费的专业级录屏工具

一款免费的专业级录屏工具,直接安装,软件体积小,录屏得到的mp4文件音质和画质均高清,可自由设置是否添加水印

2017-12-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除