自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Silbert Monaphia

Pythoner|Linux Advocate|DevOps|Dancer

  • 博客(30)
  • 收藏
  • 关注

原创 将博客搬出CSDN

因为实在受不了CSDN把我原本的样式换来换去,所以决定搬家到简书,下面是简书新家的地址~ http://www.jianshu.com/u/04c29c55bb27

2017-12-20 22:44:42 629

转载 两种方法部署你的代码

1.CI way 运用jenkins一类的自动化部署工具,我们只用更新代码到repo就可以了,之后的代码打包,拉取,解包,启动都是jenkins搞定2.人工部署 现在很多情况下自己都太过依赖自动化部署工具了,如果jenkins出问题了而又急着部署真的有点不知所措,其实可以回归原始手工部署的办法:用git archive –format=tart HEAD | gzip > foo.tar.gz,

2017-11-08 19:25:50 1853

原创 高频访问IP限制 --Openresty(nginx + lua) [反爬虫之旅]

前言嗯….本人是从写爬虫开始编程的,不过后面做web写网站去了,好了,最近web要搞反爬虫了,哈哈哈,总算有机会把之以前做爬虫时候见识过的反爬一点点给现在的网站用上了~ 做爬虫的同志,有怪莫怪喽~还有求别打死 > <首先要提一下AJAX,现在普天下网页几乎都是往特定的数据接口请求数据了,除了什么首屏渲染这种服务端渲染好html以外,几乎没有什么静态网页了。我看了有一些帖子说AJAX让爬虫难做,可是我

2017-08-25 22:45:47 7172 1

原创 Ubuntu上装windows10结果进不到Ubuntu了- -||

前言感觉好久没有写博客了,最近都在忙工作,然后也在搞离校的事情,大学毕业嘛,杂七杂八的事情接踵而至,而最近又多了个搬家的任务,所以博客感觉荒废了很久,其实最近也有挺多东西想写下来的,但是感觉短时间内总结不完,所以只是在草稿写一点是一点,而没有post出来。 事情是这样的,昨晚回到宿舍,然后见到一群人围着俺们舍长,俺们舍长原本被我安利linux,所以就把windows删除了,只是留了个ubunt

2017-06-19 23:09:01 3631

原创 pyenv+virtualenv+virtualenvwrapper轻量级python环境管理

前言今晚帮一个童鞋解决需求,无意中把最近用到virtualenv,virtualenvwrapper用了起来,又知道了原来还有pyenv这么一个东西,感觉这样的python环境控制有必要再来一写,因为对比前面写到的一篇Docker+Git效率工作的docker我感觉就python开发而言,虽然docker能牢牢管住整个软件以来环境,但是现在时间一长,我倒是觉得每次都要进去docker做操作测试

2017-05-07 20:54:15 1743

原创 sql复杂查询

前言  前面的一篇文章写了下数据库设计和SQL语句基础,里面都是简单的增删改查,而且对最重要的查询也没有深入研究,实在是罪过,那么本文就sql复杂的查询语句进行探讨,也是当作一个记录好了复杂查询No.1假设我们现在有张这样的score表(sn表示student_name学生姓名,cn表示课程class_name名字,sc表示score成绩) sn cn sc 光头 语文 9

2017-04-13 11:13:37 804 2

原创 Linux命令'门'

前言  之前的当Kali Rolling作为笔记本唯一一个系统提到的都是一些linux表面的东西,只是适合过渡期用,但是这并不是linux美的地方,它还有许多好玩的地方,所以就想专门留一篇记录一些linux命令,当作是[当Kali Rolling作为笔记本唯一一个系统]的升级版   其实也有想过针对不同的领域功能和具体使用场景分类,但是按照现在看来,虽然把linux当作唯一的系统了,但是我仍然不是

2017-04-12 18:20:18 572

转载 刷了个题目

希望能每天刷一题,包括一些来自leetcode和其他博客还有书籍的算法问题.

2017-04-10 19:46:57 431

原创 Docker Registry--私有docker站

前言原来一直用的是docker hub来push和pull自己的镜像,可是国内pull/push到dockerhub速度实在不敢恭维,而且经常出现handshake timeout的问题,所以思索着能不能有国内的镜像源选择,daocloud是不错的国内选择,可提供pull的镜像也挺多的,但是pull可以,push得另外收费(200一个月)。我自己有三个私有的镜像需要push/pull的,所以思考着干

2017-03-03 12:55:31 2920

转载 编码小本

下面混合着从一些地方摘抄,还有一些自己的编码体悟,当做自用记录.

2017-02-28 11:49:25 472

原创 新服务器の周辺

之前写了一篇配置ssh的ssh登录服务器,就只是讲了ssh配置部分,但是还有其他的一些细节没有讲,下面就一步步展开,用一个新装好的ubuntu server16.04作为例子。1.检查时间①date查看服务器时间是否正确 ②配置时区 dpkg-reconfigure tzdata,可以写进去/etc/timezone,再看看时间,如果不对的话可以用date -s 校正 ③配置ntp服务器

2017-02-25 13:30:25 435

原创 ssh登录の周辺 && Mosh

前言ssh这一部分可以说是web开发的基础之一,ssh取代了telnet成为更为安全的远程服务器登录方式不是一天两天的事情了,远程操作离不开ssh,之前自己搭在腾讯云的小博客,用的是debian系统,也是用ssh登录,一开始是用密码登录,后面改成密钥登录,就不用每次都打密码这么麻烦了。然而,就是这么一个简单又基础的步骤,其实也是容易出问题的,特别是一台新搭建(或者新虚拟)的主机,最近在配置一台Cen

2017-02-17 15:28:45 670

转载 数据库设计和SQL语句基础

前言首先对于数据库这块,我一直都是敬畏的,因为它是数据集中的地方,而数据又是现在网络应用的基础,无论是爬虫,还是web,还是数据挖掘,都需要依赖数据库,所以数据库中如果管理存储数据就是至关重要的问题.数据库设计我不是科班计算机系出生的,所以谈数据库设计我是惶恐的,所以我这里就只是稍微总结一下我的体悟吧. 数据库的设计现在大多数都是关乎与关系型数据库,关系型数据以Mysql为栗子吧,其他关系型数

2016-11-20 22:28:16 764

转载 算法的四点信仰

一直以来都不知道要以什么态度,什么姿势去理解算法,这些天在infoq里面看到一篇讲数据挖掘算法的文章就摘抄过来了.(虽然它通篇都在讲数据挖掘的算法,但是我觉得下面这几条信仰是对所有算法通用的)1.不以具体业务场景出发,不考虑大数据算法实现的DataMining(后面简称DM),都在耍流氓[我还看到过一个是:实现之前谈性能也是在耍流氓,就是说先不管性能来实现,再优化]; 2.知其然,晓其所以然,万变

2016-11-20 16:53:57 549 2

原创 Docker+Git效率工作

前言事情是这样的,首先之前不知道git这个利器,就把代码复制来粘贴去,一个人写代码还好,几个人,特别是一个团队协同工作,这种复制粘贴,U盘拷贝代码,QQ发来发去代码的方式简直就是噩梦,非但麻烦,而且非常凌乱,反正我是受不了。然后,知道git以后才发现自己和它相见恨晚,先别说什么版本控制工具,首先光是托管代码就让我爽一番(svn工作流模式),请注意,我现在是以完全菜鸟的视角阐述,大神们请掠过。引入了g

2016-11-01 16:05:07 22069 6

原创 python爬虫(下)--模拟登录与Captcha识别

前言之前在 python爬虫(上)–请求——关于模拟浏览器方法,中我挖了一个坑,时隔一个多月,趁着最近有点空,我想是时候填填坑了,总结总结了,不然真的就忘了验证码虽然之前挖坑的那篇已经说了一些,现在还是稍微说一说.在模拟登录中,其实让写爬虫的人疼头就是验证码,只要能破掉验证码,那么登录不是问题.验证码(Chaptcha)内容从英文字符和数字识别,到数字加减乘除,再到汉字的出现,后面还有12306的看

2016-10-16 21:46:30 14119 9

原创 当Kali Rolling作为笔记本唯一一个系统

前言最近原来的Win7一个dll文件损坏,然后自己去找了一个dll文件替换,结果替换了两下开不了机了,用/sfc命令企图让win7自己修复,然后正中了那句话:win7的修复功能10次有9次不成功的,windows一直给我一种底层一直都很神秘,用户自己不容易维护,每次出问题想修复问题,但是最后都只能重装系统(错误信息不够精准和详细),所以一气之下,就把SSD的数据备份出来,直接格掉原来的win7,上了

2016-10-08 13:53:21 14786 5

原创 漫谈Python

保持更新,关于python的一些感悟和她的脾气

2016-08-30 10:33:27 999

原创 python爬虫(中)--多进程和多线程

前面我们见到了基本爬虫的请求、提取和保存,这是一个基本爬虫应该有的结构,那么这时候的这个爬虫有了能爬能存的能力,但是这种能力是很弱的,弱主要体现在三点:①爬虫本身健壮性并不高,有很多情况不一定考虑到;②爬虫爬的很慢,效率很低;③防反爬能力不强,容易被Ban掉我们在这篇博文就会就上面第二点讲讲怎么通过运用多线程和多进程来提高爬虫的工作效率.

2016-08-26 17:41:30 7395 1

原创 python爬虫(中)--补充

学习和制作爬虫时候用到的零零散散的一些周边知识的补充和备忘

2016-08-25 15:40:00 1075

原创 python爬虫(中)--保存

前言前面python爬虫(中)–提取,讲的是提取出来的数据保存进一个extracted_data,再保存进extracted_data_,变成一个list包含list的情况,当然你只提取一项,那就没有必要这么做了,可是我的项目中要求可能要提取十几二十项,我为了后面入库方便,所以前面做了这么一个工作。到提取为止,基本爬虫差保存就完成了,什么是基本爬虫,基本爬虫=请求+提取+保存,而不考虑一些针对反反爬

2016-08-25 11:55:01 2172

原创 python爬虫(中)--提取

前言在python爬虫(上)–请求——关于旅游网站的酒店评论爬取(传参方法)和python爬虫(上)–请求——关于模拟浏览器方法中,我们都在讲爬虫如何去做页面请求的问题,这一步的目的是拿到包含所有不管有没有异步加载的数据的页面源码(静态文本),爬虫最难的环节就在这么一段发生在http请求的过程上,可是并不是拿到这么一个包含一大堆标签,一大堆样式代码,一大堆有的没的数据就万事大吉了,我们要的并不是这么一个混乱的东西,我

2016-08-24 15:10:58 4716

原创 python爬虫(上)--请求——关于模拟浏览器方法

前言离上一篇更新的博文应该过了挺久的了( python爬虫(上)–请求——关于旅游网站的酒店评论爬取(传参方法)),因为中间考完试紧接着就去实习的缘故,然后到新环境各种熟悉什么的,所以后面有所学到的东西就来不及汇总,终于在某个礼拜天的下午,喝着我的雀巢速溶咖啡,一边写着这篇总结。上一篇我自己也回去又看了一遍,其实上一篇的博文主要还是用的是 传参 的方法,什么叫传参的方法?就是着重点在分析交互中各种数

2016-08-14 16:24:42 60164 5

原创 python爬虫(上)--请求——关于旅游网站的酒店评论爬取(传参方法)

前言最近考试一直都没有时间写这篇总结,现在考试暂告一段落,现在抽空出来写一篇总结,总结一下python爬虫的学习进度。承接上一篇基于scrapy框架爬虫学习小结,上一篇主要是第二次作业后,“老师说会给我们时间继续完善这个作业,直到可以真的爬到微信朋友圈内容….”,其实之后前面半句是有,但是后面半句真的爬到朋友圈却没有了,老师改变了需求,我们变成了去爬一些旅游网站了。我们被分派到的任务是:研究分析携程

2016-07-01 22:17:24 24950 8

原创 基于scrapy框架爬虫学习小结

在之前完全没有接触过爬虫的我,甚至都不知道爬虫是何物,然而在数据挖掘课程第二次大作业中却要我们小组直接用scrapy框架做一个爬取朋友圈的爬虫,一接到作业的我们马上就懵逼了,别说是scrapy了,我们就连什么是爬虫,爬虫原理是什么都一无所知,突然就要爬微信朋友圈,还要两周内,开什么玩笑。但是怎么也得做,就分工着做,折腾了一段时间,总算有点收获和更加清晰的认识,现在有点小进度,就来报告一下进度~

2016-06-04 23:29:13 15804 2

原创 关于Linux下载工具

P2P协议(magnet,BT和ed2k)放在一起比较,linux下浩如烟海的下载软件,除了非P2P下载的比如wget(通过http和ftp),其他不过是基于上面这三种下载协议写成的下载软件.

2016-05-31 01:11:07 32935

转载 关于Windows和Linux的那些事儿

Monaphia的见解 这篇文章讲的很到位,也告诉我们为什么我们非要从windows折腾到Linux去。  其实,不可否认的是中国很多人都是从windows起步的,习惯了鼠标滑滑点点,搬到Linux中自然也就十分不习惯,本人最近也是搬迁中,当初听了学习计算机的一个友人的建议,从LinuxMint入手的确不错,LinuxMint的图形入口做的很好,十分适合Windows用户搬家到Linux,个人认为还是循序渐

2016-04-19 00:30:36 2176

原创 ARPspoofing

ARP攻击和欺骗是网络安全中比较经典的流量截取手段,特别是适合内网攻击。整个攻击原理简单举例来说就是作为攻击方A,利用网络层的ARP协议不安全性,伪造应答包,发送给受害方B,B通过接受到攻击方发送的ARP应答包,在自己的ARP缓存表中写入了虽然是网关的IP,但是对应的MAC却是属于攻击方A的MAC,然后受害方B在浏览网络的时候,所有流量必须经过攻击方A,通过这种手段,攻击方A可以捕获受害方的上网流量。

2016-04-17 10:08:03 982

原创 小米路由器mini实现锐捷认证.

我相信网上已经有许多校园网锐捷对付办法,而且用小米路由器实现的也很多,但是个人感觉就我谷歌百度到的帖子还不够小白,而且也没有找到有在HS实现成功的例子,所以把握是有的,但不是百分之百,所以我尽可能把帖子凑到一起交叉对比,毕竟也是要花100+的软妹币去买小米路由器mini的,所以这篇帖子权当HS本地宿舍锐捷认证指南。

2016-04-10 16:34:56 10558

原创 LinuxMint安装报错(使用磁盘的最小对齐,这可能造成非常差的性能),安装无法继续

安装LinuxMint出现未对齐奇葩错误,无法继续安装。错误信息:分配到/的分区/dev/sda1开始于3584字节,使用磁盘的最小对齐,这可能造成非常差的性能。既然想要重新格式化此分区,现在就应该重新对齐分区来修正此错误,因为以后更改会非常麻烦。要这么做,要返回主分区才的,删除此分区再与同样的位置,使用同样设置重新创建,这将会使此分区在一个最合适的地方开始。

2016-03-19 23:08:18 10762 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除