自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 如何在数据采集程序中判断JPG文件下载完整了?

原文作者:西安鲲之鹏原文链接:点击打开链接由于网络问题在采集JPG图片的时候可能会出现不完整的情况,如下图示例:如何避免这种情况呢?首先我们要能判断出一个JPG文件是否完整,然后对于不完整的进行重新下载,直至下载到完整的为止。如何判断JPG图片的完整性?1)方法一:采用PIL库(Python代码如下)。优点:适用常见各种格式图片。缺点:对于某些情况判

2015-09-28 16:02:39 1068

原创 大众点评网全国数据2015年08月份更新(1480万条)

原文作者:西安鲲之鹏原文链接:点击打开链接数据说明:大众点评全网数据(324个国内城市,所有分类),本次共采集商户数据超过1480万条(14,860,209条)。2015年8月底更新。有图有真相:更新说明:■  采用新的遍历方式,总数据条数有明显增加(和5月份版本相比增加数据条数180万)。■  增加对“锡林郭勒”和”阿拉善”两城市的采集。■ 新

2015-09-28 14:57:39 943 1

转载 如何抓取JS动态输出(非ajax)的电话号码

很多网站为了防止用户的隐私信息(电话、手机、邮箱等)被爬虫抓取,对这些信息作了特殊处理。例如,采用JS输出、采用Ajax动态加载、以图片的形式显示等等。 其中最为常见的就是采用JS输出,这种方法实现的成本最低,同样也最好被抓取。 例如这个页面:http://www.tripadvisor.com/Hotel_Review-g34859-d1526306-Re

2015-07-07 22:53:36 682

原创 Web数据采集(抓取)介绍

什么是Web数据采集?Web数据采集(Webscraping,也叫Web数据抓取)指的是从网站上提取信息的一种计算机软件技术。Web数据抓取程序模拟浏览器的行为,能将可以在浏览器上显示的任何数据提取出来,因此也称为屏幕抓取(Screenscraping)。Web数据抓取的最终目的是将非结构化的信息从大量的网页中抽取出来以结构化的方式存储(CSV、 JSON、XML、ACCESS、MSS

2015-07-07 22:38:45 4143 1

原创 如何在Windows环境下运行Python脚本

Windows下运行Python脚本最简单的方法就是安装ActivePython。 ActivePython的安装:ActivePython 的官方下载地址是:http://www.activestate.com/activepython/downloads建议下载安装V2.7版:http://downloads.activestate.com/Active

2015-06-25 14:10:57 5350

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除