自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (8)
  • 问答 (2)
  • 收藏
  • 关注

原创 javascript 闭包

闭包 closure作用域的好处是:内部函数可以访问定义在其外部的变量和函数。

2016-05-04 20:55:42 600

转载 Cookie的格式及组成

概念Cookie由变量名和值组成,类似JavaScript变量。其属性里既有标准的Cookie变量,也有用户自己创建的变量,属性中变量是用“变量=值”形式来保存。   根据Netscape公司的规定,Cookie格式如下:  Set-Cookie: NAME=VALUE;Expires=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE介绍  1、NAME=VALUE

2016-04-20 13:30:02 1180

转载 哪些老鸟程序员知道而新手不知道的小技巧?

1.重构是程序员的主力技能。2.工作日志能提升脑容量。3.先用profiler调查,才有脸谈优化。4.注释贵精不贵多。杜绝大姨妈般的“例注”。漫山遍野的碎碎念注释,实际就是背景噪音。5.普通程序员+google=超级程序员。6.单元测试总是合算的。7.不要先写框架再写实现。最好反过来,从原型中提炼框架。8.代码结构清晰,其它问题都不算事儿。9.好的项目作风硬派,一键测试,一键发布,一键部署; 烂的项

2016-03-10 15:47:50 682

原创 MATLAB画图-legend,box用法

1、显示图片右侧和上侧坐标轴的命令在plot画图命令后面添加box on,右侧和上侧的坐标轴就显示出来了。2、legend的用法:首先说明下一些参数,下面是一些属性的说明 2.1 线的颜色颜色b blue(蓝色) g green(绿色) r red(红色) c cyan(墨绿色) m magenta(紫红色) y yellow(黄色)

2016-01-20 20:10:25 7521

原创 LaTeX编译出现错误?

运行环境:LaTeX 装的是是最新的CTeX_2.9.2.164_Full.exe。 国内下载地址是http://www.ctex.org/HomePage 我安装的是full版本,最大的,大概1.4g,会集成WinEdt,使用WinEdt编写就可以了。 下面是我的测试。 上述是打印成简单的hello world,以pdf的形式展现。 但编译时出现了错误。 网上找了很多解决办法,找了很

2016-01-08 20:36:03 2315

转载 CSS Framework

Feeldesign CSS Framework 是一个易用的css框架,我们参考了现在流行的css框架(960 Grid,Blueprint CSS,Emastic CSS Framework等),对其进行了改进和扩充,并融入了自己多年的开发经验,内置了960px 12/16列Grid布局、自适应宽度布局、各种字体样式、各种图标样式、打印样式等,基本涵盖了页面标准化开发中常用的css样式定义,更符

2015-12-15 21:54:18 657

原创 scrapy [boto] ERROR: Caught exception reading instance data URLError: <urlopen error [Errno 10051] >

执行过程中出现错误:2015-09-09 11:13:26 [boto] DEBUG: Retrieving credentials from metadata server.2015-09-09 11:13:27 [boto] ERROR: Caught exception reading instance dataTraceback (most recent call last): Fi

2015-10-22 18:29:33 3358 3

原创 linux centos7 安装scarapy步骤

在Linux环境下搭建分布式爬虫,需要用到scrapy,下面是安装步骤一、配置环境1、下载Anaconda安装包 下载地址http://www.continuum.io/downloads#all2、找到安装包,并将安装移动到/opt文件夹下 解压缩安装sh Anaconda-2.3.0-Linux-x86_64.sh 3、下载pip安装包 下载地址https://pypi.python.or

2015-09-22 13:29:34 1464

原创 redis的启动与停止 可执行文件

编译好的bin文件位于源码的src的目录下,均以redis-xxx命名。其中: 可执行的2进制文件共有5个: redis-benchmark #性能测试工具 redis-check-aof #aof文件修复工具 redis-check-dump #rdb文件检查工具 redis-cli #命令行客户端 redis-server #redis服务器

2015-09-17 21:03:36 540

转载 scrapy在爬取网页时使用随机user-agent方法

转载 默认情况下scrapy采集时只能使用一种user-agent,这样容易被网站屏蔽,下面的代码可以从预先定义的user-agent的列表中随机选择一个来采集不同的页面 在settings.py中添加以下代码DOWNLOADER_MIDDLEWARES = { 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMid

2015-09-16 20:58:15 8283

转载 linux crontab 定时执行计划命令

转载 Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。另外, 由于使用者自己也可以设置计划任务,所以, Linux 系统也提供了使用者控制计划任务的命令 :crontab 命令。 一、crond简介 crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会

2015-09-16 20:31:54 552

原创 raise KeyError("Spider not found: {}".format(spider_name)) KeyError: 'Spider not found: novelspider'

>>>runfile('D:/python/novelspider/main.py', wdir='D:/python/novelspider')Reloaded modules: novelspider.items, novelspider, novelspider.spiders, novelspider.settings, novelspider.spiders.novspider2015

2015-09-15 22:23:45 9303 5

原创 ImportError: No module named items

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile execf

2015-09-15 22:00:41 5695

原创 Python 爬虫中遇到的反爬虫问题

源网站一般会有下面几种限制 1、一定时间内单个IP访问次数,一个正常用户访问网站,除非是随意的点着玩,否则不会在一段持续时间内过快访问一个网站,持续时间也不会太长,我们可以采用大量不规则代理ip形成一个线程池,随机从代理池中选择代理,模拟访问。代理有两种,透明代理和匿名代理。2、一定时间内单个账号访问次数,如果一个人一天24小时都在访问一个数据接口,而且速度非常快,那就有可能是机器人。我们可以采用

2015-09-13 22:25:09 2958

原创 Python 爬虫 urllib2异常处理

异常处理1、当我们调用urllib2.urlopen的时候不会总是这么顺利,就像浏览器打开url时有时也会报 错,所以就需要我们有应对异常的处理。说到异常,我们先来了解返回的response对象的 几个常用的方法: geturl() — 返回检索的URL资源,这个是返回的真正url,通常是用来鉴定是否重定向的 info() — 返回页面的原信息就像一个字段的对象, 如headers,它以mime

2015-09-12 20:35:14 2055

原创 Python 爬虫 多线程爬取百度贴吧内容,并将内容存到本地

功能: 1、爬取百度贴吧内容: 回帖时间 回帖内容 回帖人 2、通过xpath来提取属性,并将提取的属性写入到txt文件中 3、多线程实现 下面是代码:# -*- coding: utf-8 -*-"""Created on Fri Sep 11 22:03:40 2015@author: wt"""from lxml import etreefrom

2015-09-12 13:02:13 1310 2

原创 Python 爬虫 raise self._value IndexError: list index out of range

Traceback (most recent call last): File "D:\Program Files (x86)\JetBrains\PyCharm Educational Edition 1.0.1\helpers\pydev\pydev_run_in_console.py", line 66, in <module> globals = run_file(file, N

2015-09-12 12:54:30 4910 1

转载 python 标准库urllib2的使用细节

转载Python标准库中有很多实用的工具类,但在具体使用时,标准文档上对使用细节描述的并不清楚,比如urllib2这个HTTP客户端库。这里总结了一些urllib2库的使用细节。proxy的设置Timeout设置在HTTP Request中加入特定的headerredirectcookie使用HTTP的PUT和DELETE方法遇到HTTP的返回码Debug Log1. proxy的

2015-09-11 00:10:46 534

原创 常见Python异常

AssertionError assert(断言)语句失败AttributeError 试图访问一个对象没有的树形,比如foo.x,但是foo没有属性xIOError 输入/输出异常;基本上是无法打开文件ImportError 无法引入模块或

2015-09-10 20:53:34 961

原创 爬虫 代理问题

1Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile exec

2015-09-09 17:00:56 1787

原创 scrapy KeyError: 'Spider not found: doubanmovie' FAQ

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\anzhuang\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 682, in runfile execf

2015-09-09 10:27:23 5535

转载 python 网络爬虫开源框架scrapy

转载介绍:所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓

2015-09-09 09:58:23 826

原创 python error: [Errno 10054]

data = self._sock.recv(self._rbufsize) error: [Errno 10054]编写爬虫时,运行代码出现了如下的错误, 对一个网站使用大量的urlopen()操作,会被那个网站认为攻击行为,网站会把你封了,就有不允许下载的情况,导致urlopen()后,request.read()一直卡死在那,不能继续下去,最后会抛出这个异常。即使添加了useragent,

2015-09-08 19:03:42 10267 1

原创 python 多线程

创建ThreadFunc类和创建Thread对象,来实现多线程。 创建新线程的时候,Thread对象会调用我们的TreadFunc对象,这是会用到一个特殊的函数__call__()。由于有一个参数的元组,这时要在代码中使用apply()函数。# -*- coding: utf-8 -*-"""Created on Tue Sep 08 15:04:14 2015@author: wt"""i

2015-09-08 15:38:50 419

原创 python 爬虫获取网站信息(二)

爬取网站:http://www.xici.net.co/nn 伪代码的功能是,爬取网页上的数据,通过正则表达式,对需要的数据进行提取,并将这些数据插入到数据中。 在爬取的过程中遇到了两个问题,让我一直很头疼一、之前网站还可以正常提取,但后来可能用爬虫爬取的次数多了,网站可能进行了反爬虫修改,这也在程序中有所体现。这个问题纠结了好久。二、问题_mysql_exceptions.Operationa

2015-09-04 22:04:40 1287

原创 python 错误集

AttributeError: ‘NoneType’ object has no attribute ‘findAll’在网上了找了好多,一直找不到问题出现在哪,后来把程序删除大部分,只留开头的部分,一点一点的测试,才找到问题,原来,网站设置了反爬虫,不能被爬了,所以修改程序后,就可以了。 修改见下:headers = {'User-Agent':'Mozilla/5.0 (Windows NT

2015-09-04 09:54:42 686

原创 python 爬虫获取网站信息(一)

爬取网站:http://www.xici.net.co/nn 获取网络代理,将代理写入本地文件,并保存import requestsfrom bs4 import BeautifulSoup#import MySQLdb#import MySQLdb.cursorsimport sysreload(sys)sys.setdefaultencoding('utf8')proxy_inf

2015-09-03 19:45:57 1755

原创 python 爬虫

User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36爬虫会用到上述的信息,而上述信息相当于一个面具,让网站误以为你的爬虫是一个浏览器访问。

2015-09-01 20:54:33 551

原创 python bug

bug1UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)这是由于Python编码格式的原因,在导入包的后面添加下面的语句sys.setdefaultencoding(‘utf8’)设置默认编码格式为utf8bug2UnicodeEncodeError

2015-09-01 12:16:33 871

原创 java file 删除目录下无用的文件

问题是这样的,在E:/desktop/1文件夹下有很多log文件,但有很多log文件包含了无用的信息,需要对这些文件进行删除处理。 具体代码实现:import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;public class ProcessM

2015-08-22 20:57:36 706

原创 java readLine

readLine在遇到 \r,\n,\r\n 这三种情况,才会返回,继续读下一行。 Windows下txt文档是’\r\n’来换行的, 有的txt文档中一行会有很多\n,但在显示时,仍然表示一行。但在使用java程序一行一行的读取文档时,readLine()只要遇到\n都会结束这一行的读取。

2015-08-22 11:33:56 626

原创 FileFilter和FilenameFilter的区别

FileFilterjava FileFilter FileFilter与它的前身FilenameFilter唯一不同的是,FileFilter提供文件对象的访问方法。而FilenameFilter是按照目录和文件名的方式来工作的。FileFilterboolean accept(File file)FilenameFilterboolean accept(File directory, St

2015-08-21 21:21:38 4158

原创 windows 下安装mongdb

1、官网上下载mongdb的安装包官网下载地址上面会有提示一般是下载msi,见下2、安装安装后在文件夹中显示的结果如下配置环境变量3、测试是否安装成功打开命令行,输入mongo回车,如果能看到如图所示信息,表示mongodb安装成功和系统变量设置成功。出现上一步的原因是因为mongodb的后台程序还没有启动,输入命令 mongod启动数据库的后台服务。结果显示C:\data\db\ not fou

2015-07-28 20:13:36 586

原创 java多线程

一个线程具有如下四种状态 1、新状态:线程已被创建但尚未执行 2、可执行状态:线程可以执行,但不一定正在执行。CPU时间随时可能被分配给该线程,从而使得它执行。 3、死亡状态:正常情况下,run()方法返回使得线程死亡。调用java.lang.Thread类中的Stop()或destroy()方法亦有同样效果,但不推荐使用这两种方法,前者会产生异常,后者是强制终止,但不会释放锁。 4、阻塞

2015-07-28 09:47:59 359

原创 如何创建一个简单的数据库

一、环境centos7 mariadb首先,机器上,或者服务器上安装有mariadb。1、SQL概念SQL是结构化查询语言(Structure Query Language)的缩写,它使用的是关系模型的数据库应用语言。2、SQL分类SQL语句主要可以划分为3个类别DDL (Data Definition Languages)语句DML (Data Manipulation Languages)

2015-07-28 09:44:40 1073

原创 centos7 mariadb ERROR 1045 (28000): Access denied for user root@localhost (using password: NO)

现在情况是这样的,将备份的数据导入到数据库里面,插入数据库是用的是mysql,操作系统是centos6.5,而备份的数据往数据库插用的是mariadb,操作系统是centos7。在centos7出现各种问题,有时候新不一定是最好的。安装mariadb是默认的,打开命令行窗口,直接输入mysql,就可以。之前没有注意到root下的磁盘空间,插到一半,空间满了,可能数据太大了,40多个G。满了,把之前默

2015-07-28 09:43:27 4966

原创 Apache-nutch-1.10 安装笔记(二)

vi schema.xml "content" type="text" stored="true" indexed="true"/>将stroed的值由false改为truesolr启动需要以下过程:获取SolrHome:分别先后通过JNDI,System property,default directory三种方式尝试获取实例化启动过程中使用的类加载器SolrResour

2015-07-28 09:41:06 840

原创 桥接 去机房解决的问题

桥接 去机房解决的问题通过vnc远程登录服务器,执行这条指令,service network restart 就出现了连不上服务器,最后还得去机房直接对服务器操作才解决问题。 实际上还是桥接的问题。所以这是桥接,要注意!!!1、chkconfig NetworkManager offservice NetworkManager stop重启网络servic

2015-07-28 09:38:17 631

原创 Windows下Python安装MySQLdb

1、下载相应版本的MySQLdb2、测试是否安装成功在命令行中输入import MySQLdb3、测试连接数据库import MySQLdbconn= MySQLdb.connect(host='10.10.21.21', user='root', passwd='123456', db='youku', port=3306)cur=

2015-07-28 09:36:28 532

原创 MySQL 模糊查询

MySQL模糊查询四种用法1、%%表示任意0个或多个字符。可匹配任意类型和长度的字符,有些情况若是中文,请使用两个百分号(%%)表示。 比如`select * from tablename where columnname like '%ab三%'; 另外,如果需要找出columnname中既有”abc三”又有”dac我”的记录,可以使用and条件select * from tab

2015-07-28 09:36:27 518

系统架构师历年真题及答案2014--2017

软考高级系统架构师历年真题。软考高级系统架构师考前必练。2014-2017年系统架构设计师考试的所有真题,对试题进行详细的分析与解答。

2018-09-27

FileFilter实例,并实现文件的拷贝

FileFilter实例,搜索文件夹下特定的文件,并对这些文件进行提取,将文件拷贝到另一文件夹下

2015-08-21

简单java爬虫程序

爬取youku网页上内容,并进行得到的结果进行过滤.

2015-08-20

正则表达式构造

了解了构造集,掌握了模式匹配的原则和方法。

2015-08-20

Python-redis

Python连接redis的模块,连接redis时,需导入redis模块

2015-07-26

mysql-connector-python-2.0.2

使用爬虫抓取数据,需要对数据进行存储,可以使用Python连接数据库的工具包

2015-07-23

爬虫抓取网页数据

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。具体功能是,通过scrapy和Python编程对BBS网站进行抓取数据。

2015-07-23

htmlparser1_6.jar

更新的htmlparser jar包,之前的jar包不能处理NodeList。

2015-07-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除