自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 进程与线程的一些知识

介绍进程、线程的概念、多进程和多线程的区别、python中对多进程和多线程的不同的实现方式。一、进程进程简单地说是一个程序在计算机系统中执行的一个过程,是操作系统资源分配的基本单位,从更深的层面讲,是操作系统的一种抽象。如你在电脑上运行了QQ这个软件,这就是一个进程。二、线程然而,一个程序中往往不止一个逻辑单元,而是存在多个不同导向的代码模块。如,你可以运行QQ一边给一个人传文件一边和另外一个人聊...

2018-04-21 11:21:23 197

原创 scrapy坑一 ValueError('Missing scheme in request url: %s' % self._url)

之前在学习scrapy时曾碰到这样一个错误,如标题所示。查了一下,网上的答案基本上都是说start_urls应该是个list而不是string。但是我不是这个问题。我当时是在爬取的页面中,提取出的url被直接加载到了item中,因此在后面的yield request的时候,url=item['url'],然而这是错的。切记切记,item虽然很像dict,但不能直接当dict用。...

2018-04-12 22:25:27 2834 3

原创 xpath、BeautifulSoup、css_selector、Selector的关系

在学习爬虫的时候,尤其是页面解析的部分,经常会看到标题中的几个名词。在这里简述下它们之间的关系,如果有不对的地方,还请读者指出(如果有人看到的话)。首先是xpath。xpath是用于在xml文档中搜索元素的路径语言。它是一种语言,在页面解析中,用它来表述要提取的元素的位置。那么怎么使用它呢?最基本的,python自带解析页面的lxml库,Selenium的webdriver,以及scrapy中的S...

2018-04-11 21:35:23 1556

原创 安装MySQL-python需要的依赖

如果打算用python与MySQL数据库进行交互,当然是需要安装第三方库MySQL-python的。如果直接用pip安装,通常会报出一个错误:python.h找不到,这是因为有一些依赖没有装上。安装依赖(仅限Ubuntu):apt-get install libmysqlclient-dev libmysqld-dev python-dev python-setuptools。之后安装My...

2018-03-26 06:51:59 4135

原创 第一次在leetcode上做hard级别的题目

今天第一次在LeetCode做hard级别的题目:Median of Two Sorted Arrays.题目大意是这样的:给两个排好序的数组,让找出它们合成一个数组的时候的中位数。数组的长度分别为m,n,要求时间复杂度为O(log(m+n))。本来拿到这个题目,一眼看过去感觉有点熟悉,有点归并排序的影子。如果真是归并排序的话,这已经是最后一步。但是题目要求的时间复杂度是O(log(m+n))

2017-12-17 16:59:06 2707 1

原创 git常用命令

这是一些git的常用命令,仅做查阅之用。不足方家一哂。git init   初始化git仓库git add filename  添加文件,可添加多个,跟在后面即可,用空格分割git commit -m "comment"  将改动提交git remote add origin [email protected]:bigangrybird/leetcode  将本地库与github

2017-12-16 16:58:16 125

原创 hadoop的IO小知识

1、数据的完整性    Hadoop中保证数据的完整性是通过校验和来实现。每512个字节的数据计算一个4字节的校验和,存储开销小于1%。写入数据时将读入的数据的校验和和客户端传入数据的校验和比较,同样读取数据时也要比较,以此来保证数据的完整性。2、压缩压缩是为了节省空间和传输时间,基本上压缩效率高的算法压缩时间长,压缩快的算法效率不高。3、序列化Writable

2017-06-26 10:38:46 197

原创 Call From master/192.168.170.128 to master:8020 failed on connection exception: java.net.ConnectExce

在执行一个Hadoop的文件读写任务是发生这个错误:Call From master/192.168.170.128 to master:8020 failed on connection exception: java.net.ConnectException: Connection。意思大致是无法连接到master的8020端口。该问题造成的主要原因是和Hadoop以及Linux系

2017-06-11 22:45:48 10744 4

原创 Ubuntu14.04的ssh免密码登录

在使用Ubuntu14.04虚拟机搭建集群时,需要设置ssh免密码登录,遇到了2个问题:ssh-server的安装和root的密码。1、ssh-server的安装首先,Ubuntu默认安装了openssh-client,但是没有安装openssh-server,也就是说可以从Ubuntu登录别的机器,但不能被登录。如果需要被登录,就要安装ssh-server。ssh-serve

2017-06-06 22:49:37 1238

原创 知识储备

1、数学《高等数学》 《概率论与数理统计》 《复变函数和积分变换》 《线性代数》 《数值分析》 《信号处理》 《随机信号分析》 《离散数学》 《小波变换》 2、计算机基础《计算机系统基础》《计算机组成原理》《计算机网络》《操作系统教程》3、高级程序语言javapythonscala4、大数据框架

2017-06-04 14:35:43 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除