自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 两种方式对boss直聘招聘岗位的爬取

上次留了个坑,采取两种方式对需要爬取的网站进行数据抓取。首先使用selenium+chromedriver进行抓取,这种方式速度慢,但是可以跳过各种反爬设置,并对各种反爬能够直接以网页的形式进行显示。因此我们可以采取这种方式进行测试,找到其中的反爬规则,然后采用通用爬虫进行爬取。今天下午闲着没事对boss直聘进行了测试one:selenium+chromedriver鉴于代码不长,就直接贴代码...

2019-05-14 22:31:04 4226 6

原创 两种方式爬取拉勾网职位信息的总结

lagou spider

2019-05-12 22:37:06 594 1

原创 DataFrame数据拼接合并的几种方式

pd.merge()merge 是融合的意思实例:a=pd.DataFrame({'a':[1,2,3],'b':[2,3,4]})b=pd.DataFrame({'a':[11,22,33],'c':[22,33,44]})c=pd.merge(a,b) cEmpty DataFrameColumns: [a, b, c]Index: []通过验证发现,a和b的同名列表...

2019-03-31 16:39:32 54020 5

原创 机器学习中的几种数据变换形式

最近在学习到特征工程时编码方式这一块让我迷惑,到底有几种编码方式,在什么情况下适用?参考了几位大佬的博客,加上自己的理解,总结一下,以备以后查看。one-hot编码:one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。机器学习库在机器学习中常用于文本分类。缺点是只能对数据类型的字段分...

2019-03-31 14:05:50 2361 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除