- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 Python-selenium抓取动态页面 (2) -- 基本使用
本文介绍python-selenium库的最基本的使用方法。我们实现一个非常简单的爬虫,抓取网页中的列表,模拟按钮点击,并抓取修改后的内容。代码示例网页是从w3schools上找的,在这个链接的基础上插入了一个列表。把网页内容保存到/root/workspace/test_page.html。<!DOCTYPE html><html><body>...
2020-01-03 17:15:24 287
原创 Python-selenium抓取动态页面 (1) -- Ubuntu下的安装
在开发网络爬虫时,我们常常需要面对动态页面。例如,网页中的JavaScript脚本会在网页加载后再修改、填充网页内容;或者需要在网页上进行交互(如登录,点击按钮、链接等’)才能获取到需要的内容。我们可以使用python-selenium库来运行JavaScript程序和模拟交互。本文介绍在Ubuntu操作系统上安装Chrome webdriver和Python Selenium库。1. 安...
2020-01-01 17:18:19 276
原创 Hadoop 3.2 集群搭建
最近两个月在做一个日志分析项目,先前创建了一台虚拟机,挂载了1.6TB block storage,不够用了。恰好另一个OpenStack集群上空闲出大约12TB存储,以及一些CPU和RAM资源,就干脆搭一套Hadoop/HDFS集群吧,将来如果需要上Spark,可以直接在此基础上安装。目录0. 参考资料1. 环境准备1.1 虚拟机1.2 免IP、默认key-pair登录...
2019-12-30 18:34:06 3716
非常强大的C++矩阵类库Newmat10D,包含很多数值算法
2012-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人