自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (3)
  • 收藏
  • 关注

原创 Python-selenium抓取动态页面 (2) -- 基本使用

本文介绍python-selenium库的最基本的使用方法。我们实现一个非常简单的爬虫,抓取网页中的列表,模拟按钮点击,并抓取修改后的内容。代码示例网页是从w3schools上找的,在这个链接的基础上插入了一个列表。把网页内容保存到/root/workspace/test_page.html。<!DOCTYPE html><html><body&gt...

2020-01-03 17:15:24 287

原创 Python-selenium抓取动态页面 (1) -- Ubuntu下的安装

在开发网络爬虫时,我们常常需要面对动态页面。例如,网页中的JavaScript脚本会在网页加载后再修改、填充网页内容;或者需要在网页上进行交互(如登录,点击按钮、链接等’)才能获取到需要的内容。我们可以使用python-selenium库来运行JavaScript程序和模拟交互。本文介绍在Ubuntu操作系统上安装Chrome webdriver和Python Selenium库。1. 安...

2020-01-01 17:18:19 276

原创 Hadoop 3.2 集群搭建

最近两个月在做一个日志分析项目,先前创建了一台虚拟机,挂载了1.6TB block storage,不够用了。恰好另一个OpenStack集群上空闲出大约12TB存储,以及一些CPU和RAM资源,就干脆搭一套Hadoop/HDFS集群吧,将来如果需要上Spark,可以直接在此基础上安装。目录0. 参考资料1. 环境准备1.1 虚拟机1.2 免IP、默认key-pair登录...

2019-12-30 18:34:06 3716

PCA主成分分析介绍,通俗易懂,最后附带matlab代码

比较通俗的一篇PCA主成分分析的介绍性文章,全英文,但是很容易读懂~~文章最后还附带Matlab的程序代码

2012-03-30

非常强大的C++矩阵类库Newmat10D,包含很多数值算法

国外的一个开源C++矩阵类库,不仅包含矩阵的基本运算,还实现了求解线性方程,奇异值分解,特征值分解,QR分解等数值计算功能

2012-03-02

最大熵模型讲解PPT,很详细

老板从清华大学搞来的他们项目团队讲解最大上模型的ppt,内容很生动,也蛮详细的。内容包括最大熵模型的提出和相关模型推导、特征提取问题。

2011-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除