自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Hadoop: 安装一个单节点集群

Hadoop: 安装一个单节点集群最近准备开始学习hadoop,所以需要自己配置hadoop集群。短期的目标是学会配置hadoop环境(版本3.2.2 为当前的稳定版本),熟悉linux系统(安装版本Centos8.3)以及初步了解虚拟机模拟客户端以及集群的使用。本文的教程都来来自于hadoop的官网,以及个人在安装过程中,所需要补充的知识。hadoop官方文档连接:setting up a single node cluster目的这份文档的目标是展示如何安装以及配置一个单节点集群,这样我们可以快

2021-04-25 17:05:24 168

转载 centos8 配置静态ip

学习hadoop需要配置多个虚拟机的IP,静态ip方便管理1.找到CentOS8网络配置文件 /etc/sysconfig/network-scripts/ifcfg-ens332. 编辑该文件 vi /etc/sysconfig/network-scripts/ifcfg-ens33TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=no#使用静态IPBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIP

2021-04-25 13:54:03 209

原创 Centos 8.3设置初始启动模式

旧修改方式今天安装好了Centos8.3的虚拟机,但是我不想要使用X-windows启动。通过baidu搜索了一番,都是旧的解决方案。如下述: 早期版本修改默认启动方式的办法旧的解决方案首先要编辑 /etc/inittab.当我们使用vi /etc/inittab命令进入该文件的时候,就会发现这个inittab文件已经不再使用了以前的runlevel也不再使用了,而是使用‘targes’。新修改方法使用下面第一个指令,可以查询当前的默认启动方式使用第二个指令,就是设置默认启动方式,TARG

2021-04-21 16:57:32 231

原创 Task 4.爬虫学习

腾讯新闻爬取任务目标:了解ajax加载通过chrome的开发者工具,监控网络请求,并分析用selenium完成爬虫了解ajax加载当我们使用requests抓取页面的时候,可能抓取的页面和看到的页面是不一样的。这是因为我们获取的是服务器发给我们的原html文档,当我们使用游览器来解析这个页面的时候,游览器中的页面则是经过js处理数据后生成的结果。这些数据源可能来自己Ajax,可能包...

2020-04-27 16:51:29 97

原创 Task 3 爬虫学习

3.1 selenium 学习什么是selenium? 一个web应用测试工具。可以起到模拟用户在游览器的操作3.2 ip代理作为用户方,我们自然想去互联网上获取我们想要的信息。但是对于服务端,会面临几种情况:1. 资源库被别人恶意使用,用作商业用途2. 导致服务器压力过大,就是简单的ddos攻击那么服务端就需要识别爬虫:单个ip 短时间内,大规模增多。长时间,有规律的访问。...

2020-04-25 23:40:35 81

原创 Task Two. 爬虫学习

2.1 beautiful库入门1. beautfulsoup基础知识2. 使用beautifulsoup解析HTML页面 * beautiful soup 是一个HTML/XML解析器 * 原理:基于DOM,载入整个文档作解析。 * 优点: - 解析HTML非常简单,API人性化,支持(css选择器,标准库中的解析器以及lxml中的XML解析器) * 缺点:因为要载入整个文档,所以时...

2020-04-23 21:48:34 112

原创 Task One. 爬虫学习

TasK One. 基础知识学习1. 什么是互联网?因特网:遵循一组特定的通信协议族(网络协议族)连接的多个结点(可以是简单的设备,但通常而言是一个网络),组成的一个巨型网络。类似一个巨大的通信系统(类似于物流系统)网络协议族:针对不同的功能,我们需要有不同的通信协议。比如超文本之间的传输,文件的传输等等。这些网络协议们,统称为网络协议族互联网:狭义来说,两台设备之间能相互通信,就可以被称...

2020-04-21 17:10:45 248

原创 DataMining Playground Task 3

学习内容:使用下面模型对数据进行分类(包括:模型构建&调参&性能评估):1)逻辑回归(LR)模型,学习理论并用Task2的特征实践;2)支持向量机(SVM) 模型,学习理论并用Task2的特征实践;3)尝试线上提交结果4)[可选]尝试其他基本模型(不是集成模型哟)尝试了一些模型,由于时间的问题,只有用了训练集和验证集来做实验。没有时间用整个训练集,训练模型并预测模型,...

2019-03-07 17:35:30 94

原创 DataMining Playground Task 2

学习内容对文本特征进行预处理,将文本转成向量表示:1) 学习TF-IDF理论并实践;2) 学习word2vec词向量原理并实践;3)[可选]特征选择&特征构建...

2019-03-05 19:40:34 136

原创 DataMining Playground task 1:

Task 1:下载数据,读取数据,观察数据将训练集拆分为训练集和验证集。要求:数据3-7分,随机种子2019分享自己对数据以及赛题的理解和发现代码:...

2019-03-01 15:54:31 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除