Congee小周-CSDN博客

原创【零基础学爬虫】第五章：scrapy数据解析实战（二）

一、项目准备1.创建工程scrapy startproject qiubaiPro2.创建爬虫文件需求：爬取糗事百科中“段子”栏中的数据：https://www.qiushibaike.com/text/，解析作者名称+段子内容。cd qiubaiProscrapy genspider qiubai https://www.qiushibaike.com/text/...

2021-03-04 11:14:14 354 1

一、初识selenium①selenium是基于浏览器自动化的一个模块，便捷的获取网站中动态加载的数据（之前文章中使用的ajax方法，很麻烦），便捷实现模拟登录（自动打开网页，进行一系列的点击操作）。二、selenium使用流程①安装selenium由于我使用的是anaconda，因此自带selenium。②下载一个浏览器的驱动程序（谷歌浏览器）下载路径：http://chromedriver.storage.googleapis.com/index.html驱动程序和浏览器的映

2021-02-21 19:10:32 508

原创【零基础学爬虫】第五章：scrapy框架的使用（一）

一、安装scrapy①我使用anaconda安装，步骤如下：注意：如果手动pip安装，需要安装很多依赖包，所以用anaconda很方便conda install scrapy②输入scrapy，检测安装成功！

2021-02-21 18:49:31 252

原创【零基础学爬虫】第三章：模拟登陆中的cookie存储和代理理论

一、cookie处理当我们爬取网页中的数据时，大多数网站都是需要登陆的，登陆时输入的信息会被存储在cookie中。如果我们想要获取一些登录后才有的信息，我们必须要用到cookie。本文主要讲cookie和代理理论，至于在登陆过程中碰到需要输入验证码的问题在另一篇文章中单独讲解。假设，我们现在想要爬取登陆后个人信息，由于http/https协议特性：无状态，发起的第二次基于个人主页页面请求的时候，服务器端并不知道该此请求是基于登录状态下的请求。因此使用cookie，用来让服务器端记录客户端的相关状态。

2021-02-20 18:55:32 339

原创【零基础学爬虫】第二章：3个xpath实战案例

1.案例1需求：爬取58二手房中的房源信息（标题）https://bj.58.com/ershoufang/发现爬取规律：import requestsfrom lxml import etree# 需求：爬取58二手房中的房源信息if __name__ == "__main__": headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36

2021-02-02 12:43:51 388 3

原创【零基础学爬虫】第二章：聚焦爬虫和数据解析

一、聚焦爬虫1.聚焦爬虫定义聚焦爬虫就是爬取页面中指定的页面内容。2.编码流程： - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储二、数据解析1.数据解析分类①正则②beautifulsoup4③xpath（重点）2.数据解析原理概述：解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 - 1.进行指定标签的定位 - 2.标签或者标签对应的属性中存储的数据值进行提取（解析）...

2021-01-31 10:24:16 635

原创【零基础学爬虫】第一章：了解python中的requests库

前言从今天开始，博主将准别写15篇左右文章带领大家学习爬虫，爬虫其实并不难，坚持本博客的学习就可以上手做项目啦！需要注意的是，建议大家熟练使用Google浏览器，并且学会查看后台源码和抓包程序，这是在学习爬虫中必不可少的过程，如果不会的话可以与我讨论！本文主要介绍一些爬虫的基本概念，并教大家学会编写最简单的爬虫程序。由于篇幅受限，以总结经验为主，若有问题欢迎在评论区留言讨论！看过的小伙伴们别万关注+点赞+收藏呀！一、爬虫介绍1.什么是爬虫？通俗来说，爬虫就是通过编写程序，模拟浏览器上

2021-01-30 17:32:07 467

原创安装Visual Studio Community 2015（深度学习环境配置基础）

配置深度学习环境的第一步就是要安装Visual Studio，由于我的各种软件、硬件版本对应问题，不能安装最新版的Visual Studio，这里我将演示Visual Studio Community 2015版本的安装过程。Visual Studio官网：https://visualstudio.microsoft.com/zh-hans/卸载Visual Studio的方法：https://docs.microsoft.com/zh-cn/visualstudio/install/uninsta

2020-12-24 15:41:27 2883

原创 Win10下搭建深度学习环境

1.安装CUDA首先，需要选择对应自己NVIDIA驱动版本的cuda，查看自己驱动版本的方式如下：然后打开cmd，然后分别输入如下命令：# 进入该文件夹cd C:\Program Files\NVIDIA Corporation\NVSMI#查看版本nvidia-smi我的版本为391.25...

2020-12-24 14:27:21 259

原创 Python——astroplan库实战之观察夏季大三角（三）

一、问题定义假设我们要使用斯巴鲁（subaru）望远镜观察“夏季大三角”（Altair，Deneb和Vega）。二、定义对象1.首先，定义一个Observer对象，代表subaru望远镜。from astroplan import Observersubaru = Observer.at_site('subaru')ValueError: The number of FixedLocator locations (8), usually from a call to set_ti

2020-12-13 16:49:31 1016 4

原创 Python——astroplan库入门实例（二）

1.class astropy.FixedTarget(coord, name=None)①创建一个FixedTarget对象表示天体的对象，例如恒星（如果忽略适当的运动，它们固定在天球上）from astropy.coordinates import SkyCoordfrom astroplan import FixedTargetcoordinates = SkyCoord('19h50m47.6s', '+08d52m12.0s', frame='icrs')altair = Fix

2020-12-13 13:48:20 685

原创 PyCharm中Scientific Mode(科学模式)的运行及退出

PyCharm 在2017.3版本之后加入了Scientific Mode，在科学计算时，可以方便的追踪变量变化等。使用NumPy的时候，系统会提示 use scientific mode,但进去后就运行程序的在控制台中,很麻烦,想改回来的话按下面步骤取反即可. 有时打开了scientific mode时，但文件中引入了numpy 等科学计算包时并没有被自动识别，以scientific mode运行。需要在run方法中手动设置一下。具体步骤：File –> Settings

2020-12-13 13:17:40 3902 1

原创 Python——astroplan库的安装及测试（一）

从今天起，我将撰写一系列关于Python工具包在天文中的使用。本篇将介绍astroplan，它是Astropy的附属软件包。官方文档：Astropy：http://docs.astropy.orgastroplan：http://astroplan.readthedocs.io/1.astroplan的安装首先是astroplan库的安装，这里建议大家统一用Anaconda，因为astroplan库依赖于以下3个库：Numpy(1.10 or later) Astro...

2020-12-13 11:56:29 768 2

原创在集群中执行打包的程MapReduce序

一、程序的打包1.点击View——>Maven2.在Lifecycle -> package上右键，点击Run Maven Build3.Build Success后在target文件夹下会生成一个jar包，将之上传至服务器即可部署二、集群的测试1.启动集群2.把jar包和输入文件放在linux下某个位置3.在hdfs中上传输入文件[root@hadoop101 hadoop-2.7.3]# hdfs dfs -mkdir -p /user/at

2020-12-02 18:54:40 251

原创 Hadoop中MapReduce程序的本地IDEA测试（及org.apache.hadoop.io.nativeio问题）

一、本地测试在IDEA中进行本地测试，案例有3个类。（其实MapReduce程序都是这3个类：Mapper、Reducer、Driver）1.run——>Edit Configurations2.Create a new configuration3.修改以下内容注意：修改Program arguments时，前面是输入数据的路径，后面是输出数据的路径，输出数据的路径是一个文件夹，这个文件夹不能在程序执行前被创建好，否则会报错4.在Driver类中运行程序当在D

2020-12-02 16:46:44 1637

原创 Anaconda安装&创建虚拟环境&Pycharm

目录一、Anaconda的安装二、创建虚拟环境三、设置镜像一、Anaconda的安装傻瓜式安装教程二、创建虚拟环境在anaconda prompt下输入命令：1.安装新环境zzy_python37是自定义的环境名，3.7是python的版本conda create -n env_name python=X.X比如：conda create -n zzy_python37 python=3.72.复制某个虚拟环境conda create --name n

2020-11-26 17:03:19 767 1

原创 Spark完全分布式搭建（On Yarn）

一、修改配置文件1.yarn-site.xml[root@hadoop101 ~]# cd /usr/local/hadoop/hadoop-2.7.3/etc/hadoop/ <property> <name>yarn.nodemanager.pmem-check-enabled</nam

2020-11-24 00:18:47 2152

原创 Hadoop之编写集群分发脚本

目录1.scp 安全拷贝2.rsync远程同步工具3.xsync集群分发脚本（名字可以随便起）我们在搭建Hadoop完全分布式集群的过程中，要修改很多配置文件或者是安装很多软件，在这个过程中，如果集群数量很大，我们不能把每个节点都编辑一遍，这样既费时又容易出错。因此本文将讲解一个集群分发脚本，只要在一个节点编辑好，再通过分发脚本发送给其他节点就可以了。（注意：这里因为xsync脚本代码的问题，我把主机名hadoop01、hadoop03和hadoop04分别改成hadoop101、ha.

2020-11-23 22:16:42 591

原创 Linux下Hadoop集群设置SSH免密登录

目录1.检查SSH2.进入.ssh文件3.生成公钥和私钥4.在hadoop01上配置各个节点的免密登录5.在hadoop03上配置各个节点的免密登录1.检查SSH输入如下命令，以检查每个虚拟机上是否安装了ssh和启动了ssh服务。rpm -qa | grep ssh如图所示则表示已经安装了。如果没有安装，输入以下命令：yum -y install openssh openssh-server openssh-clients2.进入.ssh文件在

2020-11-23 14:03:31 1327 2

原创 Linux下CentOS搭建Hadoop分布式全过程（史上超全大合集！）

目录一、VMware下安装有图形界面的CentOS7系统二、Linux下JDK的安装三、Linux下防火墙的关闭与开启四、window下配置hosts文件，使虚拟机主机名与IP地址映射五、Hadoop2.7.3搭建伪分布式集群六、Hadoop2.7.3配置Yarn资源管理器七、Hadoop配置Web端历史服务器八、Hadoop配置Web端日志九、Linux下虚拟机的克隆（CentOS为例）十、CentOS下搭建Hadoop完全分布式十一、Hadoop完全分布式的集

2020-11-23 13:32:03 644

原创 Hadoop完全分布式的集群启动与停止

1.配置slaves（每个节点都这么做）[root@hadoop01 ~]# vim /usr/local/hadoop/hadoop-2.7.3/etc/hadoop/slaves默认是localhost，把它删掉，写上自己的节点。然后不要有空格或者空行！！hadoop01hadoop03hadoop042.退出进程（由于我上篇文章单节点启动，没有退出，因此我这里退出一下，没有按照我的步骤的可忽略不计）hadoop01：[root@hadoop01 hadoop-

2020-11-23 01:11:38 1694

原创 CentOS下Hadoop完全分布式集群配置与单点启动测试

一、配置集群 hadoop01 hadoop03 hadoop04 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager Resou...

2020-11-22 22:31:53 360 1

原创 Linux下虚拟机的克隆（CentOS为例）

本文中，将讲解如何克隆一个虚拟机，及在克隆的过程中需要的注意事项，此篇也为了后续搭建完整的Hadoop+Spark集群做准备

2020-11-22 19:48:53 4353 1

原创 CAJ如何转换成PDF（科研必备！！）

大家一定都为CAJ如何转换成PDF感到苦恼，因为CAJ文件不好用，所以这里介绍一种科研必备的CAJ转PDF技巧，希望大家学会的同时点个关注和赞呀！1.点击左上角“打开”——>“打印”2.选择导出为PDF，点击“确定”3.选择保存路径4.等待导出5.完成...

2020-11-21 20:50:22 4382 4

原创 Win10环境下Latex2020安装教程

Latex是一款排版神器，但是它的使用需要先配置环境。Windows 用户推荐使用：Tex live + Tex studio（一款很好的编辑器）。下面详细介绍如何安装并使用Latex。一、Tex live1.下载texlive2020直接上清华的镜像资源：https://mirrors.tuna.tsinghua.edu.cn/CTAN/systems/texlive/Images/，点击texlive2020.iso2.解压该文件3.点击install-tl-windo...

2020-11-07 10:13:29 4165 46

原创 VMware下安装有图形界面的CentOS7系统（最新版特别全，必看！！）

注意事项：1.本篇将在VMware15.5Pro下安装有图形界面的CentOS7.4系统，桌面采用了GNOME桌面，特别全，初学者安装必看文章！！2.在之前我还写过一篇无图形界面的安装虚拟机的步骤，有兴趣的可以去翻一下我之前的文章。3.我的资源下载中有word版完整的安装步骤，有需要的可以去下载。4.采坑不易，希望走过路过点个关注和赞！5.如果需要安装包，请在评论区给我留言，谢谢！安装步骤如下：1.点击“创建新的虚拟机”。 ...

2020-10-28 17:28:50 2204

原创 Hadoop配置Web端日志

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。配置完成后，可以点开下图的logs。开启日志聚集功能具体步骤如下：1.先关闭NodeManager 、ResourceManager和HistoryManager[root@hadoop01 hadoop-2.7.3]# .

2020-10-18 23:03:06 557

原创 Hadoop配置Web端历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：1. 配置mapred-site.xml<property><name>mapreduce.jobhistory.address</name><value>hadoop01:10020</value></property><property&g

2020-10-18 22:42:09 440

原创 Hadoop2.7.3配置Yarn资源管理器

接着上一篇文章（搭建伪分布式），本文讲述如何配置Yarn，并对其进行功能和性能测试。执行步骤1.配置集群(a)配置yarn-env.sh配置一下JAVA_HOME （b）配置yarn-site.xml...

2020-10-18 22:19:32 572

原创 Hadoop2.7.3搭建伪分布式集群

修改core-site.xml文件<property><name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value></property><property> <name>had

2020-10-18 12:47:31 479

原创 Linux下防火墙的关闭与开启

CentOS7 的防火墙配置跟以前版本有很大区别，CentOS7这个版本的防火墙默认使用的是firewall，与之前的版本使用iptables不一样。1.查看防火墙状态firewall-cmd --state 2.停止firewallsystemctl stop firewalld.service ...

2020-10-12 18:32:22 462

原创 window下配置hosts文件，使虚拟机主机名与IP地址映射

1.点击此路径：C:\Windows\System32\drivers\etc 2.找到hosts并修改因为不能直接打开hosts进行更改，所以将hosts文件复制到桌面（比较方便），然后打开hosts文件，添加内容。 3.然后将写好的hosts文件复制到原先的路径下，替换原文件。4.尝试ping虚拟机的主机名，成功 ...

2020-10-11 21:42:26 27199 2

原创 Linux卸载系统自带Openjdk，并安装新的jdk

注意：本文使用的是VMware15.5Pro安装的linux CentOS7.4系统，安装的jdk版本是 jdk1.8.0_2411.先查询系统自带的JDK版本，使用语句：rpm -qa|grep java 发现如下目录，要删除这里第1、3、6、7行java-1.8.0-openjdk-headless-1.8.0.131-11.b12.el7.x86_64python-javapackages-3.4.1-11.el7.noarchjava-1.7.0-openjdk-1.7.0...

2020-10-11 20:52:54 772

原创【Leedcode】经典习题分析（2）

本篇难度：简答习题一：有效的括号题目：给定一个只包括 '('，')'，'{'，'}'，'['，']'的字符串，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例：输入: "{[]}"输出: true解题思路：本题用到了数据结构中栈的思想，规则很简单。创建一个栈stack存储左括号，碰到右括号时候，弹出stack的顶端元素看看是否与该右括号匹配。class Solution.

2020-08-19 21:38:41 170

原创【Leedcode】经典习题分析（1）

今后我将会做Leedcode专题，将我做题的分析和代码记录下来。所有题目都来源于https://leetcode-cn.com/problems/two-sum。所有的语言都用python编写。本篇难度：简答题目：1.给定一个整数数组 nums和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素不能使用两遍。示例：给定 nums = [2, 7, 11, 15], target = 9...

2020-08-19 12:09:42 226

原创 Pygal绘图——可缩放的矢量图

上一篇文章，我们介绍了matplotlib绘图库，今天我们介绍另一个常用的可视化包——Pygal。Pygal可以用来生成可缩放的矢量图形文件。它们可以在任何设备上自动缩放，来适合观看者的屏幕。它是以在线的方式生成的图表，即网页。

2020-08-15 17:41:53 484

原创 Matplotlib绘图——玩转Python数据可视化

Python大火的原因之一就是它有规模强大的工具库，今天我们将介绍Python的最热门的几大库之一——Matplotlib。可以发现，它和我们常听到的Matlib很像，都是数学绘图工具，但是由于Python强大的功能，它比Matlib容易上手和使用。

2020-08-13 14:28:06 586

原创【机器学习】——逻辑模型：树模型（决策树）

一、决策树树模型并不只局限于分类场合，而是可用于解决绝大多数机器学习问题，包括排序、概率估计、回归及聚类。参考：https://www.cnblogs.com/muzixi/p/6566803.html

2020-08-07 22:31:58 1407

原创【机器学习】——逻辑模型：概念学习

本节将了解概念学习

2020-08-07 10:53:45 1511

原创【机器学习】——分类：多分类

在上一节中我们已经讨论了如何处理两类分类问题，并对一些常见的任务（评分与排序、类概率估计）进行了总结，本节将讨论两类分类问题的推广，即多分类问题，并简单讨论一下回归问题。多分类问题1.1两种K类分类器假设我们要构造一个K类分类器，有两种方案：一对多（一堆其余）：首先训练K个两类分类器，第一个分类器是将C1和C2...Cn类区分开，第二个分类器是将C2和C1,C3...Cn类区分开，以此类推。在训练第i个分类器的时候，我们将来自Ci类的所有实例看成正例，其余的看作负例。有时候会按照某种固定的顺

2020-08-06 15:21:18 1510

Google人机验证方案及配置文件.zip

文件夹中有3个文件，分别是Google人机验证的解决方案步骤、2个配置文件（Header Editor.crx和HE-GoogleRedirect.json），可以很好地解决Google人机验证的问题。

2021-01-20

天津大学并行计算MPI实验代码（CPP）

本文件包含了天津大学并行计算MPI实验相关代码，内含4个文件：实验代码cpp版、pbs脚本、输入矩阵、PBS脚本

2020-11-21

天津大学并行计算Pthread实验代码（C++）

本文件包含了天津大学并行计算Pthread实验相关代码，内含3个文件：实验代码cpp版、pbs脚本、输入矩阵

2020-10-29

删除Linux中自带的Openjdk并安装新的jdk

由于linux中会自带一些版本的jdk或者Openjdk，我们可以将其删除后，再重新安装自己的jdk

2020-10-12

VMware下搭建CentrOS可视化桌面系统

本文档详细描述了再VMware15.5Pro下，搭建Linux的CentOS7.4系统，并安装了GNOME可视化桌面，对于搭建环境的初学者很有帮助

2020-10-12

hadoop-common-2.2.0-bin-master.zip

hadoop-common-2.2.0-bin-master(包含windows端开发Hadoop和Spark需要的winutils.exe),Windows下IDEA开发Hadoop和Spark程序会报错，原因是因为如果本机操作系统是windows，在程序中使用了hadoop相关的东西，比如写入文件到HDFS，则会遇到异常，把此文件解压放置在任意目录下，然后在环境变量中配置系统变量，命名为HADOOP_HOME 即可。

2020-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人