自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wuyangcc的博客

人间辛苦,来了便珍惜

  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 Scrpay-动态页面爬取

Scrapy 使用2.0动态页面处理Scrapy发起Request后,返回的response中往往包含了结果。如今,越来越多的网页变为经过JavaScript渲染的页面,Scrapy可以和Selenium或者Pyppeteer这类库融合使用来实线渲染页面的抓取。案例:实例网站: https://dynamic5.scrape.center/该示例网站带分页功能,只需要在URL上加上/page/页码就可以跳转到下一页。新建项目:scrapy startproject scrapypyppetee

2021-04-11 20:10:17 313

原创 Scrapy小案例

Scrapy小案例创建项目:scrapy startproject TXmoviescd TXmoviesscrapy genspider txms v.qq.com修改setting:ROBOTSTXT_OBEY = False DOWNLOAD_DELAY = 1 DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

2021-03-28 20:43:04 301

原创 2.0 Spider的用法

2.0 Spider的用法2.0.1 Spider 运行流程在实现 Scrapy 爬虫项目时,最核心的类便是 Spider 类了,它定义了如何爬取某个网站的流程和解析方式。简单来讲,Spider 要做的事就是如下两件:定义爬取网站的动作;分析爬取下来的网页。对于 Spider 类来说,整个爬取循环如下所述。​ 以初始的 URL 初始化 Request,并设置回调函数。 当该 Request 成功请求并返回时,将生成 Response,并作为参数传给该回调函数。​ 在回调函数内分

2021-03-21 21:34:29 369

原创 Scrapy初体验

Scrapy初体验1. scrapy介绍1.0 介绍​ Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。1.1 框架它可以分为如下的几个部分。Engine(引擎):用来处理整个系统的数据流处理、触发事务,是整个框架的核心。Item(项目):定义了爬取结果的数据结构,爬取的数据会被赋值成该对象。Scheduler(调度器)

2021-03-14 13:36:11 195 1

原创 oracle存储过程nodatafound

使用Oracle函数时,需要判断条件,存在着在一定条件下,无数据的情况,这时可以使用如下的方式解决select case when exists(select 1 from t_test c where c.name = ‘zhangsan’and c.age = 23 ) then 1 else 0 endfrom dual;...

2020-06-29 16:47:59 1143

原创 Hive入门(三)之高级操作

0.hive高级应用1.Hive数据类型1.1原子数据类型数据类型长度备注Tinyint1字节的有符号整数-128~127SmallInt1字节的有符号整数-32768~32767Int4字节的有符号整数-2147483648~()+1BigInt8字节的有符号整数Boolean布尔类型true or falseFloa...

2020-04-20 11:01:42 198

原创 hive入门(二)之HQL的使用

0.Hive的使用1.hive的基本使用1.创建库:create database if not exists mydb;2.查看库:show databases;3.切换数据库:use mydb;4.创建表:create table if not exists tbname(id string,name string);create table tbname(id String,na...

2020-04-20 09:32:42 272

原创 Mysql学习笔记

1.什么是mysql1.1 什么是数据库(DataBase DB)利用数据结构存储数据的仓库1.2 数据库管理系统(DBMS)操纵和管理数据库的一套系统软件1.3 数据库管理系统分类关系型的数据库管理系统(RDBMS)处理结构化数据(行和列)Oracle: oracle公司,大型的分布式RDBMSMysql: 开源免费sqlserver/db2非关系型...

2020-04-19 15:12:12 386

原创 Hadoop之HDFS、MapReduce

0.大纲1.Hadoop简介Hadoop是Apache旗下的一套开源软件平台。利用服务器集群,对海量数据进行分布式处理。核心组件:​ 1.Common(基础组件)JNDI(工具包、RPC框架)和RPC​ 2.HDFS(Hadoop Distributed File System)分布式文件系统​ 3.YARN(Yet Another Resource Negotiator)运算资源调度...

2020-04-18 16:50:59 473

原创 yum update时报错Error Summary解决方法

今天在更新虚拟机内核中,发生一些错误,只得使用yum -y update命令,然而有一台机器报错Error Summary,在网络中查询良久,解决了该问题。file /usr/share/mysql/charsets/README from install of mysql-libs-5.1.73-8.el6_8.x86_64 conflicts with file from package ...

2020-04-18 13:29:50 1888

原创 SparkStreaming编程

0. SparkStreaming流式计算简介SparkStreaming实时处理入门案例SparkStreaming和HDFS整合SparkStreaming与Kafka整合SparkStreaming常见transformation算子SparkStreaming高可用及其优化建议1. 流式计算简介1.1. 流式计算​ 如何去理解流式计算,最形象的例子,就是小明的往水池中...

2020-04-17 14:20:21 466

原创 spark性能调优总结

0.性能调优大纲调优简介开发调优资源调优数据倾斜调优shuffle调优jvm调优1. 调优简介​ ​ 为啥要做调优,上图已经告诉我们答案了~2. 开发调优​ 开发出高质量的代码,从如下几个角度去说明,当然避免使用一些性能比较低的算子,使用一些占用空间比较小的数据结构,使用一些占用体积比较小的序列化的方式等等。2.1. 避免创建重复的RDD...

2020-04-17 14:02:46 370

原创 SparkCore-RDD编程

SparkCore-RDD编程操作0. 大纲Spark程序的执行过程RDD的操作RDD的转换操作共享变量高级排序1. Spark程序执行过程1.1. WordCount案例程序的执行过程1.2. Spark程序执行流程2. RDD的操作​ At a high level, every Spark application consists of a dri...

2020-04-17 13:55:18 233

转载 hive常用函数之窗口函数、分析函数

...

2020-04-15 12:48:59 257

原创 Hive入门(一)

...

2020-04-14 17:30:32 174

转载 经典算法之背包问题(Java版)

问题描述:一个背包的总容量为V,现在有N类物品,第i类物品的重量为weight[i],价值为value[i]那么往该背包里装东西,怎样装才能使得最终包内物品的总价值最大。这里装物品主要由三种装法:1、0-1背包:每类物品最多只能装一次2、多重背包:每类物品都有个数限制,第i类物品最多可以装num[i]次3、完全背包:每类物品可以无限次装进包内一、0—1背包思路分析:0-1背包问题主...

2020-04-05 21:13:22 395

原创 TCP/IP协议

TCP/IP协议一、计算机网络体系结构分层计算机网络体系结构分层TCP/IP与OSI在分层模块上稍有区别。OSI注重“通信协议必要的功能是什么”,而TCP/IP更强调“在计算机上实现协议应该开发哪些程序”二、TCP/IP基础1、TCP/IP的具体含义TCP/IP是利用IP进行通信时所必须用到的协议群的统称。具体而言,IP与ICMP、TCP或UDP、TELNET或FTP、以及HTTP...

2020-03-28 13:57:04 524

原创 kafka的入门学习

今日大纲Kafka简介Kafka分布式集群安装Kafka-topic操作Kafka-apiKafka和Flume整合案例Kafka架构之道Kafka Leader ElectionKafka高性能之道1. Kafka简介1.1. 消息队列1.1.1. 为甚要有消息队列1.1.2. 消息队列消息 Message网络中的两台计算机或者两个通讯设备之间传递的数据。例如说...

2020-03-28 12:45:54 421

原创 hive基础和加强

...

2020-03-14 14:09:39 125

原创 hive面试题部分整理

目录1.H...

2020-03-14 13:31:41 446

原创 关系型数据库的事务之四大特性

数据库系统必须维护事务的以下特性(简称ACID):  原子性(Atomicity)  一致性(Consistency)  隔离性(Isolation)  持久性(Durability)⑴ 原子性(Atomicity)  原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果...

2020-03-11 12:51:53 5611

转载 数据倾斜原因和解决方案

 ...

2020-03-11 12:20:17 2224

转载 JVM原理集锦

1:什么是JVMJVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息,使Java程序只需生成在Java虚拟机上运行的目标代码(字节码)...

2020-03-10 16:35:30 44

原创 JVM-内存模型

运行时数据区...

2020-03-10 16:30:44 65

原创 HDFS原理解析

...

2020-02-21 11:55:05 173

原创 MapReduce原理

...

2020-02-21 11:53:42 176

原创 正则表达式java版

...

2020-02-21 11:35:42 184

SecureCRT-8.1.4.zip免去官网下载缓慢的烦恼,在这里下载吧

亲测可用的必备资源,运用ssh连接虚拟机和服务器的必要工具 1.解压后安装scrt81-x86.exe 2.进入目录- 3.根据readme.txt提示操作

2020-05-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除