自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (10)
  • 收藏
  • 关注

原创 机器学习回归与聚类算法

机器学习回归与聚类算法线性回归欠拟合与过拟合岭回归分类算法:逻辑回归模型保存与加载无监督学习 K-means算法4.1 线性回归回归问题: 目标值 - 连续型的数据4.1.1 线性回归的原理 2 什么是线性回归 函数关系 特征值和目标值 线型模型 线性关系 y = w1x1 + w2x2 + w3x3 + …… + wnxn + b = wTx + b 数据挖掘基础

2021-12-27 13:05:52 215

原创 机器学习分类算法

机器学习分类算法目标值:类别1、sklearn转换器和预估器2、KNN算法3、模型选择与调优4、朴素贝叶斯算法5、决策树6、随机森林3.1 sklearn转换器和估计器转换器估计器(estimator)3.1.1 转换器 - 特征工程的父类 1 实例化 (实例化的是一个转换器类(Transformer)) 2 调用fit_transform(对于文档建立分类词频矩阵,不能同时调用) 标准化: (x - mean) / std

2021-12-26 23:55:34 396

原创 机器学习概述与特征工程

机器学习概述与特征工程1.思维导图2.机器学习概述2.1 人工智能概述 达特茅斯会议-人工智能的起点 机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来2.1.2 机器学习、深度学习能做些什么 传统预测 图像识别 自然语言处理2.2 什么是机器学习 数据 模型 预测 从历史数据当中获得规律?这些历史数据是怎么的格式?2.2.3 数据集构成 特征值 +

2021-12-26 15:04:21 189

原创 Python在linux下与windows下的一些区别

Python在linux下与windows下的一些区别1.托盘显示linux下需要安装需要sudo apt install libappindicator12.模块导入会找不到路径import syssys.path.append("…/")3.设置按钮点击时会在带边框需要outline=none;...

2020-03-19 19:57:09 3040

原创 Python Logging 模块

Python Logging 模块1.Logging 模块介绍介绍连接: https://www.jianshu.com/p/7b5e4752932ePython 中的 logging 模块可以让你跟踪代码运行时的事件,当程序崩溃时可以查看日志并且发现是什么引发了错误。logging模块用于便捷记录日志且线程安全。Log信息有内置的层级——调(debugging)、信息(inform...

2020-02-27 12:51:46 234

原创 pyqt5事件与鼠标事件

pyqt5事件与鼠标事件一、每个事件都被封装成相应的类:pyqt中,每个事件类型都被封装成相应的事件类,如鼠标事件为QMouseEvent,键盘事件为QKeyEvent等。而它们的基类是QEvent。二、基类QEvent的几个重要方法:accept() 表示事件已处理,不需要向父窗口传播ignore()表示事件未处理,继续向父窗口传播ftype()返回事件类型,如QtC...

2020-02-26 11:47:41 12181

原创 大数据技术之Kafka

大数据技术之Kafka第 1 章 Kafka 概述1.1 定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2 消息队列1.2.1 传统消息队列的应用场景使用消息队列的好处1)解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)可恢复性系统的一部分组件失效时,不会影响到...

2020-02-15 11:25:43 896 1

原创 大数据技术之Flume

大数据技术之Flume第 1 章 Flume 概述1.1 Flume 定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。1.2 Flume 基础架构Flume 组成架构如图所示:下面我们来详细介绍一下 Flume 架构中的组件:1.2.1 AgentAgent 是一个 JVM ...

2020-02-14 14:18:57 264

原创 大数据技术之Zookeeper

大数据技术之Zookeeper第1章 Zookeeper入门1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。1.2 特点1.3 数据结构1.4 应用场景提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。1.5 下载地址1.官网首页:https://zookeeper.apache.o...

2020-02-13 15:40:51 325

原创 大数据技术之Sqoop

大数据技术之Sqoop第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为...

2020-02-13 12:38:00 350

原创 大数据技术之Hive(Hive数据类型)

大数据技术之Hive(Hive数据类型)Hive数据类型1.1 基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。1.2 集合数据类型Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而S...

2020-02-12 12:37:31 492

原创 大数据技术之Hive(Hive命令---DML数据操作与基本查询)

大数据技术之Hive(Hive命令)1.DML数据操作1.1 数据导入1.1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath ‘/opt/module/datas/student.txt’ overwrite | into table student [partition (partcol1=val1,…)];(1)...

2020-02-11 16:58:05 337

原创 大数据技术之Hive(Hive命令---DDL数据定义)

大数据技术之Hive(Hive命令)1. DDL数据定义1.1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) create database i...

2020-02-11 15:40:44 251

原创 MySQL数据库命令

MySQL数据库1.1什么是MySQL数据库MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL 是开源的,所以你不需要支付额外的费用。MySQL 支持大型的数据库。可以处理拥有上千...

2020-02-09 20:22:44 456

原创 大数据技术之Hive(Hive搭建)

大数据技术之Hive(Hive搭建)1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Y...

2020-02-06 17:58:05 277

原创 NameNode、SecondaryNameNode和DataNode工作机制

NameNode、SecondaryNameNode和DataNode工作机制1.NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元...

2020-02-05 12:53:00 213

原创 大数据技术之Hadoop(YARN的搭建)与SHELL脚本(集群分发脚本xsync)

大数据技术之Hadoop(YARN的搭建)与SHELL脚本(集群分发脚本xsync)1.YARN的搭建1.1集群部署规划1.2配置YARN1.在配置的hadoop集群中选择hadoop112:进入hadoop目录 cd /usr/local/hadoop/hadoop-2.9.2/etc/hadoop/2.配置文件yarn-env.sh vim yarn...

2020-02-04 21:34:56 710

原创 HDFS的数据流

HDFS的数据流1.1 HDFS写数据流程1.1.1 剖析文件写入HDFS写数据流程,如图所示。1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个D...

2020-02-04 11:47:52 1579

原创 大数据技术之Hadoop(分布式集群搭建与HDFS命令)

大数据技术之Hadoop(分布式集群搭建与HDFS命令)1.分布式集群搭建1.1集群部署规划1.2集群的搭建1.2.1 创建三台新虚拟机并配置好网络(上篇博客中讲过)1.2.2 创建三个新的hadoop111、hadoop112、hadoop113(注意IP不要一样)1.2.3 三台连接到Xshell(注意:IP名字对应)1.2.4 三台分别下载vim: yum ...

2020-02-03 19:39:59 462

原创 大数据技术之Hadoop(伪分布搭建)

大数据技术之Hadoop(伪分布搭建)1.1 Hadoop是什么?1.2 Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。1. Apache Hadoop官网地址:http://hadoop...

2020-02-02 20:36:54 562

QSS样式控制.emmx

qss样式控制

2020-04-01

大数据技术之Flume.pdf

大数据技术之Flume

2020-02-14

大数据技术之Hive.pdf

大数据技术之Hive大数据技术之Hive大数据技术之Hive大数据技术之Hive大数据技术之Hive大数据技术之Hive

2020-02-11

大数据技术之Hadoop(MapReduce).pdf

大数据技术之Hadoop(MapReduce)

2020-02-05

大数据技术之Hadoop(HDFS).pdf

大数据技术之Hadoop(HDFS)大数据技术之Hadoop(HDFS)大数据技术之Hadoop(HDFS)大数据技术之Hadoop(HDFS)大数据技术之Hadoop(HDFS)大数据技术之Hadoop(HDFS)大数据技术之Hadoop(HDFS)大数据技术之Hadoop(HDFS)大数据技术之Hadoop(HDFS)

2020-02-04

服装识别项目数据集与代码.zip

服装识别项目数据集与代码

2020-01-16

python 安装步骤与环境配置.docx

python 安装步骤与环境配置python

2020-01-16

mysql数据库笔记 - 副本.zip

mysql数据库笔记

2020-01-16

智能RGV动态调度策略.pdf

智能RGV动态调度策略智能

2020-01-16

Xftp_6.0.0119.exe

xftp小插件免费使用

2020-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除