xmh8023-CSDN博客

原创 presto-cli 查询hive数据报错：Catalog ‘hive‘ does not exist

presto-cli 查询hive数据报错：Catalog 'hive' does not existhive.properties 配置文件：connector.name=hive-hadoop2hive.metastore.uri=thrift://172.1.1.1:9088hive.config.resources=/data/hadoop-2.7.6/etc/hadoop/core-site.xml,/data/hadoop-2.7.6/etc/hadoop/hdfs-site.xml

2020-07-08 10:23:55 3114

原创机器学习系列-K-Means算法

3.K-Means 介绍K-Means ：最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。基本思想：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。3.1 K-Means聚类原理：假设我们提取到原始数据的集合为(X1,X2,„,Xn)，并且每个Xi为d维的向量（d维向量由原始数据的d个特征组成），...

2019-12-27 17:25:47 834

原创机器学习系列-决策树

决策树决策树是一个非常有意思的模型，它的建模思路是尽可能模拟人做决策的过程。因此决策树几乎没有任何抽象，完全通过生成决策规则来解决分类和回归问题。在学术上被称为白盒模型。什么是决策树决策树是一种机器学习算法，类似于平时我们通过选择做决策的过程。它是类似流程图的结构，其中每个内部节点表示一个测试功能，即类似做出决策的过程（动作），每个叶子节点表示一个类标签，即在计算所有特征之后做出的...

2019-12-20 19:54:17 236

原创机器学习系列-逻辑回归学习

逻辑回归介绍逻辑回归假设数据服从伯努利分布，通过极大似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。注意，这里用的是“可能性”，而非数学上的“概率”，l...

2019-12-15 20:25:07 177

原创机器学习系列-梯度下降

梯度下降介绍梯度介绍：在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x,∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0,∂f/∂y0)T。或者▽f(x0,y0)，如果是3个参数的向量梯度，就是(...

2019-12-06 17:13:42 152

原创机器学习系列-线性回归学习

简单线性回归kNN算法属于分类(Classification)，即label为离散的类别型(categorical variable)，如：颜色类别、手机品牌、是否患病等。而简单线性回归是属于回归(regression)，即label为连续数值型(continuous numerical variable)，如：房价、股票价格、降雨量等。什么是简单线性回归？所谓简单，是指只有一个样...

2019-12-01 21:24:49 192

原创机器学习系列-数据归一化和数据处理

数据归一化数据归一化的原因：在实际应用中，样本的不同特征的单位不同，会在求距离时造成很大的影响。比如：在两个样本中肿瘤大小的分别为1cm和5cm，发现时间分别为100天和200天，那么在求距离时，时间差为100、大小差为4，那么其结果会被时间所主导，因为肿瘤大小的差距太小了。但是如果我们把时间用年做单位，0.27年与0.55年的差距又远小于肿瘤大小的差距，结果又会被大小主导了。我们发现，...

2019-11-24 21:48:15 1107

原创机器学习系列-数据拆分和结果评价

1.数据集分类机器学习中的数据分为训练数据集、验证数据集和测试数据集。通常，在训练有监督的机器学习模型的时候，会将数据划分为训练集、验证集合测试集，划分比例一般为0.6:0.2:0.2。对原始数据进行三个集合的划分，是为了能够选出效果（可以理解为准确率）最好的、泛化能力最佳的模型。训练集（Training set）作用是用来拟合模型，通过设置分类器的超参数，训练分类模型。后续结合验...

2019-11-17 20:04:17 2752

原创机器学习系列-KNN

简单概述：k-近邻算法采用测量不同特征值之间的距离方法进行分类。k-近邻算法的一般流程对未知类别属性的数据集中的每个点依次执行以下操作：(1)计算已知类别数据集中的点与当前点之间的距离；(2)按照距离递增次序排序；(3)选取与当前点距离最小的几个点；(4)确定前k个点所在类别的出现频率；(5)返回前k个点出现频率最高的类别作为当前点的预测分类。如下图所示，有两...

2019-11-08 18:45:17 418

spring JavaMailSenderImpl 发送邮件 java

通过spring类，发送邮件信息！包含相应的jar包，有实例

2014-11-21

lucene jar包

优酷视频搜索的技术，用于搜索的框架技术，很好用！

2014-11-11

SSH框架：struts2+spring+hibernate 全部jar包

用于SSH框架的搭建，包含所有SSH需要的jar包和配置文件！！！

2014-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人