自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (6)
  • 收藏
  • 关注

原创 随机森林的基础知识学习

@随机森林的预测模型随机森林的基础知识随机森林的模型分为分类模型和回归模型,但是无论是针对分类预测还是连续性型的预测,其本质上都是一个一个的分类(划分区间)进行预测的思想,对于分类模型来说,落在不同的树节点的就意味着是不同的输出,最后可以预测出不同的分类类型,而对于回归模型来说,也实质是相当于每个节点都是有固定的数值的,因此当样本量远远大于我们的树节点的时候就会出现预测的结果相同的情况。业务...

2019-10-29 15:41:29 548

翻译 hive表关联查询,什么情况下会发生数据倾斜,应该如何解决?

**hive表关联查询,什么情况下会发生数据倾斜,应该如何解决?**倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性、建表时考虑不周等原因造成的reduce 上的数据量差异过大。解决方案:(1)参数调节:hive.map.aggr = truehive.groupby.skewindata=true有数据倾斜的时候进行负载...

2019-03-27 18:58:39 1542

原创 文本分析基础知识

@文本处理的方法当下的一些网络文本分析的难点:1)数据是实时动态变化的,比如一些博客、评论、聊天信息等刷新速度特别快,并且数量庞大2)存在这一些短文本的文本数量较少,包含的有效信息也比较小,但是特征集的维数很高,这就导致了很难从中抽取准确的特征来进行文本分类。3)一些新兴的网络词,比如童鞋、屌丝、v587等,包含的文本噪声信息较多。文本的打标即标识出那些比较重要性的关键词概念:词频-...

2019-03-25 21:46:36 1351

Linux系统中vim编辑器的安装和使用

Linux系统中vim编辑器的安装和使用,里面主要是关于安装方法和使用

2018-12-15

数据挖掘算法

主要讲的是关于数据挖掘的一些基本概念和技术 以及一些经典的算法,比较适合初学者

2018-03-29

数据库保护技术

总结的关于数据中如何进行数据库的维护的等一些列的问题

2018-03-29

统计学习导论+基于软件的应用

主要介绍了一些统计学的基本知识概念以及他在软件上的应用分析

2018-03-29

金融大数据分析

主要是讲解关于金融领域的用python技术如何处理在金融领域的一系列的问题

2018-03-11

新一代人工智能发展白皮书(2017

讲述关于近些年来人工智能的技术发展的特征以及未来的更多的领域中的应用,里面有一些数据的展示还有图表。

2018-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除