少年阿文-CSDN博客

原创数据倾斜总结

1.什么是数据倾斜数据倾斜就是数据大量集中在一个点使得任务执行缓慢或者失败。2.数据倾斜的表现表现是使得在执行数据处理的时候，绝大部分任务在合理或者较快的时间内完成，而少数一两个任务则非常耗时，进展缓慢，严重的可能会oom（内存溢出）任务失败。3.数据倾斜的原因（1）key分布不均匀；（2）实际业务情况；（3）建表设计不合理；（4）hql语句本身存在倾斜。3.容易出现数据倾斜的情况（1） group by的时候维度过少，使得少数几个维度数量过大；（2）count（distinct)，某

2021-11-17 20:21:18 1293

原创 spark常用语法汇总

spark常用语句汇总从hive表取某列最大日期转换成字符串val date = spark.sql("""select max(dt) as date from db.table""").select("date").collect().map(_(0)).toList(0).toString2.将dataframe插入hive表某个分区df.createOrReplaceTempView("df_tbl")spark.sql("""insert overWrite table table

2021-07-15 17:55:45 1456

原创 lightgbm直方图算法的个人理解

参考[https://blog.csdn.net/anshuai_aw1/article/details/83040541]lightgbm的一大优化是直方图算法，下面介绍下直方图算法的流程。流程在对节点进行训练的过程中，需要将特征值转化为bin_value，在该过程中的bin_value保持不变。整个训练分为4步：对每个节点遍历所有特征；对节点遍历所有特征，为每个特征构建直方图，每个直方图中应该保存该直方图中样本的梯度和和样本数；遍历所有特征，将梯度和和样本数统计进入直方图中；对特征遍

2020-12-06 16:07:46 1271 2

原创 python日期函数处理

import datetime#1. datetime转stringnow = datetime.datetime.now()##datetime.datetime(2020, 11, 19, 21, 25, 14, 153197)now_str = datetime.strftime(now,'%Y-%m-%d %H:%M:%S)##"2020-11-19 21:25:14"print(now)##2020-11-19 21:28:34.303452#2. string转datet.

2020-11-19 23:11:21 608

原创 hive日期函数处理

1. 日期函数unix时间转日期函数：from_unixtime，语法为from_unixtime(bigint unixtime, stringformat)select from_unixtime('1323308943','yyyyMMdd')--201112082. 获取unixtime:current_timestamp()select current_timestamp(from_unixtime())3. 获取当前日期select current_date()

2020-11-19 21:08:50 916

原创对ROC的个人理解

在模型中经常用到ROC，那么ROC的横纵坐标是什么？为什么使用这两个？使用ROC的好处到底是什么？一直困扰我，简单写下当前的理解。ROC的横坐标的假正率，即FPR= FP/(FP+TN),纵坐标为真正率TPR = TP/(TP+FN).重点在于这个横纵坐标。图的画法可找相关文章，通过作图的过程，实际上是将数据划分为两块，即预测为正的一块和预测为负的一块，纵坐标主要衡量的是上面那一块的，得到的是正样本中有多少正预测对了，横坐标衡量下面那一块，那么在实际数据中，即使样本量翻倍了，也不会影响这个值，比方说正

2020-11-11 00:44:29 609

原创 lightgbm的优化

lightgbm是xgboost的优化版本，它的优点在于：更小内存；速度更快；更高的准确率；更大的数据集；更小的内存消耗。下面简单阐述下我对其中几点优化的理解。lightgbm相较于xgboost有以下几点改进：基于直方图的决策树算法；基于leaf_wise的叶子生长策略；利用直方图做差能够直接处理类别变量cache命中优化多线程优化a. 直方图算法lightgbm的直方图算法是将连续型变量离散化成k个直方图的形式，完成指标的离散化，将离散化后的值作为索引得到相应的统计量，然后根据

2020-11-11 00:31:18 1110

原创 hive与mysql比较

查询语言不同：hive用hql，mysql是sql语句；文件存储位置不同：hive是存在hdfs，mysql是存在自带的数据库；数据更新不同：hive不支持更新，mysql可以；数据格式不同：hive可自定义，mysql有格式限制；索引不同：hive没有索引，索引每次需要使用mapreduce暴力扫描，mysql有；延迟性：hive延迟高，mysql较小；数据量不同：hive数据量大，mysql小；执行原理不同：hive是使用的mapreduce，mysql是executor执行器。..

2020-10-25 19:34:57 963

原创 xgboost常见问题

xgboost整体流程怎么样？xgb是基于gbdt的工程化实现，也是个加法模型，每棵树拟合之前行程的残差，最后由残差叠加得到最终的拟合结果。目标函数由训练损失和正则化构成，采用泰勒二次展开作为损失函数的近似。XGBoost和GBDT的不同点：不同点在于基函数（xgb支持线性分类器，gbdt只能用cart)、缺失值处理、正则化、二次导数、列抽样、样本抽样、并行计算这几点来回答XGBoost的并行是怎么做的？xgboost本身还是树的串行，所以在树的维度上是不能并行。xgb的并行是指特征维度的

2020-10-25 18:01:53 717

原创 xgb\lightgbm\gbdt\rf模型如何挑选之个人思考

这四类模型均为有监督模型，都具有标签，整体思路：具体选择哪一类，不能一概而论，需要结合具体的业务情况、数据情况、评价标准、资源、时间要求、特征解释性等综合衡量，同时需要清除各个模型的原理、优势劣势、区别做决定。了解数据：1.统计描述和可视化统计描述：均值、分位数、标准差、相关性、缺失率、异常点可视化：箱线图（异常点）、密度图、直方图、散点图、选取这几类算法，结合着几类算法的特点，说明几点信息：1.数据是带标签的2.预测分类问题3.对模型可解释性要求不高4.对准确性要求较高模型复杂度模

2020-07-13 10:02:56 272

原创 es数据库简介

##1. es是什么ElasticSearch简称ES，是一个高拓展和开源的全文搜索和分析引擎，可以准实时地存储、搜索、分析海量的数据。它和MongoDB、redis等一样是非关系型数据。业应用定位：采用Restful API标准的可扩展和高可用的实时数据分析的全文搜索工具。可拓展：开源软件，支持很多第三方插件。高可用：在一个集群的多个节点中进行分布式存储，索引支持shards和复制，即使部分节点down掉，也能自动进行数据恢复和主从切换。采用RestfulAPI标准：通过http接口使用JSO

2020-05-09 14:45:24 23884

原创 #pyspark常见问题汇总

问题1：AttributeError: “NoneType” object has no attribute ‘_jvm’.解决方法：该问题由于内存不够导致，可在最初设置spark的时候，设置足够的内存，例如：spark=SparkSession.builder.config("spark.excutor.num","4").config("spark.excutor.cores","4").\config("spark.excutor.memory","5g").appName('sss').get

2020-05-08 19:45:59 551 1

少年阿文的博客