自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (2)
  • 收藏
  • 关注

原创 hive join数据倾斜优化详解

这篇文章写的不错,https://blog.csdn.net/wisgood/article/details/77063606

2021-04-25 17:17:32 163

原创 数据分布不均的解决方法(上采样和下采样)

在机器学习中难免会遇到数据分析分布不均的情况,处理不好会影响模型的训练效果。这篇文章写的不错。https://blog.csdn.net/tonydz0523/article/details/84325823但是这个文章只是对分类问题的y进行处理,但是对于回归问题,由于y值是连续的,所以需要对连续变量进行离散化一下,在进行数据的上采样,以下代码是对数据添加离散化标签k = 6w...

2019-12-10 16:27:56 3279

原创 连续变量离散化的几种方法

连续变量离散化有三种方法1.等宽离散化2.等频离散化3.利用聚类进行离散化import numpy as npimport pandas as pd#参数初始化datafile = './data/discretization_data.xls'#读取数据data = pd.read_excel(datafile)data = data[u'肝气郁结证型系数']....

2019-12-10 13:56:10 7872 1

原创 学习怎么构建用户画像

今天抽空学习了一下用户画像相关知识,做了一个脑图.想学习的可以了解一下

2019-04-23 11:29:23 474

转载 Vertica 查询优化

Vertica 查询优化 vertica是惠普公司推出的列式分布式数据库,在OLAP领域有其独到的地方,目前社区版免费,但是只能存放1T的数据。我在工作中维护的bi系统后端就是使用的vertica数据库,平时也经常需要对于数据库的查询进行一些优化。所以写下这篇博客记录一下。定位问题 所谓的数据库调优、程序优化之类的工作,实际上是一个解决问题的过程,而解决问题,第一部就是需要定位问题。找到...

2018-08-10 11:22:43 1423

原创 python的Numpy库少量知识图谱

今天学习了蟒的numpy的库的一些知识,化成知识图谱记录一下,如果你们需要也可以看看,便于记忆.

2018-06-25 20:59:06 353

原创 java内存模型与线程

最近在看java虚拟机的有关知识,今天看的java内存模型与线程,整理了知识图谱如下有想了解的可以对照看一下,利于记忆

2018-06-15 16:37:20 94

原创 java虚拟机前端编译器知识图谱

最近在看java虚拟机的一些知识,学到前端编译器,整理了一下知识图谱 有兴趣学习的可以看一下,便于记忆

2018-06-15 16:34:12 171

转载 OLTP和OLAP的区别(转)

OLTP和OLAP的区别联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。 OLTP的特点一般有: 1.实时性要求高。我记得之前上大学的时候,银行异地汇款,要隔天才能到账,而现在是分分钟到账的节奏,说明现在银行的实时处理能力大大增强。 2.数据量不是很大,生产库...

2018-05-26 09:21:42 199

转载 几个分组函数的区别

今天遇到这几个函数,就查了一下这几个函数之间的差别,保存一下记录1.ROLLUP ROLLUP的作用相当于SQL> set autotrace onSQL> select department_id,job_id,count(*)  2  from employees  3  group by department_id,job_id  4  union  5  select depa...

2018-05-16 18:05:15 1970

转载 vertica使用

最近在学vertica ,找了点vertica有关的只是,记录一下· 进入vertica的sql环境:vsql -d dbname -w passwd· 修改列名:alter table csaprp.tb_rp_ct_olcs_work_list_dispose_mon rename statis_date to statis_month;· 增加列:alter table test.DIM_D...

2018-05-15 20:10:55 3827 1

集成学习:随机森林、GBDT、XGBoost.rar

机器学习中集成学习的相关案例代码,包含随机森林,GBDTXBoost等理论所所涉及的案例,包含房价预测,宫颈癌预测,分类回归算法,等案例代码。平常多练练,也用于记录一下,学习学习。

2020-01-05

vertica中文手册(7.2)

vertica中文手册(7.2)中文手册,方便初学者和需要查手册的朋友

2018-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除