*Snowgrass*-CSDN博客

原创 PostgreSQL中所的锁

为了确保复杂的事务可以安全地同时运行，PostgreSQL提供了各种级别的锁来控制对各种数据对象的并发访问，使得对数据库关键部分的更改序列化。事务并发运行，直到它们尝试获取互相冲突的锁为止(比如两个事务更新同一行时)。当多个事务同时在数据库中运行时，并发控制是一种用于维持一致性和隔离性的技术，在PostgreSQL中，使用快照隔离来实现多版本并发控制，同时以两阶段锁定 (2PL) 机制为辅。在执行DDL时使用2PL，在执行DML时使用SI。

2023-11-21 10:17:42 290

原创 greenplum数据库-锁

在数据库中有两种基本的锁类型：排它锁（Exclusive Locks，即X锁）和共享锁（Share Locks，即S锁）。当数据对象被加上排它锁时，其他的事务不能对它读取和修改。加了共享锁的数据对象可以被其他事务读取，但不能修改。数据库利用这两种基本的锁类型来对数据库的事务进行并发控制。多个事务同时在数据库中运行时，查看GP库所有表锁。

2023-11-21 10:12:06 419

原创引入ojdbc6 11.2.0.3版本

IntelliJ IDEA使用Maven导入一些依赖包，在pom.xml中引入ojdbc6 11.2.0.3版本一直失败，下载不了.jar文件解决方法如下：1.下载ojdbc6-11.2.0.3.jar 点击view。

2023-09-19 10:58:21 746

原创 JAVA this和super

3、this()和super()都只能出现在构造方法的第一行，故this()和super()方法不能共存，当一个类的构造方法第一行中没有this()，也没有super()，系统默认有super()方法；2、this指向当前对象自己，super指向当前对象的父类型特征，故this的东西比super多，也就是super是this的一部分；4、this()是构造方法中调用本类其他的构造方法，super()是当前对象构造方法中去调用自己父类的构造方法。

2023-08-23 10:50:20 101

转载随机森林-特征选择

随机森林是一种相当简单、容易理解的方法，他的基本原理就是，从原数据集中有放回的采样获得若干个子集，基于每个子集训练出不同的基分类器，再通过基分类器的投票获得最终的分类结果。另外，随机森林还有值得一提的是，随机森林不但对样本进行采样，也会对属性进行采样，即横竖采样，不过对属性的采样不再是自助采样法了，只是简单的按一定比例随机采样。将生成的多棵决策树组成随机森林。要进行特征选择，得现有一个对特征好坏的度量，我们先来看一下，随机森林是如何度量一个特征的好坏的，再来看它如何进行的特征选择。......

2022-08-10 15:49:07 9819

转载 Python 对数函数

python 基础知识

2022-07-05 14:38:10 7703

原创 IDEA中git插件使用

1.插件设置2.调出终端3. 从远程Git仓库获取项目源码将远程仓库项目克隆到本地仓库和IDE工作区4.修改部分源码，提交到远程仓库项目上右击，选择Git菜单，执行git add、git commit命令，在弹出界面下拉框中选择相应命令5.从远程仓库获取新的提交6.创建新分支，并在分支上开发7.将分支提交到远程Git仓库8.分支合并到主干9.打tag和删除tag10.更新远程，解决冲突并提交...

2022-05-13 18:14:51 8305 1

转载 task不能序列化

spark出现task不能序列化错误： org.apache.spark.SparkException: Task not serializable 出现“task not serializable"这个错误，一般是因为在map、filter等的参数使用了外部的变量，但是这个变量不能序列化。特别是当引用了某个类（经常是当前类）的成员函数或变量时，会导致这个类的所有成员（整个类）都需要支持序列化。解决这个问题最常用的方法有：如果可以，将依赖的变量放到map、fil...

2022-04-27 15:00:19 154

原创 Maven中scope参数详解

Maven配置中的socpe的默认值是compile。Maven的scope参数：compile，test，runntime，provided，system。

2022-04-21 10:05:23 346

转载 IntelliJ IDEA 常用快捷键

说IDEA对新手来说难，可能其中一个原因就是快捷键组合多而且复杂但是它也很全，基本所有功能都可以通过快捷键来完成，可以这么说，如果你掌握了所有IDEA的快捷键使用，那么你完全可以丢掉鼠标，而且不影响开发效率。一、Ctrl 快捷键Ctrl + F 在当前文件进行文本查找（必备）Ctrl + R 在当前文件进行文本替换（必备）Ctrl + Z 撤销（必备）Ctrl + Y 删除光标所在行或删除选中的行（必备）Ctrl + X 剪切光标所在行或剪切选择内容Ctrl ...

2021-12-16 16:41:32 145

原创 AIPL&RFM&AARRR

AIPL模型人群资产量化的运营模型。Awareness 认知 Interest 兴趣 Purchase 购买 Loyalty 忠诚 GMV(成交总额)=投放用户量*转化量*客单价RFM模型用户分层模型，衡量用户价值。Recency 最近一次消费时间 Frequency 消费频次，一段时间内的消费次数 Monetary 消费金额，一段时间内的消费金额 AARRR模型 ...

2021-12-14 15:37:30 1558

转载 hive：正则：匹配中文/英文/数字（REGEXP 和 rlike）

目录1：匹配数字数字在0到3位数字固定有6位第二位为数字6的，有且只有两位数第二位为数字6的，但不只有两位数第二位为数字6的，后边再追加1到2位数字手机号|邮箱中含有手机号的邮箱2：匹配中文纯中文（不含有英文和数字的）含有中文的（只要含有汉字都可以）不含有中文3：匹配英文只包含小写英文不含有任何小写英文字符任何包含英文的（大小写都包括）不含有任何英文字符的（大小写都包括）表达式实例介绍数据：Java开发工程师Ja...

2021-12-13 17:28:47 9382

原创 Windows安装Hadoop

1.安装JDK安装jdk配置环境https://blog.csdn.net/qq_36535820/article/details/102831841https://blog.csdn.net/qq_36535820/article/details/1028318412.安装Hadoop2.1下载Hadoop下载Hadoophttps://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/https://mirrors.tuna.tsingh

2021-12-06 18:26:31 1339

原创 IDEA-单行注释与代码对齐

按如下步骤设置：file -> Setting -> Editor ->Code Style -> Java -> Code Generation -> 勾选 Add a space at comment

2021-11-26 17:40:18 734

原创 lambda expressions are not supported at language level ‘5‘

使用IDEA配置JDK1.8版本使用lambda表达式报错：lambda expressions are not supported at language level '5'解决办法：1.在“File -> Settings -> Build, Execution, Deployment -> Compiler”->“Java Compiler”，更改“Project bytecode version”和“Target bytecode version”。...

2021-11-26 16:05:01 347

原创 hiveSql获取日期时间

select from_unixtime(unix_timestamp(),'yyyy-MM-dd') today -- 今天 ,date_add(FROM_UNIXTIME(UNIX_TIMESTAMP()),1) tomorrow --明天 ,date_sub(FROM_UNIXTIME(UNIX_TIMESTAMP()),1) yesterday --昨天 ,trunc(from_unixtime(unix_timestamp(),'yyyy-MM-dd') ,..

2021-11-12 15:10:04 1620

原创 IDEA-创建Scala项目

1.创建Scala项目2.设置相应信息

2021-10-19 11:38:02 193 1

原创 python包的下载网站

python包的下载网站网址1: Unofficial Windows Binaries for Python Extension Packageshttp://www.lfd.uci.edu/~gohlke/pythonlibs/网址2： the Python Package Indexhttps://pypi.python.org/pypi

2021-10-12 17:10:31 2290

转载 xgboost参数-调参

目录一、xgboost 原生接口重要参数训练参数预测函数绘制特征重要性回归例子二、xgboost 的 sklearn 风格接口XGBClassifier基本使用XGBRegressor基本使用三、xgboost 调参思路四、参考文章 xgboost 包含原生接口和 sklearn 风格接口两种，并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容，可以看看之前的文章： XGBoost算法的相关知识一、xgboost 原生接口重要参数...

2021-09-27 14:28:24 20157

原创数据分析方法概述

方法说明对比分析单一的数据毫无意义，只有经过对比才能体现数据的好坏。常见的对比类型有环比，同比等细分分析层层递进，在多个子维度上分析数据，时间维度和渠道的交叉分析交叉分析即在多个维度上对比分析数据漏斗分析主要用户转化率的分析比率分析更偏向属于一种数据展示手段，特别是在数据结论中。可以起到清晰强化对比的作用。过去/现状/趋势分析一个时间段的数据要么可以得出对过去和现状的总结，要么就是对未来的趋势分析。接下来都是指导我们

2021-08-31 10:03:51 118

原创 maven项目(IDEA中)-创建|配置|打包

前言在IDEA中创建Maven项目，前提是已经安装配置好Maven环境。如还未配置安装Maven的，请先下载安装。如何下载安装，可参考文章：maven的安装及介绍本篇教程是以创建基于servlet的JavaWeb项目为例子，如是Spring系列框架，pom.xml文件相关依赖需要调整。1. IDEA中配置Maven1）打开IDEA 创建一个新的project2）起名为web_work3）打开IDEA 选择File --> Settings --> 搜素maven,..

2021-08-19 18:34:58 1455

转载随机森林调参

在scikit-learn中，RandomForest的分类器是RandomForestClassifier，回归器是RandomForestRegressor，需要调参的参数包括两部分，第一部分是Bagging框架的参数，第二部分是CART决策树的参数。一、Bagging框架的参数：1.n_estimators:也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数，默认是10。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选...

2021-08-19 14:30:05 5001

原创随机森林oob_score及oob判断特征重要性

Sklearn RandomForest算法（有监督学习），可以根据输入数据，选择最佳特征，减少特征冗余；同理，可以通过特征的排列组合，选择最优的组合特征，优化下游算法性能原理：由于随机决策树生成过程采用的Boostrap，所以在一棵树的生成过程并不会使用所有的样本，未使用的样本就叫（out_of_bag）oob袋外样本。通过袋外样本，可以评估这个树的准确度；此外，其他子树按这个原理评估。最后，取平均值即是随机森林算法的性能。特征选择...

2021-08-19 14:18:54 6915 3

转载 Maven安装及介绍

前言本篇文章是基于win10系统下载安装Maven的教程。一、 Maven介绍1. 什么是Maven Maven是一个跨平台的项目管理工具。作为Apache组织的一个颇为成功的开源项目，其主要服务于基于Java平台的项目创建，依赖管理和项目信息管理。maven是Apache的顶级项目，解释为“专家，内行”，它是一个项目管理的工具，maven自身是纯java开发的，可以使用maven对java项目进行构建、依赖管理。2. Maven的作用依赖管理依赖指的就是是我们项目中需...

2021-08-18 15:23:32 227

转载 K折验证交叉验证

K折验证交叉验证交叉验证既可以解决数据集的数据量不够大问题，也可以解决参数调优的问题。这块主要有三种方式：简单交叉验证（HoldOut检验）、k折交叉验证（k-fold交叉验证）、自助法。该文仅针对k折交叉验证做详解。简单交叉验证方法：将原始数据集随机划分成训练集和验证集两部分。比如说，将样本按照70%~30%的比例分成两部分，70%的样本用于训练模型；30%的样本用于模型验证。缺点：（1）数据都只被所用了一次，没有被充分利用（2）在验证...

2021-08-17 18:08:20 46348 3

转载 RandomForestRegressor 参数

sklearn.ensemble.RandomForestRegressor( n_estimators=10, criterion='mse', max_depth=None, min_samples_split=2, ...

2021-08-17 10:43:14 19946 2

原创分割训练集和测试集(train_test_split)

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)# train_data：所要划分的样本特征集# train_target：所要划分的样本结果# test_size：样本占比，如果是整数的话就是样本的数量# random_state：是随机数的种子。.

2021-08-16 16:36:45 2553

原创 K折交叉验证(KFold)

K折交叉验证：sklearn.model_selection.KFold(n_splits=n, shuffle=False, random_state=None)思路：将训练/测试数据集划分为n个互斥子集，每次用其中一个子集当作验证集，剩下的n-1个作为训练集，进行n次训练和测试，得到n个结果注：对于不能均等份的数据集，其前n_samples % n子集拥有int(n_samples /n)+ 1个样本，其余子集都只有int(n_samples /n)样本参数说明：n_splits：表..

2021-08-16 16:15:25 5619 4

转载 Anaconda降低Python版本

一、Python版本降级原因由于pycharm 解释器报错，然后查询后是3.8版本中的某个包冲突，记录一下，方便以后自己参考。环境：pycharm 2019.1.3anaconda 4.9.2python 3.8二、降级步骤1、Anaconda替换清华镜像清华的镜像确实好用，这里还有其他软件的镜像，配置步骤可以自行查看清华镜像配置大致就是，到当前用户的目录下：（可先执行 conda config --set show_channel_urls yes 生成该文件之后再修改。）一

2021-08-10 15:58:41 17610 2

转载 r2_score使用方法

R2通俗地理解为使用均值作为误差基准，看预测误差是否大于或者小于均值基准误差。R2_score = 1，样本中预测值和真实值完全相等，没有任何误差，表示回归分析中自变量对因变量的解释越好。R2_score = 0。此时分子等于分母，样本的每项预测值都等于均值。根据公式，我们可以写出R2_score实现代码1- mean_squared_error(y_test,y_preditc)/ np.var(y_test)也可以直接调用sklearn.metrics中的r2_scor...

2021-07-23 15:53:56 12939

转载回归模型的性能的评价指标

评价指标主要有：RMSE(平方根误差)、MAE（平均绝对误差）、MSE(平均平方误差)、R2_score。但是当量纲不同时，RMSE、MAE、MSE难以衡量模型效果好坏。这就需要用到R2_score。

2021-07-23 15:45:33 2142

原创 Hive中使用over()实现累积求和和滑动求和

1.累积求和实现累积求和，使用sum()函数配合over()来实现，具体的实现语法如下： sum(需要求和的列) over(partition by 分组列 order by 排序列 asc/desc)

2021-06-08 15:47:56 4234 1

转载 python 返回指定日期的周一时间和周日时间，返回指定日期区间内的所有周一和周日时间列表

import datetimedef last_first_date_and_last_date(n): """ 获取前n周开始时间和结束时间，参数n：代表前n周 :param n: int类型数字：1，2，3，4，5 :return: 返回前n周的周一0点时间和周日23点59分59秒 """ now = datetime.datetime.now() before_n_week_start = now - datetime.tim...

2021-05-28 16:09:24 724

原创 HIVE介绍

为什么要使用hive一、基础1.什么是hive2.hive的特点3.hive架构图4.hive基本组成6.hive与Hadoop的关系

2021-04-26 15:09:24 81

转载 hive中sql执行顺序

1.from2.joinon 或 lateral view explode(需炸裂的列) tbl as 炸裂后的列名3.where4.group by （开始使用select中的别名，从group 开始往后都可用）5.聚合函数如Sum() avg() count(1)等6.having7.select 中若包含over（）开窗函数，执行完非开窗函数后select等待执行完开窗函数，然后执行select完，开窗函数通过表数据进行分区和排序，跟select查询中的字...

2021-04-08 18:17:39 209

原创 linux-unzip解压文件

一、首先安装 $sudo urpmi unzip unrar二、进入到所在文件夹，然后有如下几种方法可用}法一：用分号或者&&隔开(适用于对象较少的时候）#unzip a.zip && unzip b.zip && unzip c.zip或者：unzip a.zip; unzip b.zip ;unzip c.zip法二：#find . -name '*.zip' -exec unzip {} \;法三：#ls *.zip |

2021-01-22 10:23:49 408

转载 hive sql的常用日期处理函数总结

1）date_format函数（根据格式整理日期）　　作用：把一个字符串日期格式化为指定的格式。select date_format('2017-01-01','yyyy-MM-dd HH:mm:ss'); --日期字符串必须满足yyyy-MM-dd格式　　结果：2017-01-01 00:00:002）date_add、date_sub函数（加减日期）　　作用：把一个字符串日期格式加一天、减一天。select date_add('2019-01-01',1); ...

2020-11-24 14:57:44 3162

原创 HIve时间函数

HIve时间函数1、hive取得当前日期时间：1.1) 取得当前日期：select current_date();1.2) 取得当前日期时间：select current_timestamp();1.3) hive取得当前时间戳：select unix_timestamp();1.4) 时间戳转日期：select from_unixtime(1517725479,‘yyyy-MM-dd HH:dd:ss’);1.5) 日期转unix时间戳：select to.

2020-11-11 18:34:18 1626

原创 spark-RDD编程

RDD就是一个不可变的分布式对象集合。创建RDD： 1）读取一个外部数据集（SparkContext.textFile()）； 2）在驱动器程序中对一个集合进行并行化。RDD 操作： 1）转化操作（transformation）：会由一个 RDD 生成一个新的 RDD。 2）行动操作（action）：会对 RDD 计算出一个结果，并把结果返回到驱动器程序中，或存储到外部存储系统（如 HDFS...

2020-10-25 17:24:41 441

转载 Spark中map(func)和flatMap(func)

Spark中map(func)和flatMap(func)这两个函数的区别及具体使用。函数原型1.map(func)将原数据的每个元素传给函数func进行格式化，返回一个新的分布式数据集。(原文：Return a new distributed dataset formed by passing each element of the source through a function func.)2.flatMap(func)跟map(func)类似，但是每个输入项和成为0个或多个输出

2020-10-23 14:33:56 1202