自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(260)
  • 资源 (8)
  • 收藏
  • 关注

原创 PostgreSQL中所的锁

为了确保复杂的事务可以安全地同时运行,PostgreSQL提供了各种级别的锁来控制对各种数据对象的并发访问,使得对数据库关键部分的更改序列化。事务并发运行,直到它们尝试获取互相冲突的锁为止(比如两个事务更新同一行时)。当多个事务同时在数据库中运行时,并发控制是一种用于维持一致性和隔离性的技术,在PostgreSQL中,使用快照隔离来实现多版本并发控制,同时以两阶段锁定 (2PL) 机制为辅。在执行DDL时使用2PL,在执行DML时使用SI。

2023-11-21 10:17:42 290

原创 greenplum数据库-锁

在数据库中有两种基本的锁类型:排它锁(Exclusive Locks,即X锁)和共享锁(Share Locks,即S锁)。当数据对象被加上排它锁时,其他的事务不能对它读取和修改。加了共享锁的数据对象可以被其他事务读取,但不能修改。数据库利用这两 种基本的锁类型来对数据库的事务进行并发控制。多个事务同时在数据库中运行时,查看GP库所有表锁。

2023-11-21 10:12:06 419

原创 引入ojdbc6 11.2.0.3版本

IntelliJ IDEA使用Maven导入一些依赖包,在pom.xml中引入ojdbc6 11.2.0.3版本一直失败,下载不了.jar文件解决方法如下:1.下载ojdbc6-11.2.0.3.jar 点击view。

2023-09-19 10:58:21 746

原创 JAVA this和super

3、this()和super()都只能出现在构造方法的第一行,故this()和super()方法不能共存,当一个类的构造方法第一行中没有this(),也没有super(),系统默认有super()方法;2、this指向当前对象自己,super指向当前对象的父类型特征,故this的东西比super多,也就是super是this的一部分;4、this()是构造方法中调用本类其他的构造方法,super()是当前对象构造方法中去调用自己父类的构造方法。

2023-08-23 10:50:20 101

转载 随机森林-特征选择

随机森林是一种相当简单、容易理解的方法,他的基本原理就是,从原数据集中有放回的采样获得若干个子集,基于每个子集训练出不同的基分类器,再通过基分类器的投票获得最终的分类结果。另外,随机森林还有值得一提的是,随机森林不但对样本进行采样,也会对属性进行采样,即横竖采样,不过对属性的采样不再是自助采样法了,只是简单的按一定比例随机采样。将生成的多棵决策树组成随机森林。要进行特征选择,得现有一个对特征好坏的度量,我们先来看一下,随机森林是如何度量一个特征的好坏的,再来看它如何进行的特征选择。......

2022-08-10 15:49:07 9819

转载 Python 对数函数

python 基础知识

2022-07-05 14:38:10 7703

原创 IDEA中git插件使用

1.插件设置2.调出终端3. 从远程Git仓库获取项目源码将远程仓库项目克隆到本地仓库和IDE工作区4.修改部分源码,提交到远程仓库项目上右击,选择Git菜单,执行git add、git commit命令,在弹出界面下拉框中选择相应命令5.从远程仓库获取新的提交6.创建新分支,并在分支上开发7.将分支提交到远程Git仓库8.分支合并到主干9.打tag和删除tag10.更新远程,解决冲突并提交...

2022-05-13 18:14:51 8305 1

转载 task不能序列化

spark出现task不能序列化错误: org.apache.spark.SparkException: Task not serializable 出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有:如果可以,将依赖的变量放到map、fil...

2022-04-27 15:00:19 154

原创 Maven中scope参数详解

Maven配置中的socpe的默认值是compile。Maven的scope参数:compile,test,runntime,provided,system。

2022-04-21 10:05:23 346

转载 IntelliJ IDEA 常用快捷键

说IDEA对新手来说难,可能其中一个原因就是快捷键组合多而且复杂但是它也很全,基本所有功能都可以通过快捷键来完成,可以这么说,如果你掌握了所有IDEA的快捷键使用,那么你完全可以丢掉鼠标,而且不影响开发效率。一、Ctrl 快捷键Ctrl + F 在当前文件进行文本查找 (必备)Ctrl + R 在当前文件进行文本替换 (必备)Ctrl + Z 撤销 (必备)Ctrl + Y 删除光标所在行 或 删除选中的行 (必备)Ctrl + X 剪切光标所在行 或 剪切选择内容Ctrl ...

2021-12-16 16:41:32 145

原创 AIPL&RFM&AARRR

AIPL模型 人群资产量化的运营模型。Awareness 认知 Interest 兴趣 Purchase 购买 Loyalty 忠诚 GMV(成交总额)=投放用户量*转化量*客单价RFM模型 用户分层模型,衡量用户价值。Recency 最近一次消费时间 Frequency 消费频次,一段时间内的消费次数 Monetary 消费金额,一段时间内的消费金额 AARRR模型 ...

2021-12-14 15:37:30 1558

转载 hive:正则:匹配中文/英文/数字(REGEXP 和 rlike)

目录1:匹配数字数字在0到3位数字固定有6位第二位为数字6的,有且只有两位数第二位为数字6的,但不只有两位数第二位为数字6的,后边再追加1到2位数字手机号|邮箱中含有手机号的邮箱2:匹配中文纯中文(不含有英文和数字的)含有中文的(只要含有汉字都可以)不含有中文3:匹配英文只包含小写英文不含有任何小写英文字符任何包含英文的(大小写都包括)不含有任何英文字符的(大小写都包括)表达式实例介绍数据:Java开发工程师Ja...

2021-12-13 17:28:47 9382

原创 Windows安装Hadoop

1.安装JDK安装jdk配置环境https://blog.csdn.net/qq_36535820/article/details/102831841https://blog.csdn.net/qq_36535820/article/details/1028318412.安装Hadoop2.1下载Hadoop下载Hadoophttps://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/https://mirrors.tuna.tsingh

2021-12-06 18:26:31 1339

原创 IDEA-单行注释与代码对齐

按如下步骤设置:file -> Setting -> Editor ->Code Style -> Java -> Code Generation -> 勾选 Add a space at comment

2021-11-26 17:40:18 734

原创 lambda expressions are not supported at language level ‘5‘

使用IDEA配置JDK1.8版本使用lambda表达式报错:lambda expressions are not supported at language level '5'解决办法:1.在“File -> Settings -> Build, Execution, Deployment -> Compiler”->“Java Compiler”,更改“Project bytecode version”和“Target bytecode version”。...

2021-11-26 16:05:01 347

原创 hiveSql获取日期时间

select from_unixtime(unix_timestamp(),'yyyy-MM-dd') today -- 今天 ,date_add(FROM_UNIXTIME(UNIX_TIMESTAMP()),1) tomorrow --明天 ,date_sub(FROM_UNIXTIME(UNIX_TIMESTAMP()),1) yesterday --昨天 ,trunc(from_unixtime(unix_timestamp(),'yyyy-MM-dd') ,..

2021-11-12 15:10:04 1620

原创 IDEA-创建Scala项目

1.创建Scala项目2.设置相应信息

2021-10-19 11:38:02 193 1

原创 python包的下载网站

python包的下载网站网址1: ​​​Unofficial Windows Binaries for Python Extension Packageshttp://www.lfd.uci.edu/~gohlke/pythonlibs/网址2: the Python Package Indexhttps://pypi.python.org/pypi

2021-10-12 17:10:31 2290

转载 xgboost参数-调参

目录一、xgboost 原生接口重要参数训练参数预测函数绘制特征重要性回归例子二、xgboost 的 sklearn 风格接口XGBClassifier基本使用XGBRegressor基本使用三、xgboost 调参思路四、参考文章 xgboost 包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章: XGBoost算法的相关知识一、xgboost 原生接口重要参数...

2021-09-27 14:28:24 20157

原创 数据分析方法概述

方法 说明 对比分析 单一的数据毫无意义,只有经过对比才能体现数据的好坏。常见的对比类型有环比,同比等 细分分析 层层递进,在多个子维度上分析数据,时间维度和渠道的交叉分析 交叉分析 即在多个维度上对比分析数据 漏斗分析 主要用户转化率的分析 比率分析 更偏向属于一种数据展示手段,特别是在数据结论中。可以起到清晰强化对比的作用。 过去/现状/趋势分析 一个时间段的数据要么可以得出对过去和现状的总结,要么就是对未来的趋势分析。接下来都是指导我们

2021-08-31 10:03:51 118

原创 maven项目(IDEA中)-创建|配置|打包

前言在IDEA中创建Maven项目,前提是已经安装配置好Maven环境 。如还未配置安装Maven的,请先下载安装。如何下载安装,可参考文章:maven的安装及介绍本篇教程是以创建基于servlet的JavaWeb项目为例子,如是Spring系列框架,pom.xml文件相关依赖需要调整。1. IDEA中配置Maven1)打开IDEA 创建一个新的project2)起名为web_work3)打开IDEA 选择File --> Settings --> 搜素maven,..

2021-08-19 18:34:58 1455

转载 随机森林调参

在scikit-learn中,RandomForest的分类器是RandomForestClassifier,回归器是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。一、Bagging框架的参数:1.n_estimators:也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数,默认是10。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选...

2021-08-19 14:30:05 5001

原创 随机森林oob_score及oob判断特征重要性

Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征,减少特征冗余;同理,可以通过特征的排列组合,选择最优的组合特征,优化下游算法性能 原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(out_of_bag)oob袋外样本。通过袋外样本,可以评估这个树的准确度;此外,其他子树按这个原理评估。最后,取平均值即是随机森林算法的性能。 特征选择...

2021-08-19 14:18:54 6915 3

转载 Maven安装及介绍

前言本篇文章是基于win10系统下载安装Maven的教程。一、 Maven介绍1. 什么是Maven Maven是一个跨平台的项目管理工具。作为Apache组织的一个颇为成功的开源项目,其主要服务于基于Java平台的项目创建,依赖管理和项目信息管理。maven是Apache的顶级项目,解释为“专家,内行”,它是一个项目管理的工具,maven自身是纯java开发的,可以使用maven对java项目进行构建、依赖管理。2. Maven的作用依赖管理依赖指的就是是 我们项目中需...

2021-08-18 15:23:32 227

转载 K折验证交叉验证

K折验证交叉验证 交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。这块主要有三种方式:简单交叉验证(HoldOut检验)、k折交叉验证(k-fold交叉验证)、自助法。该文仅针对k折交叉验证做详解。简单交叉验证方法:将原始数据集随机划分成训练集和验证集两部分。 比如说,将样本按照70%~30%的比例分成两部分,70%的样本用于训练模型;30%的样本用于模型验证。缺点:(1)数据都只被所用了一次,没有被充分利用 (2)在验证...

2021-08-17 18:08:20 46348 3

转载 RandomForestRegressor 参数

sklearn.ensemble.RandomForestRegressor( n_estimators=10, criterion='mse', max_depth=None, min_samples_split=2, ...

2021-08-17 10:43:14 19946 2

原创 分割训练集和测试集(train_test_split)

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)# train_data:所要划分的样本特征集# train_target:所要划分的样本结果# test_size:样本占比,如果是整数的话就是样本的数量# random_state:是随机数的种子。.

2021-08-16 16:36:45 2553

原创 K折交叉验证(KFold)

K折交叉验证:sklearn.model_selection.KFold(n_splits=n, shuffle=False, random_state=None)思路:将训练/测试数据集划分为n个互斥子集,每次用其中一个子集当作验证集,剩下的n-1个作为训练集,进行n次训练和测试,得到n个结果注:对于不能均等份的数据集,其前n_samples % n子集拥有int(n_samples /n)+ 1个样本,其余子集都只有int(n_samples /n)样本参数说明:n_splits:表..

2021-08-16 16:15:25 5619 4

转载 Anaconda降低Python版本

一、Python版本降级原因由于pycharm 解释器报错,然后查询后是3.8版本中的某个包冲突,记录一下,方便以后自己参考。环境:pycharm 2019.1.3anaconda 4.9.2python 3.8二、降级步骤1、Anaconda替换清华镜像清华的镜像确实好用,这里还有其他软件的镜像,配置步骤可以自行查看清华镜像配置大致就是,到当前用户的目录下:(可先执行 conda config --set show_channel_urls yes 生成该文件之后再修改。)一

2021-08-10 15:58:41 17610 2

转载 r2_score使用方法

R2通俗地理解为使用均值作为误差基准,看预测误差是否大于或者小于均值基准误差。R2_score = 1,样本中预测值和真实值完全相等,没有任何误差,表示回归分析中自变量对因变量的解释越好。R2_score = 0。此时分子等于分母,样本的每项预测值都等于均值。根据公式,我们可以写出R2_score实现代码1- mean_squared_error(y_test,y_preditc)/ np.var(y_test)也可以直接调用sklearn.metrics中的r2_scor...

2021-07-23 15:53:56 12939

转载 回归模型的性能的评价指标

评价指标主要有:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、R2_score。但是当量纲不同时,RMSE、MAE、MSE难以衡量模型效果好坏。这就需要用到R2_score。

2021-07-23 15:45:33 2142

原创 Hive中使用over()实现累积求和和滑动求和

1.累积求和实现累积求和,使用sum()函数配合over()来实现,具体的实现语法如下: sum(需要求和的列) over(partition by 分组列 order by 排序列 asc/desc)

2021-06-08 15:47:56 4234 1

转载 python 返回指定日期的周一时间和周日时间,返回指定日期区间内的所有周一和周日时间列表

import datetimedef last_first_date_and_last_date(n): """ 获取前n周开始时间和结束时间,参数n:代表前n周 :param n: int类型 数字:1,2,3,4,5 :return: 返回前n周的周一0点时间 和 周日23点59分59秒 """ now = datetime.datetime.now() before_n_week_start = now - datetime.tim...

2021-05-28 16:09:24 724

原创 HIVE介绍

为什么要使用hive一、基础1.什么是hive2.hive的特点3.hive架构图4.hive基本组成6.hive与Hadoop的关系

2021-04-26 15:09:24 81

转载 hive中sql执行顺序

1.from2.joinon 或 lateral view explode(需炸裂的列) tbl as 炸裂后的列名3.where4.group by (开始使用select中的别名,从group 开始往后都可用)5.聚合函数 如Sum() avg() count(1)等6.having7.select 中若包含over()开窗函数,执行完非开窗函数后select等待执行完开窗函数,然后执行select完,开窗函数通过表数据进行分区和排序,跟select查询中的字...

2021-04-08 18:17:39 209

原创 linux-unzip解压文件

一、首先安装 $sudo urpmi unzip unrar二、 进入到所在文件夹,然后有如下几种方法可用}法一:用分号或者&&隔开(适用于对象较少的时候)#unzip a.zip && unzip b.zip && unzip c.zip或者:unzip a.zip; unzip b.zip ;unzip c.zip法二:#find . -name '*.zip' -exec unzip {} \;法三:#ls *.zip |

2021-01-22 10:23:49 408

转载 hive sql的常用日期处理函数总结

1)date_format函数(根据格式整理日期)  作用:把一个字符串日期格式化为指定的格式。select date_format('2017-01-01','yyyy-MM-dd HH:mm:ss'); --日期字符串必须满足yyyy-MM-dd格式   结果:2017-01-01 00:00:002)date_add、date_sub函数(加减日期)  作用:把一个字符串日期格式加一天、减一天。select date_add('2019-01-01',1); ...

2020-11-24 14:57:44 3162

原创 HIve时间函数

HIve时间函数1、hive取得当前日期时间:1.1) 取得当前日期:select current_date();1.2) 取得当前日期时间:select current_timestamp();1.3) hive取得当前时间戳:select unix_timestamp();1.4) 时间戳转日期:select from_unixtime(1517725479,‘yyyy-MM-dd HH:dd:ss’);1.5) 日期转unix时间戳:select to.

2020-11-11 18:34:18 1626

原创 spark-RDD编程

RDD就是一个不可变的分布式对象集合。创建RDD: 1)读取一个外部数据集(SparkContext.textFile()); 2)在驱动器程序中对一个集合进行并行化。RDD 操 作: 1)转 化 操 作(transformation):会由一个 RDD 生成一个新的 RDD。 2)行 动 操 作(action):会对 RDD 计算出一个结果,并把结果返回到驱动器程序中,或存储到外部存储系统(如 HDFS...

2020-10-25 17:24:41 441

转载 Spark中map(func)和flatMap(func)

Spark中map(func)和flatMap(func)这两个函数的区别及具体使用。函数原型1.map(func)将原数据的每个元素传给函数func进行格式化,返回一个新的分布式数据集。(原文:Return a new distributed dataset formed by passing each element of the source through a function func.)2.flatMap(func)跟map(func)类似,但是每个输入项和成为0个或多个输出

2020-10-23 14:33:56 1202

python_Levenshtein_wheels-0.13.1-cp36-cp36m-win_amd64.whl

win10 python3.6 安装 pip install python_Levenshtein(编辑距离)安装包,总是出错或者用不起,因而利用其.whl文件直接安装,果然好使。

2020-04-14

python_baseCode.zip

自己学习Python语言时的基础代码,分块列出每个部分内容。 上传资料,记录学习过程,以作备忘。

2019-11-24

pisrl_win.model

pyltp各种模型,包含两个语义角色标注,亲测可行。wuwu

2019-11-08

PyCharm设置代码模板:自动生成文件名、作者、创建日期等信息.docx

PyCharm设置代码模板:自动生成文件名、作者、创建日期等信息

2019-10-30

sasl-0.2.1-cp36-cp36m-win_amd64.whl

sasl的whl文件,sasl安装不上,利用sasl的whl文件安装。适合python3.6,64位。

2019-09-24

sasl-0.2.1-cp36-cp36m-win32.whl

sasl的whl文件,sasl安装不上,利用sasl的whl文件安装。适合python3.6,32位。

2019-09-24

recommend-system.py

该代码主要包含常见几种相似度计算方法,基于用户的协同过滤推荐。

2019-08-21

filter_PunctuationLetterEmoji.py

该代码主要用于过滤文本中的中英文标点符号、数字、字母及表情符号。

2019-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除