自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(215)
  • 资源 (18)
  • 收藏
  • 关注

原创 Windows Maven解压版安装

本文须知:安装maven环境之前要先安装java jdk环境(没有安装java环境的可以先去看安装JAVA环境的教程)Maven 3.3+ require JDK 1.7 及以上。step1:下载maven(本教程安装的是目前最新版本3.8.5)官方下载链接:https://maven.apache.org/download.cgiBinary是可执行版本,已经编译好可以直接使用。Source是源代码版本,需要自己编译成可执行软件才可使用。我们选择已经编译好的windows.

2022-04-12 01:34:31 720

原创 Windows JDK1.8绿色版安装

step1:下载jdk绿色版压缩包下载地址:https://download.csdn.net/download/qq_28286027/85113522step2:解压当前解压的JDK1.8绿色版压缩包解压在D盘目录下,如下所示:step3:环境变量配置点击 【计算机——系统属性——高级系统设置——高级——环境变量】在环境对话框内有两个变量:上面的是用户变量(用于配置当前的用户);下面的是系统变量(配置所有的用户)1)设置JAVA_HOME:JAVA_HOME=D:\deve

2022-04-12 01:33:47 1874 1

原创 Hive on Spark配置

1. Hive引擎简介Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。2. Hive on Spark配置1)兼容性说明注意:官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive

2022-04-04 17:12:15 3553

原创 Kylin BI工具集成

可以与Kylin结合使用的可视化工具很多,例如:ODBC:与Tableau、Excel、PowerBI等工具集成JDBC:与Saiku、BIRT等Java工具集成RestAPI:与JavaScript、Web网页集成Kylin开发团队还贡献了Zepplin的插件,也可以使用Zepplin来访问Kylin服务。1. JDBC1)新建项目并导入依赖 <dependencies> <dependency> <groupId&.

2022-03-29 22:13:20 167

原创 CentOS7虚拟机部署Kylin

1. Kylin 定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。2. Kylin架构1)REST ServerREST Server是一套面向应用程序开发的入口点,旨在实现针对Kylin平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过Restf

2022-03-29 18:38:40 267

原创 Linux部署可视化报表superset(python3.7.11版)

1.Superset概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。2. Superset应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具。3.Superset安装及使用3.1 安装Python环境Superset是由Python语言编写的Web应用,要求Python3.7的环境。3

2022-03-28 22:28:00 283

原创 Linux CentOS7部署元数据管理Atlas

1. Atlas 概述Apache Atlas 为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对 这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。1)表与表之间的血缘依赖2)字段与字段之间的血缘依赖2. Atlas 架构原理2. Atlas 安装1)Atlas 官网地址:https://atlas.apache.org/2)文档查看地址:https://atlas.apache.org/2.1.0/index.html3)下载地址:

2022-03-28 22:24:22 2483

原创 StarRocks部署

Step 1:安装JDK1.1上传JDK安装包文件/usr/local/src/ jdk-8u162-linux-x64.tar.gz1.2.解压JDK安装包文件tar -zxvf  jdk-8u162-linux-x64.tar.gz1.3.配置Java环境变量[root@master jdk1.8.0_162]# vim /root/.bash_profileJAVA_HOME=/usr/local/src/jdk1.8.0_162export JAVA_HOME

2022-03-15 00:24:59 2002

原创 Flink standalone执行作业任务报错

执行jar命令如下:[root@bigdata101 flink-1.12.0]# bin/flink run -c app.FlinkCDC /data/project/flinkCDC/onedata-flink-1.0-SNAPSHOT-jar-with-dependencies.jar异常:------------------------------------------------------------ The program finished with the following

2022-03-08 18:29:10 711 3

原创 Nginx 配置解决跨域问题

location /下添加如下配置:if ($request_method = 'OPTIONS') { add_header 'Access-Control-Allow-Origin' '*'; add_header 'Access-Control-Allow-Methods' 'GET, POST, OPTIONS';## Custom headers and headers various browsers *should* be

2022-03-04 23:51:06 603

原创 Nginx 配置post请求,用body收集日志数据

在location /下的配置fastcgi_pass 127.0.0.1:9000; fastcgi_index index.php; fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name; include fastcgi_params;http中的配置log_format main '$remote_addr - $remote_us

2022-03-04 23:50:37 4051 1

原创 Nginx 配置按日期每天生成一个日志文件

1. 先设个变量 $logdatemap $time_iso8601 $logdate { '~^(?<ymd>\d{4}-\d{2}-\d{2})' $ymd; default 'date-not-found';}上面这段放到 http 块,在nginx管理里修改2. 配置日志文件路径在上图http中的位置,配置:access_log /data/project/log-server/logs/access-$logdate.log json_log;日

2022-03-04 23:49:59 8409 2

原创 推荐系统16:Bandit算法

我们在之前的文章中表达过,推荐系统的使命就是在建立用户和物品之间的连接。建立连接可以理解成:为用户匹配到最佳的物品;但也有另一个理解就是,在某个时间某个位置为用户选择最好的物品。推荐就是选择生活中,你我都会遇到很多要做选择的场景。上哪个大学,学什么专业,去哪家公司,中午吃什么等等。这些事情,都让选择困难症的我们头很大。头大在哪呢?主要是不知道每个选择会带来什么后果。你仔细想一下,生活中为什么会害怕选择,究其原因是把每个选项看成独一无二的个体,一旦错过就不再来。推荐系统中一个一个单独的物品也如此,一.

2021-06-06 22:44:31 266

原创 推荐系统15:Wide & Deep 模型

我们在前面已经提到过一个事实,就是推荐系统的框架大都是多种召回策略外挂一个融合排序。召回策略的姿势繁多,前面的专栏文章已经涉及了一部分内容。今天我们继续说融合排序。要深还是要宽融合排序,最常见的就是 CTR 预估,你一定不要把自己真的只局限在 C 上,这里说的 CTR 预估的 C,可以是产品中的任何行为,视频是不是会看完,看完后是不是会收藏,是不是会分享到第三方平台,查看的商品是不是会购买等等,都可以看成那个可以被预估发生概率的 CTR。CTR 预估的常见做法就是广义线性模型,如 Logistic.

2021-06-06 22:29:29 158

原创 微积分02:定积分

定积分当 ∣∣Δx∣∣→0|| \Delta x || \to 0∣∣Δx∣∣→0时,总和S总是趋于确定的极限I,则称极限I为函数f(x) 在曲线[a,b]上的定积分。积分值和被积函数与积分曲线有关,与积分变量字母无关。当函数 f(x)在区间[a,b]上的定积分存在的时候,称 f(x)在 区间[a,b]上可积定积分的几何含义面积的正负值:代数和,上方为正,下方为负。例题定积分的性质第一中值定理如果函数 f ( x)在闭区间[a,b]上连续,则在积分区间[a,b]上至少存在一个

2021-06-02 00:55:17 1023

原创 推荐系统14:FM 模型

在上一篇文章中,我讲到了使用逻辑回归和梯度提升决策树组合的模型融合办法,用于 CTR 预估,我还满怀爱意地给这对组合起了个名字,叫做辑度组合,因为这对组合的确可以在很多地方帮到我们。这对组合中,梯度提升决策树,也就是人们常说的 GBDT,所起的作用就是对原始的特征做各种有效的组合,一棵树一个叶子节点就是一种特征组合。这大概就是逻辑回归的宿命吧,作为一个广义线性模型,在这个由非线性组成的世界里,唯有与各种特征组合办法精诚合作,才能活下去。从特征组合说起对逻辑回归最朴素的特征组合就是二阶笛卡尔乘积,但是

2021-06-02 00:02:26 132

原创 推荐系统13:经典模型融合办法:线性模型和树模型的组合拳

推荐系统在技术实现上一般划分为三个阶段:挖掘、召回、排序。为什么要融合?挖掘的工作就是对用户和物品做非常深入的结构化分析,庖丁解牛一样,各个角度各个层面的特征都被呈现出来,并且建好索引,供召回阶段使用,大部分挖掘工作都是离线进行的。接下来就是召回,为什么会有召回?因为物品太多了,每次给一个用户计算推荐结果时,如果对全部物品挨个计算,那将是一场灾难,取而代之的是用一些手段从全量的物品中筛选出一部分比较靠谱的。最后就是排序,针对筛选出的一部分靠谱的做一个统一的论资排辈,最后这个统一的排序就是今天要讲.

2021-06-01 09:13:04 123

原创 推荐系统12:如果关注排序效果,那么这个模型可以帮到你

矩阵分解在推荐系统中的地位非常崇高,恐怕本专栏介绍的其他算法模型都不能轻易地撼动它。它既有协同过滤的血统,又有机器学习的基因,可以说是非常优秀了;但即便如此,传统的矩阵分解无论是在处理显式反馈,还是处理隐式反馈都让人颇有微词,这一点是为什么呢?矩阵分解的不足前面我讲过的两种矩阵分解,本质上都是在预测用户对一个物品的偏好程度,哪怕不是预测评分, 只是预测隐式反馈,也难逃这个事实,因为算法展现出来的目标函数就出卖了这一切。得到这样的矩阵分解结果后,常常在实际使用时,又是用这个预测结果来排序。所以,从.

2021-05-31 00:01:08 101

原创 推荐系统11:Facebook是怎么为十亿人互相推荐好友的

回顾矩阵分解矩阵分解要将用户物品评分矩阵分解成两个小矩阵,一个矩阵是代表用户偏好的用户隐因子向量组成,另一个矩阵是代表物品语义主题的隐因子向量组成。这两个小矩阵相乘后得到的矩阵,维度和原来的用户物品评分矩阵一模一样。比如原来矩阵维度是 m x n,其中 m 是用户数量,n 是物品数量,再假如分解后的隐因子向量是 k 个,那么用户隐因子向量组成的矩阵就是 m x k,物品隐因子向量组成的矩阵就是 n x k。得到的这两个矩阵有这么几个特点:每个用户对应一个 k 维向量,每个物品也对应一个 k 维向

2021-05-27 22:08:16 252

原创 推荐系统10:那些在Netflix Prize中大放异彩的推荐算法

早在前几篇务虚的文章中,我就和你聊过了推荐系统中的经典问题,其中有一类就是评分预测。让我摸着自己的良心说,评分预测问题只是很典型,其实并不大众,毕竟在实际的应用中,评分数据很难收集到,属于典型的精英问题;与之相对的另一类问题行为预测,才是平民级推荐问题,处处可见。缘起评分预测问题之所以“虽然小众却十分重要”,这一点得益于十多年前 Netflix Prize 的那一百万美元的悬赏效应。公元 2006 年 10 月 2 号,对于很多人来说,这只是平凡了无新意的一天,但对于推荐系统从业者来说,这是不得.

2021-05-27 22:07:41 478

原创 推荐系统09:协同过滤中的相似度计算方法有哪些

相似度的本质推荐系统中,推荐算法分为两个门派,一个是机器学习派,另一个就是相似度门派。机器学习派是后起之秀,而相似度派则是泰山北斗,以致撑起来推荐系统的半壁江山。近邻推荐顾名思义就是在地理位置上住得近。如果用户有个邻居,那么社交软件上把邻居推荐给他在直观上就很合理,当然,如果邻居姓王的话,就不要推荐了。这里说的近邻,并不一定只是在三维空间下的地理位置的近邻,在任意高维空间都可以找到近邻,尤其是当用户和物品的特征维度都很高时,要找到用户隔壁的邻居,就不是那么直观,需要选择好用适合的相似度度量办法。近邻

2021-05-27 22:07:11 309

原创 推荐系统08:解密“看了又看”和“买了又买”

不管你有没有剁过手,你对“看了这个商品的还看了”这样的推荐形式一定不陌生。无论是猫还是狗,或者是其他电商网站,这样的推荐产品可以说是推荐系统的标配了。类似的还有,如点评标记类网站的“喜欢了这部电影的还喜欢了”,社交媒体网站的“关注了这个人还关注了”,这些都只是文案类似,动词不同而已。这样的推荐形式背后都是来自一个古老的推荐算法,叫做基于物品的协同过滤,通常也被叫作 Item-Based,因为后者更容易搜索到相关的文章,所以被更多地提及。如果做推荐系统不知道“基于物品的协同过滤”,那等同于做程序员不懂得冒泡.

2021-05-27 09:04:01 383

原创 推荐系统07:协同过滤

要说提到推荐系统中,什么算法最名满天下,我想一定是协同过滤。在很多场合,甚至有人把协同过滤和推荐系统划等号,可见二者的关系多么紧密。协同过滤的重点在于“协同”,所谓协同,也就是群体互帮互助,互相支持是集体智慧的体现,协同过滤也是这般简单直接,历久弥新。协同过滤当你的推荐系统度过了只能使用基于内容的推荐阶段后,就有了可观的用户行为了。这时候的用户行为通常是正向的,也就是用户或明或暗地表达着喜欢的行为。这些行为可以表达成一个用户和物品的关系矩阵,或者说网络、或者说是图,都是一个东西。这个用户物品的关.

2021-05-26 10:36:01 162

原创 推荐系统05:从文本到用户画像有多远

前面,我和你聊过了不要把用户画像当成银弹,也不要觉得一无是处。对于一个早期的推荐系统来说,基于内容推荐离不开为用户构建一个初级的画像,这种初级的画像一般叫做用户画像(User Profile),一些大厂内部还习惯叫做 UP,今天我就来讲一讲从大量文本数据中挖掘用户画像常常用到的一些算法。从文本开始用户这一端比如说有:注册资料中的姓名、个人签名;发表的评论、动态、日记等;聊天记录(不要慌,我举个例子而已,你在微信上说的话还是安全的)。物品这一端也有大量文本信息,可以用于构建物品画像( It.

2021-05-25 16:53:25 179

原创 推荐系统04:用户画像的“能”和“不能”

做好一个推荐系统,总共分三步:1.认识每一个用户;2.给他推荐他感兴趣的东西;3.坐等各项指标上升。开个玩笑,如果这么简单的话,那么你和我都要失业了;但是话说回来,认识用户是必须的,不过不用担心,认识用户不用请他们吃饭,这就是我们常常听说的“用户画像”这个词。今天,我就来跟你聊一聊:用户画像的那些事儿。用户画像比较抽象,就像每个人都听说过鬼,但很少有人见过。事实上,它也没有那么神秘,只是大家对它有误解,要么觉得没什么用,要么觉得它是“银弹”,可能相信后者的人略多一些,但实际上这两种看法都不准确。.

2021-05-25 11:25:29 125

原创 推荐系统03:这些你必须应该具备的思维模式

在开始讲解一些比较硬的知识之前,我先来给你洗洗脑,传达一些形而上、务虚但是重要的内容;所以,今天我主要带你认识两方面的内容:一个是重新认识推荐系统关键元素的重要性,另一个是要建立起两个思维模式。这两个方面的内容如果理解不到位,尤其是当你去负责整个推荐产品的时候,那真是害苦了整个团队所有的兄弟姐妹。对关键元素重要性的认识要开发一个推荐系统产品,有这么四个关键的元素需要注意:UI 和 UE;数据;领域知识;算法。他们的重要性依次递减,权重大致是 4-3-2-1,是不是知道真相的你眼泪掉下来.

2021-05-25 11:24:53 78

原创 推荐系统02:个性化推荐系统有哪些绕不开的经典问题

推荐系统发展到了今天,已经出现了一些常见的问题,一部分已经有很好的解决方案,另外一部分却还没有通用解决方案,需要根据实际情况做一下具体的分析。今天我来和你聊一聊这些问题。我会首先讲讲一些推荐系统中的问题模式,然后再专门说一些需要面对的具体问题。推荐系统的问题模式我们知道,推荐系统的使命是为用户和物品建立连接,建立的方式是提前找出那些隐藏的连接呈现给用户,这是一个预测问题;所以推荐系统的预测问题模式,从达成的连接目标角度区分,有两大类:1.评分预测;2.行为预测。因为评分和行为是用户对推荐结果.

2021-05-25 11:24:12 225

原创 推荐系统01:你真的需要个性化推荐系统吗

什么是推荐系统?到底什么是推荐系统?按照维基百科的定义:它是一种信息过滤系统,手段是预测用户(User)对物品(Item)的评分和偏好。这个定义不是很好理解,也不恰当。它用“怎么做”来定义了“是什么”,这相当于变相规定了推荐系统的实现路径。让我们来换一个角度回答三个问题,从而重新定义什么是推荐系统:1.它能做什么;2.它需要什么;3.它怎么做。对于第一个问题“它能做什么”,我的回答是:推荐系统可以把那些最终会在用户(User)和物品(Item)之间产生的连接提前找出来。这里简单说一下“连接”

2021-05-25 11:19:15 208

原创 微积分01:微积分基本想法和解释

起源微积分诞生于17世纪,主要帮助人们解决各种速度,面积等实际问题如何求曲线的面积呢?以直代曲对于矩形,我们可以轻松求得其面积,能否用矩形代替曲线形状呢?应该用多少个矩形来代替呢?面积由来在ab之间插入若干个点,这样就得到了n个小区间。每一个小矩形面积为:近似得到曲线面积:当分割无限加细,每个小区间的最大长度为λ\lambdaλ ,此时λ→0\lambda \to 0λ→0曲边面积:从求和出发我们需要尽可能的将每一个矩形的底边无穷小莱布尼兹为了体现求和的感觉,给S拉长了,

2021-05-23 23:46:22 373

原创 高等数学基础07:梯度

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。梯度函数:z=f(x,y)z=f(x,y)z=f(x,y) 在平面域内具有连续的一阶偏导数,对于其中每一个点 P(x,y)P(x,y)P(x,y)都有向量,则其称为函数在点P的梯度。只有当,才有最大值。函数在某点的梯度是一个向量,它的方向与方向导数最大值取得的方向一致。 其大小正好是最大的方向导数例$设u=xyz+z^2+5,.

2021-05-23 23:45:15 6490

原创 高等数学基础06:方向导数

如上图,蚂蚁沿什么方向跑路才能活?函数:z=f(x,y)z=f(x,y)z=f(x,y)如果函数的增量,与这两点距离的比例存在,则称此为在P点沿着L的方向导数函数: f(x,y)f(x,y)f(x,y)在X轴正向e1⃗={1,0}\vec{e_1}=\{1,0\}e1​​={1,0} ,Y轴正向$\vec{e_2}={0,1 }$ 的方向导数分别为: fx,fyf_x,f_yfx​,fy​负方向导数:−fx,−fy-f_x,-f_y−fx​,−fy​定理:如果函数 z=f(x,y)z=f(.

2021-05-23 23:44:44 5967

原创 高等数学基础05:偏导数

偏导数在数学中,一个多变量的函数的偏导数,就是它关于其中一个变量的导数而保持其他变量恒定(相对于全导数,在其中所有变量都允许变化)。偏导数在向量分析和微分几何中是很有用的。对于一元函数y=f(x)只存在y随x的变化二元函数z=f(x,y)存在z随x变化的变化率,随y变化的变化率,随x﹑y同时变化的变化率。定义:设函数z=f(x,y)z=f(x,y)z=f(x,y) 在点(x0,y0)(x_0,y_0)(x0​,y0​) 的某个邻域内有定义定 y=y0y=y_0y=y0​, 一元函数f(x

2021-05-20 11:50:38 1582

原创 高等数学基础04:导数

导数导数(Derivative),也叫导函数值。又名微商,是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f’(x0)或df(x0)/dx。平均速度:(速度)v=s(路程)t(时间)但是如何表示瞬时速度呢?平均速度:(速度)v= \frac{s(路程)}{t(时间)} 但是如何表示瞬时速度呢?平均速度:(速度)v=t(时间)s(路程)​但是如何表示瞬时速度呢?$

2021-05-20 11:50:06 340

原创 高等数学基础03:函数的连续性

函数的连续性设函数 y = f (x)在点x。的某邻域内有定义,如果当自变量的改变量△x趋近于 零时,相应函数的改变量△y也趋近于零,则称y = f (x)在点 x。处连续。函数 在点 处连续,需要满足的条件:函数在该点处有定义函数在该点处极限 lim⁡x→x0f(x)\lim_{x \to x_0}f(x)limx→x0​​f(x)存在极限值等于函数值f(x0)f(x_0)f(x0​)函数在 x=0x=0x=0处的连续性?函数的间断点函数f(x)f(x)f(x) 在点x=x0x

2021-05-20 11:49:34 4046

原创 高等数学基础02:极限

数列按照一定次数排列的一列数:u1,u2,...,un,...u_1,u_2,...,u_n,...u1​,u2​,...,un​,... ,其中 unu_nun​叫做通项。对于数列{un},\{ u_n \} ,{un​}, 如果当n无限增大时,其通项无限接近于一个常数A, 则称该数列以A为极限或称数列收敛于A,否则称数列为发散。极限符号表示:x→∞表示“当∣x∣无限增大时”;x \to \infty 表示 “当|x|无限增大时”;x→∞表示“当∣x∣无限增大时”;x→+∞表示“当x无限增大

2021-05-20 11:49:01 984

原创 高等数学基础01:函数

函数的定义量和量之间的关系如:y=πr2y=\pi r^2y=πr2y=f(x)y=f(x)y=f(x),其中x是自变量,y是因变量。函数在x0x_0x0​处取得的函数值y0=y∣x=x0=f(x0)y_0=y|_{x=x_0}=f(x_0)y0​=y∣x=x0​​=f(x0​)符号只是一种表示,也可以:y=g(x),y=φ(x)、y=ψ(x)y=g(x),y=\varphi(x)、y=\psi(x)y=g(x),y=φ(x)、y=ψ(x)几种函数:1.分段函数:2.反函数:3.显函数与

2021-05-20 11:41:03 290

原创 Kettle12:Kettle作业和参数

本章讲解的作业和参数有如下几个案例01 作业02 参数03 表输入参数传递-常量传递04 表输入参数传递-变量传递-转换命名参数05 表输入参数传递-变量传递-转换内设置变量和获取变量06 表输入参数传递-变量传递-作业里设置变量07 发送邮件1.作业作业简介大多数ETL项目都需要完成各种各样的维护工作。例如,如何传送文件;验证数据库表是否存在,等等。而这些操作都是按照一定顺序完成。因为转换以并行方式执行,就需要一个可以串行执行的作业来处理这些操作。一个作业包含一个或者多个作业项.

2021-05-12 16:32:44 453

原创 Kettle11:Kettle脚本控件

本章讲解以下三种脚本的案例01 javascript脚本02 java脚本03 执行SQL脚本脚本1.脚本是转换里面的第七个分类。2.脚本就是直接通过程序代码完成一些复杂的操作。1.javascript脚本javascript脚本就是使用javascript语言通过代码编程来完成对数据流的操作。JS中有很多内置函数,可以在编写JS代码时查看。存在两种不同的模式:不兼容模式和兼容模式不兼容模式:是默认的,也是推荐的兼容模式:兼容老版本的kettlejavascript脚本-获.

2021-05-12 16:32:05 284

原创 Kettle10:Kettle映射控件

映射1.映射是转换里面的第十八个分类。2.映射是用来定义子转换,便于封装和重用。映射(子转换)映射(子转换)是用来配置子转换,对子转换进行调用的一个步骤。映射输入规范映射输入规范是输入字段,由调用的转换输入。映射输出规范映射输出规范是向调用的转换输出所有列,不做任何处理。案例:从t_orders表中获取数据,根据u_id查询t_users表,获取用户信息,并把数据保存到Excel分析:输入:表数据映射:映射(子转换)输出:Excel输出映射:映射输入规范查询:数据

2021-05-12 16:31:18 510

原创 Kettle09:Kettle统计控件

统计1.统计是转换里面的第十三个分类。2.统计是提供数据的采样和统计功能。分组分组是按照某一个或某几个进行分组,同时可以将其余字段按照某种规则进行合并。注意:分组之前数据应该进行排序!案例:从Excel读取数据,按照group进行分组统计,把结果保存到Excel分析:输入:Excel输入统计:分组输出:Microsoft Excel输出...

2021-05-12 16:30:41 617

scala-2.13.6.msi

scala安装包,版本2.13.6

2021-06-15

Azkaban调度工具,里面包含Azkaban安装包及依赖包

此Azkaban是在官网上下载后经过编译的,Azkaban安装包版本为3.56.0,包含了依赖包。只需解压即可使用。

2020-06-18

电商用户行为数据,来源于埋点数据

来源:电商用户行为埋点数据,包括:1.事件类型:install安装|launch启动|interactive交 互|page_enter_h5页面曝光|page_enter_native页面进入|exit退出等。2.行为类型:click点击|view浏览|slide滑动|input输入

2020-06-18

电商项目里的广告投放数据

电商广告投放信息表的数据,可以直接导入到hive中进行数据分析,数据表包含字段: 用户id', device_num string comment '设备号', device_type string comment '设备类型', os string comment '手机系统', os_version string comment '手机系统版本', manufacturer string comment '手机制造商', area_code string comment '地区编码', release_sid string comment '投放请求id', release_session string comment '投放会话id', release_sources string comment '投放渠道', release_params string comment '投放请求参数',ct bigint comment '创建时间'

2020-06-17

电商的用户商品店铺订单等基本业务数据

电商基本业务数据源:用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等

2020-06-17

本地hadoop支持文件.rar

文件解压后是hadoop.dll和winutils.exe,将这两个文件放入Hadoop的home下的bin目录下即可。

2020-06-04

apache-mahout-distribution-0.12.2.tar.gz

mahout是用来做大数据推荐系统和机器学习使用的框架,这个工具包官网下载非常慢,下载了一夜终于下载到了,刚好够上传的

2020-02-10

spark-1.6.2-bin-hadoop2.6.zip.006

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷6,共6卷

2020-02-05

spark-1.6.2-bin-hadoop2.6.zip.005

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷5,共6卷

2020-02-05

spark-1.6.2-bin-hadoop2.6.zip.004

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷4,共6卷

2020-02-05

spark-1.6.2-bin-hadoop2.6.zip.003

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷3

2020-02-05

spark-1.6.2-bin-hadoop2.6.zip.002

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷2

2020-02-05

spark-1.6.2-bin-hadoop2.6.tgz压缩分卷1

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来压缩,有多个卷,此卷是卷1,共6卷

2020-02-05

线性,逻辑,softmax,梯度下降回归算法.pdf

线性,逻辑,softmax,梯度下降法,特征提取等各种回归算法

2019-10-30

大数据各生态组件及机器学习、深度学习总结.txt

八斗培训机构的大数据各生态组件及机器学习、深度学习总结

2019-09-03

推荐系统数据集(音乐评分数据集).rar

此内容包括:用户画像数据:user_profile.data,物品(音乐)元数据:music_meta,用户行为数据:user_watch_pref.sml。可以使用此数据做一个推荐系统的demo

2019-09-03

XJad—绿色版的java反编译工具

XJad是一个绿色版的java反编译工具,非常简单轻巧,解压即可使用。

2019-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除