自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 【无标题】

Spark 和 Hadoop的MapReduce 对比spark 和mapreduce 对比速度:Spark 的设计目标是比 MapReduce 更快,这要归功于它的内存处理能力。 Spark可以在内存中运行迭代算法,也可以缓存中间数据,而MapReduce则将中间数据写入磁盘。灵活性:Spark 是一种通用的集群计算框架,而 MapReduce 是一种用于数据处理的特定编程模型。 Spark 具有用于 SQL、流式处理和机器学习的内置库,而 MapReduce 需要单独的工具来完成这些任务。数据

2023-10-22 14:55:51 244

原创 【无标题】

kimball 建模思想

2023-10-21 12:01:12 269

原创 flink双流join结果数据重复问题排查

Kafka的两个topic,topic1 为用户下单明细记录(包含订单基本信息),topic2为下单渠道记录(包含下单来源和渠道内容设备相关的信息) ,要求实时统计每分钟内所有订单下的渠道来源分布详情。具体做法是1.双流关联得到每个订单的渠道信息明细interval join 2.根据渠道维度汇总聚合数据。但是在实时流数据输出的结果和离线订单有gap,发现双流关联后中间结果数据有重复订单数据。

2023-10-08 19:42:47 273

原创 hive 常用函数

max(e.max_inc_rank) over(partition by e.mid) max_inc_rank_for_row -- 升序的最大值存放在每一行。,sum(1) over(partition by mid,num1 ) as acc_by_mid_num1 -- 每个mid重复进入播放计数。,if(d.max_num=d.num,d.in_out_time_rank,0) as max_inc_rank -- 升序的最大值。主要背景是想看下现在“共享账号”的用户量级有多少。

2023-10-01 18:09:41 773

原创 spark SQL 任务参数调优1

要了解spark参数调优,首先需要清楚一部分背景资料Spark SQL的执行原理,方便理解各种参数对任务的具体影响。一条SQL语句生成执行引擎可识别的程序,解析(Parser)、优化(Optimizer)、执行(Execution) 三大过程。其中Spark SQL 解析和优化如下图Parser模块:未解析的逻辑计划,将SparkSql字符串解析为一个抽象语法树/AST。语法检查,不涉及表名字段。

2023-10-01 18:04:19 2404 1

原创 spark ui 指南

注意看到stage 19-24 是 跳过了, 原因是spark shuffle 的数据会写到磁盘固化,当上游当上游stage(19-24)和之前执行过的stage 相同时,可以直接用之前的结果.正在运行中的任务有 thread dump ,跟踪task 的执行过程, 目前只能点开 driver 的节点, executor 节点 点击不开.每个状态的stage 数量 (active, pending, completed, skipped, failed)

2023-10-01 17:59:46 2269

原创 ck 计算留存

clickhouse 计算留存

2023-10-01 17:48:35 230

原创 chatgpt科普

因为不管什么任务,我们的要求和ChatGP的应答都是由文字所表达的,因此只要这个任务可以写成文字,我们就可以把该任务的要求+应答组合成一个对话范文,让 ChatGPT 通过单字接龙来学习。当我们教会鹦鹉一些基本对话后,就可以让鹦鹉自由发挥,有时鹦鹉会蹦出一些非常有意思的对话,这时我们就可以给它吃的,强化它在该方向的行为。语言处理需求:人类步入文明社会后,尽管已不必在野外求生,但仍然需要群体协作地创造知识、继承知识和应用知识,满足社会的需求,来维持自己的生计,而这三个环节全都是依靠语言来实现的。

2023-06-21 11:39:05 1935

原创 孤单数算法

腾讯算法笔试训练

2023-03-04 23:02:50 483

原创 《on java》lambda 表达式

一.定义lambda 表达式和累的定义和匿名内部类实现了同样的效果,但是代码量小很多。lambda 产生的是函数,而不是可,在编程时理解为函数。二.使用lambda 表达式 : 参数->表达式1.只有哟各参数,可以只写这个参数,不写括号 static Body bod = h->h+"no parens ";2.第一种是特殊情况,通常是用括号奖参数包裹起来 static Body bod2 = (h)-&...

2022-05-09 22:26:05 226

原创 阿里笔试sql

1.假定你当前有两张淘宝交易订单表order和sub_oder,存储于hive环境,其表结构信息如下,一个订单ID下可能多个子订单,一个子订单代表一个买家在一个卖家购买的一种商品,可能购买多件,整个支付金额是在主订单上。 create table order( order_id bigint --订单ID ,sub_order_id bigint --子订单ID ,seller_id bigint --卖家ID ...

2021-10-28 21:46:25 568

原创 hive 安装步骤以及问题解决方案

1.安装hive2.启动hive1. 先启动hadoop 见hadoop 文档2.常见操作步骤3.报错1.比较难解决的问题 是最后运行schematool -dbType mysql -initSchema 初始化hive时候报Unable to load authentication plugin 'caching_sha2_password'.schematool -dbType mysql -initSchemaSLF4J: Class path conta...

2021-02-10 16:33:59 1288

原创 mac zsh: command not found: vim

mac 配置bash时导致基本命令失效的解决办法背景:在mac环境下安装hive 时候,由于脑残修改了bash_profile 文件中的配置错误,导致所有hadoop 的命令都用不了,然后在网上搜各种解决方案,从开始的权限问题排查,到后来定位到时bash 的配置问题.于是在修改bash文件时候结果更糟糕,连一般的vim 命令都用不了了,根本打不开文件,后来这个博客,给了灵感 救了命了https://blog.csdn.net/weixin_40200876/article/details/879380.

2021-01-25 12:05:15 10026 3

原创 安装hadoop 问题记录

1.安装hadoop 报错目录1.安装hadoop 报错2.hadoop 实例运行3.总结1.启动bin/hdfs namenode -format 命令后包如下错误 SHUTDOWN_MSG: Shutting down NameNode at huwei.local/192.168.1.1002021-01-24 00:09:11,446 INFO common.Storage: Storage directory /usr/local/Cellar/hadoop/3...

2021-01-24 19:31:34 1522

原创 mac ssh 免密登录 localhost

1.背景最近在自己笔记本上安装hive,在启动hadoop时候会报错提示macbook-pro.local: Permission denied (publickey,password,keyboard-interactive).是因为mac上ssh没有免密登录导致,因此需要在本机上解决免密ssh 登录localhost 问题,在翻阅了无数博客后,都没有结果,最后在两篇博客上结合起来找到了办法,记录一下.用到以下连篇文章上的内容.1.https://blog.csdn.net/CYJ2014go/a

2021-01-23 14:43:45 463 1

原创 数据同步

1.基本概念binlog:https://www.cnblogs.com/rjzheng/p/9721765.html

2020-12-16 13:29:18 94

原创 hive 安全报错

SemanticException Cartesian products are disabled for safety reasons. If you know what you are doing, please sethive.strict.checks.cartesian.product to false and that hive.mapred.mode is not set to 'strict' to proceed. Note that if you may get errors or in

2020-12-05 15:37:25 3309

原创 2020-10-24 大数据面试问题

上周面试数据开发职位主要从公司的视角讲一下记录下面试流水。1.三面技术一轮hr,面到了cto 整体来看是这一周技术含量最高信息量最大的一个,1到4轮过了4个小时,技术上的问题主要问的对数据分层的理解。1. 一面自我介绍、目前团队的规模多大(20)、你负责的模块是那些(购物、短信、增长)、那几个人在做2. 数据架构图划分(五层架构讲了7分钟左右)3. 指标口径怎么统一 、那些工作(定标准、报表和核心、场景)、数据治理怎么做(元数据管理)动作:业务迭代下线模型 。依据:指标热度、模型事实冗.

2020-10-24 14:36:02 1928

原创 数据仓库笔试题-pdd

题目:商品活动表 goods_activity,字段id主键、goods_id 商品id,act_id 活动id,create_time 活动创建时间 、status 上线状态2 上线 ,3 下线问题一、每个活动的每个商品 的开始时间和结束时间?问题二、假设数据中有脏数据,同一个活动可能 两次上线,也可能两次结束,需要把活动上线重复的状态按照时间取第一条,结束上线状态重复的按时间取最后一条。-- 第一题:-- id,goods_id,act_id,create_time-- asdf3..

2020-10-20 23:41:15 1459

原创 大数据开发 之 留存类统计写法

问题:统计活跃用户的近7天、30天留存率?这个是数据仓库开发同学基本都会遇到的问题,属于留存类问题,实现方式也有很多种类,但是在大数据场景下的效率差距很大,因此整理自己写过四种输出留存的方式和对比下优劣。

2020-09-13 17:06:43 1001

原创 spark sql 异常

1.spark SQL 测试过程中报如下错误org.apache.spark.sql.AnalysisException--20/08/25 11:42:08 INFO Client: resolveAppExceptionMsg, msg start20/08/25 11:42:08 INFO Client: resolveAppExceptionMsg, msg:User class threw exception: org.apache.spark.sql.AnalysisExce...

2020-08-25 13:18:37 1146

原创 动态规划- 【气球游戏】

题目:【气球游戏】小Q在进行射击气球的游戏,如果小Q在连续T枪中打爆了所有颜色的气球,将得到一只QQ公仔作为奖励。(每种颜色的气球至少被打爆一只)。这个游戏中有m种不同颜色的气球,编号1到m。小Q一共有n发子弹,然后连续开了n枪。小Q想知道在这n枪中,打爆所有颜色的气球最少用了连续几枪?输入描述:第一行两个空格间隔的整数数n,m。n<=1000000 m<=2000第二行一共n个空格间隔的整数,分别表示每一枪打中的气球的颜色,0表示没打中任何颜色的气球。输出描述:一个整数表示小Q打爆.

2020-08-16 00:21:10 629

原创 Mapreduce 教程-翻译

Mapreduce 教程--大数据基本功一.mapreduce概念mapreduce定义:是hadoop的处理层,将整个任务拆分成各个独立的子任务并行处理的大规模数据编程模型。整个任务被用户提交到master主节点上然后被拆分成子任务并分配给各个从节点。mapreduce编程模型是函数式构造的类型风格。1.1了解mapreduce了解hadoop的mapreduce从以下几个问题入手,hadoop看起来像什么,what,why and mapreduce 怎样工作...

2020-07-27 00:38:33 347

原创 hive SQL

1.假定你当前有两张淘宝交易订单表order和sub_oder,存储于hive环境,其表结构信息如下,一个订单ID下可能多个子订单,一个子订单代表一个买家在一个卖家购买的一种商品,可能购买多件,整个支付金额是在主订单上。 create table order( order_id bigint --订单ID ,sub_order_id bigint --子订单ID ,seller_id bigint --卖家ID ...

2020-06-24 10:24:53 513

原创 倾斜join优化 Skewed Join

翻译:倾斜join优化设计 https://issues.apache.org/jira/browse/SPARK-295441.背景数据倾斜是数据表在集群中分区之间分布不均匀导致的。数据倾斜会严重降低查询性能,特别实在join的场景下。在集群中,大表之间join需要shuffling并且数据倾斜会导致任务极端不平衡的运行。有三个主要的方法处理skew join:1.增加任务的并行数,使用spark.sql.shuffle.partition参数,让数据分布均匀2.使用广播hash j...

2020-06-23 00:33:12 1654

原创 Fast inverse square root

链接:https://en.wikipedia.org/wiki/Fast_inverse_square_root#cite_note-mrob-4推导

2019-05-26 16:54:43 1169

原创 文章标题

k-means 聚类 hadoop 思路

2017-11-09 10:49:22 279

原创 欢迎使用CSDN-markdown编辑器

k-means 聚类hadoop 平台1.1 在参考了 《数据算法-hadoop 、spark 》 289 页;文章 Research on Parallel k-means Algorithm Design Based on Hadoop Platform 基于云计算平台Hadoop的并行k-means聚类算法设计研究;http://blog.csdn.net/kgh

2017-11-09 10:32:20 248

原创 k-means 聚类hadoop 平台

1. k-means 聚类hadoop 平台   思路    1.1 在参考了        《数据算法-hadoop 、spark 》 289 页;文章 Research on Parallel k-means Algorithm Design Based on Hadoop Platform      基于云计算平台Hadoop的并行k-means聚类算法设计研究;http:/

2017-11-09 10:29:30 493

原创 vs2013 编译问题c++

1. 原因:由于你使用了vs2012,相比较vs2010以及之前的vs为更高版本,致使msvc不兼容!方法:在项目右键属性-配置属性-常规中,平台工具集选用为合适平台即可,我这里就选择 vs2010 (v100).2. 链接器工具错误 LNK2026 XXX模块对于 SAFESEH 映像是不安全的解决方法:1.打开该项目的“属性页”对话框。2.单击“链接

2017-09-26 10:39:47 687

原创 vector 基础

vector遍历 vector的遍历一般使用迭代器int arr[]={1,2,3,4........};vectorint > ivec(begin(arr),end(arr));for(auto it=ivec.begin();it!= ivec.end();++it)1或者采用int arr[]={1,2,3,4........};vectorint > ivec(begi

2017-06-30 10:03:28 280

原创 Server Tomcat v8.0 Server at localhost failed to start. 问题解决方法?

tomcat 启动失败问题

2016-04-16 21:46:56 56510 6

翻译 迅雷面试题

c问题:编程实现:两个整数的和,不适用如任何操作符,只使用系统调用printf实现。printf "%*s"*表示输出位数,具体的数据来自参数表printf格式字符串中与宽度控制和精度控制有关的常量都可以换成变量,方法就是使用一个“*”代替那个常量,然后在后面提供变量给“*”现在用程序说明#includeint add(int a

2015-03-14 08:57:30 495

转载 c++ this指针

每个对象中的数据成员都分别占有存储空间,如果对同一个类定义了n个对象,则有n组同样大小的空间以存放n个对象中的数据成员。但是,不同对象都调用同一个函数代码段。那么,当不同对象的成员函数引用数据成员时,怎么能保证引用的是所指定的对象的数据成员呢?假如,对于例9.6程序中定义的Box类,定义了3个同类对象a,b,c。如果有a.volume( ) ,应该是引用对象a中的height,wi

2015-03-03 17:35:36 381

原创 c++文件流(txt输入输出)

//解题思路:(按C++语言特性表述)//1.读取1.txt文件的前两列//2.按照题中要求把符合要求的数存放在一个数组中//3.把十进制数组转化为字符串形式并以文件的方式输出。 #include#include#include#include using namespace std;const float PI=3.14;char a[200][5

2014-06-07 23:53:58 762

原创 c++文件流(txt文件处理)

//解题思路:(按C++语言特性表述)//1.读取1.txt文件的前两列//2.按照题中要求把符合要求的数存放在一个数组中//3.把十进制数组转化为字符串形式并以文件的方式输出。 #include#include#include#include using namespace std;const float PI=3.14;char a[200][5

2014-06-07 23:52:28 533

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除