自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

元星的博客,一起努力呀

元星的博客,一起努力呀

  • 博客(130)
  • 收藏
  • 关注

原创 clickhouse数据去重函数介绍(count distinct)

2.groupBitmap仅支持无符号整形值去重, uniqExact支持任意类型去重。1.整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+非精确去重函数:uniq、uniqHLL12、uniqCombined。精确去重函数:uniqExact、groupBitmap。3.非精确去重场景,uniq在速度上有优势。测试数据量:2000w。

2024-04-22 11:43:40 116

原创 Mac中Chrome全屏模式工具栏和书签栏消失如何解决

全屏模式下显示工具栏快捷键:shift+command+f 快捷键 【浏览器快捷键】原因:在全屏的状态下按了 shift+command+f 导致工具栏和书签栏消失。切换全屏模式快捷键:control+command+f 快捷键 【mac快捷键】2️⃣、上图中的视图中勾选第二个在全屏模式下始终显示工具栏。1️⃣、重新按下 shift+command+f。

2024-04-11 23:00:00 134

原创 YARN-Client 与 YARN-Cluster 区别

在YARN中,每个Application实例都有一个ApplicationMaster进程,它是Application启动的第一个容器。1、YARN-Cluster模式下,Driver运行在AM(Application Master)中,它负责向YARN申请资源,并监督作业的运行状况。2、YARN-Client模式下,Application Master仅仅向YARN请求Executor,Client会和请求的Container通信来调度他们工作,也就是说Client不能离开。

2024-04-11 19:53:34 321

原创 【Sublime详解】mac最好用的编辑器-配置-插件- Alignment-费元星

可按照以上的参数说明,自己增加对齐的字符来增强功能。我一般需要在。

2024-04-11 19:49:58 625

原创 spark 报错 Address already in use: Service ‘org.apache.spark.network.netty.NettyBlockTransferService‘

假设1:我通过客户端连接过HiveServer2,但查询慢的时候我就直接关闭客户端,但是HiveServer2和datanode就没有关闭连接,但我可能一年就查几次,不会导致这么多连接没关闭吧,这个假设可能性太小。先kill 掉 HiveServer2这个进程,发现ss -s命令下端口占用减少,netstat命令 都快了 好多。假设2:application 程序 有隐形的代码自动连接HiveServer2没有关闭连接,这个可能性也不大,我关闭HiveServer2后我的应用还是照常跑。

2024-04-10 23:15:00 563

原创 Spark大数据常见错误及解决方案-HDFS-费元星

另外鼓励大家对每个知识点都先去源码里搜一下。有几个点非常重要:1.源码中的错误提示是非常系统的,因为什么原因报了什么错,而网站搜索的结果,非常片面,而且人人云亦云。-- 费元星。

2024-04-10 22:30:00 840

原创 chrome 浏览器报错 This page will not function without javascript enabled

在访问公司spark history 页面时,发现页面加载不全,并提示如上报错,因此按照如下步骤,已解决问题。

2024-03-27 22:30:00 516 1

原创 【算法】Hash 算法-关注优化细节

/给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。// Related Topics 并查集 数组 哈希表 👍 1960 👎 0。//解释:最长数字连续序列是 [1, 2, 3, 4]。//输入:nums = [0,3,7,2,5,8,4,6,0,1]// 请你设计并实现时间复杂度为 O(n) 的算法解决此问题。//输入:nums = [100,4,200,1,3,2]// 采用hash表,时间复杂度O(n)

2024-01-30 00:15:00 417

原创 二分查找-很基础的一种必须掌握的算法,复杂度logn必写的

二分查找:因为数组是有序数组,将数组中的数字每两个分为一组,先找出位于中间的一组,确定这一组的两个数组是否相同。如果这两个数字相同,那么只出现一次的数字一定在它的后面,此时查找它后半部分。如果是第1组,那么这一组的第1个数字就是只出现一次的数字。给定一个只包含整数的有序数组 nums ,每个元素都会出现两次,唯有一个数只会出现一次,请找出这个唯一的数字。异或解法:因为两个相同的数字异或的结果是0,最终的结果就是只出现一次的数字。输入: nums = [1,1,2,3,3,4,4,8,8]

2024-01-29 19:45:56 368

原创 【数仓统计】Spark hive SQL 统计数据分析一文全理解

计算每个品牌总的打折销售天数,注意其中的交叉日期,比如 vivo 品牌,第一次活动时间为 2021-06-05 到 2021-06-15,第二次活动时间为 2021-06-09 到 2021-06-21 其中 9 号到 15号为重复天数,只统计一次,即 vivo 总打折天数为 2021-06-05 到 2021-06-21 共计 17 天。对框架底层有体系化的了解,熟悉或精读某个框架模块的源码,例如Spark AQE,要了解如何评估倾斜键,以及决策异常如何解决,是否有升级空间,如何给开源贡献代码;

2024-01-29 18:03:25 460

原创 【算法路线图】算法小抄题解-一文理解算法体系-费元星

c++ // dp[i][j]: 表示word1的前i字母,word2的前j个字母,编辑距离 if (word1[i - 1] == word2[j - 1]) dp[i][j] = dp[i - 1][j - 1] else dp[i][j] = min(dp[i][j - 1], dp[i - 1][j], dp[i - 1][j - 1]) + 1。

2024-01-27 19:52:14 1406

原创 删除有序数组中的重复元素-练习双指针编程最好的一道题-费元星

简单理解:采用双指针,总左边进行开始,如果有新元素则将前面移动到后面。然后加一个剪枝操作,如果前后元素大于1,再移动。这是练习编成双指针最好的一道题,逻辑简单,优化简单。,返回删除后数组的新长度。删除重复出现的元素,使每个元素。

2023-12-08 20:45:00 393

原创 软考高级信息系统项目管理师必备知识点(记忆点必备)

涵盖九大知识管理体系、配置管理、绩效管理、知识管理、大项目管理、需求管理、变更管理、合同管理、网络安全、最新行业计算机领域动态、统筹规划、计算机应用等方方面面。如整体管理包括:项目章程、整体管理计划、项目初步范围说明书、整体管理执行、监督和控制整体管理工作、整体变更管理。如时间管理包括:活动定义、活动排序、活动资源估算、活动历时估算、进度计划表、活动收尾。如采购管理包括:采购管理计划编制、编制合同、招标、供方选择、合同管理、合同收尾。如人力资源管理包括:人力资源管理计划、团队组建、团队建设、管理团队。

2023-12-06 23:30:00 1821

原创 软考高项第四版五组十域表+ITTO背诵笔记及助记

还是得靠理解记忆,下面是文档,也用anki制作了记忆卡片,需要的可以自行导入卡包。基于第四版做的笔记,助记是自己编的。

2023-12-06 22:30:00 604

原创 回溯算法题型分类

提示:Flood 是「洪水」的意思,Flood Fill 直译是「泛洪填充」的意思,体现了洪水能够从一点开始,迅速填满当前位置附近的地势低的区域。类似的应用还有:PS 软件中的「点一下把这一片区域的颜色都替换掉」,扫雷游戏「点一下打开一大片没有雷的区域」。回溯算法是早期简单的人工智能,有些教程把回溯叫做暴力搜索,但回溯没有那么暴力,回溯是有方向地搜索。解题的步骤是:先画图,再编码。提示:字符串的问题的特殊之处在于,字符串的拼接生成新对象,因此在这一类问题上没有显示「回溯」的过程,但是如果使用。

2023-12-05 23:00:00 438

原创 回溯算法与深度优先遍历-算法

在分步解决问题的过程中,当它通过尝试发现现有的分步答案不能得到有效的正确的解答的时候,它将取消上一步甚至是上几步的计算,再通过其它的可能的分步解答再次尝试寻找问题的答案。的那条边的起始结点。我刚开始学习「回溯算法」的时候觉得很抽象,一直不能理解为什么递归之后需要做和递归之前相同的逆向操作,在做了很多相关的问题以后,我发现其实「回溯算法」与「我个人的理解是:「回溯算法」强调了「深度优先遍历」思想的用途,用一个。而「深度优先遍历」强调一种遍历的思想,与之对应的遍历思想是「广度优先遍历」。」有着千丝万缕的联系。

2023-12-05 21:00:00 528

原创 【算法】合并K个升序链表

当然也可以采用分治的思路;或采用最小堆的思路;面试中校招同学写出一种即可,如果能全概览讲一下,就更加分了。这道题主要考察的是归并排序,因为已经升序过了,更好理解了。请你将所有链表合并到一个升序链表中,返回合并后的链表。给你一个链表数组,每个链表都已经按升序排列。将它们合并到一个有序链表中得到。

2023-12-01 22:45:00 451

原创 IntelliJ IDEA安装使用教程#intellij idea

做为基础开发软件,idea、pycharm、phpstorm是高级企业级开发中常用的图形化工具。重点在于破解:我采用的方式是插件,无线试用期;需要的话联系我,无偿提供:Q9715234。

2023-12-01 16:28:21 473

原创 电视盒子影视源分享

播放端有很多开源的框架,也有一些开源的软件,infuse、aptv 等,我们采用一个github 项目,重新编译的一个app。最难的播放源,一个是质量、一个是稳定性和速度。这个考虑使用nas,但是这个是面向离线资源,更多的是最追求4K画质或音质的。前言:最近给爸爸妈妈买了一个TCL电视,问我怎么开会员,开哪个好。这正好问到了我的专业上,破解APP安装起来,刚开始采用电视家、小苹果等,后来因特殊环境被封禁了。结论:有能力自己搞;没能力,买现成的,拼夕夕上也有很多软件U盘,拿回家可以直接安装,几十块即可。

2023-12-01 16:26:14 1013

原创 今天领导分享了一个探测端口的命令-linux下提示bash:command not found

主要放置一些应用软体工具的必备执行档例如c++、g++、gcc、chdrv、diff、dig、du、eject、elm、free、gnome*、 gzip、htpasswd、kfm、ktop、last、less、locale、m4、make、man、mcopy、ncftp、 newaliases、nslookup passwd、quota、smb*、wget等。主要是这四个:/bin , /usr/bin, /sbin, /usr/sbin。首先就要考虑root 的$PATH里是否已经包含了这些环境变量。

2023-11-30 20:30:00 1771

原创 【动态规划总结】动态规划算法掌握一种技巧-完美理解

简单来说,动态规划其实就是,给定一个问题,我们把它拆成一个个子问题,直到子问题可以直接解决。),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。然后呢,动态规划就致力于解决每个子问题一次,减少重复计算,比如斐波那契数列就可以看做入门级的经典动态规划问题。动态规划是比较难掌握的一种算法,在学校就怕它,每次刷题都躲着它,工作多年,做的题多了,和人交流的多了,发现也没有那么难,掌握好技巧即可。动规解题技巧要领:死记硬背下来。

2023-11-30 20:00:00 467

原创 【搜索-回溯】 多数之和-两数之和-三数之和 四数之和 组合总和

面试常用的多数之和

2023-11-30 07:15:00 689

原创 Ham火腿 无线电爱好者资格认证

经过:中国无线电管理,如果电台超过5w,要求设台要有操作者和执照,因此通过背了晚上几个小时题加上早晨去考试坐地铁的时间,背了365道题,一次性通过。考试30道选择题,答对25道即可通过。考试通过后(一周可拿到成绩),会让去验机,大家可以关注下北京无线电协会的公众号,验机的同时可以拿到操作者,然后执照证(呼号配给)可以通过邮寄。起因:自己是一个兴趣广泛的同学,每周末都会去爬山,有一次遇到一个无线电大佬,因此走上了Ham这条路。

2023-11-29 20:46:35 357

原创 【算法-链表】完美解题-给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。

很久没复习算法题了,最近校招面试,有机会把这些题再复习一下,温故而知新。这道题如果复杂度保持O(N) 有很多种办法,是一个锻炼编程能力的好题;1.采用两遍链表遍历,第二遍找到位置,直接进行节点调整即可。给你一个链表,删除链表的倒数第。个结点,并且返回链表的头结点。你能尝试使用一趟扫描实现吗?3.采用压栈,先进先出。

2023-11-29 20:18:54 386

原创 【详解】Spark数据倾斜问题由基础到深入详解-完美理解-费元星

spark hive数据倾斜,一文从浅到深,完美理解和解决

2023-11-28 23:30:00 848

原创 详解Nginx location 各种符号 [=|~|~*|^~] /uri/ { … } 解释-费元星

这里是直接转发给后端应用服务器了,也可以是一个静态首页# 第一个必选规则# 第二个必选规则是处理静态文件请求,这是nginx作为http服务器的强项# 有两种配置模式,目录匹配或后缀匹配,任选其一或搭配使用/static/;;#第三个规则就是通用规则,用来转发动态请求到后端应用服务器#非静态文件请求就默认是动态请求,自己根据实际把握#毕竟目前的一些框架的流行,带.php,.jsp后缀的情况很少了:8080/#直接匹配网站根,通过域名访问网站首页比较频繁,使用这个会加速处理,官网如是说。

2023-11-28 12:14:49 2372

原创 【软件总录】常用十大 百大高频神器大数据开发软件

四、对比工具:个人常用Idea(command+D比较)或者Vimdiff增强、界面化的比较是Bcompare。sublime(记事本),自己安装了一些常用的自定义插件,方便提升个人效率,例如列编辑增强、正则增强等。二、数据库:Navicat,国人体验最好的一个,Dbeaver(小松鼠)个人认为最强大的一个;一、代码编辑器:idea(java)pycharm(python)、item2(命令行)、五、音乐软件:常用酷狗,其他的免费听歌方式不方便讲,可以联系我。

2023-11-24 17:24:43 309

原创 【综合】软件领域算法总攻略

软件开发从14年实习开始,至今已近9年;刚毕业时文章多数记录在博客园,后受公司避风港原则,文章逐步发布在内网,或个人笔记中。业界比较认可的是用leetcode进行刷题,但缺少一个螺旋攀升的指南,后听过一些前辈的算法课,逐步有一些自己的方法论。这里记录自己的一些自己心得体会。

2023-11-24 17:11:27 322

原创 将博客搬至CSDN

将博客搬至CSDN

2023-11-24 16:43:00 331

原创 第二天打卡-长度最小的子数组

本题关键在于理解滑动窗口,这个滑动窗口看文字讲解 还挺难理解的,建议大家先看视频讲解。拓展题目可以先不做。1.今天是算法集中营第二天的课程,有一道中等的题,考验的是双指针的应用。视屏讲的很详细,建议把leetcode 的非官方讲解也看下。

2023-08-24 23:38:46 111

原创 算法训练营-day1-元星

大家能把 704 掌握就可以,35.搜索插入位置 和 34. 在排序数组中查找元素的第一个和最后一个位置 ,如果有时间就去看一下,没时间可以先不看,二刷的时候在看。熟悉 根据 左闭右开,左闭右闭 两种区间规则 写出来的二分法。先把 704写熟练,要。

2023-08-23 23:34:33 30

原创 关于用户留存率的计算的几个层次-费元星

最近接到一个需求,需要统计用户留存率,而且要一次统计多个模块,多个日期的留存率,那如何通过一段hive(SQL)来实现该需求呢,在网上看到一篇很精妙的文章,参考这篇文章实现了需求,可以说是目前见过的一次性统计多个时间区间留存率的最佳实践了,感谢楼主的经验分享,好东西,多记录,多分享!首先用户留存率一般是面向新增用户的概念,是指某一天注册后的几天还是否活跃,是以每天...

2020-09-04 12:11:00 30

原创 linux命令执行返回值(附错误对照表)费元星

linux命令执行返回值(附错误对照表)转自:http://blog.sina.com.cn/s/blog_6739945f0100zt4b.html在 Linux 下,不管你是启动一个桌面程序也好,还是在控制台下运行命令,所有的程序在结束时,都会返回一个数字值,这个值叫做返回值,或者称为错误号 ( Error Number )。在控制台下,有一个特殊的环境变量$?,保存着前一个程序...

2020-09-01 15:42:00 51

原创 【Postman 客户端js动态参数】Postman 客户端js动态参数设置-费元星完美解决

好久没写博客了,有好几年了,最近几年被大数据业务忙的焦头烂额,今天有时间研究一个小工具,有点曾经加班研究小软件的感觉了。

2020-08-18 21:38:00 17

原创 linux shell 中"2>&1"含义-完美理解-费元星

笨鸟先飞,先理解。脚本是:nohup /mnt/Nand3/H2000G >/dev/null 2>&1 &对于& 1 更准确的说应该是文件描述符 1,而1 一般代表的就是STDOUT_FILENO,实际上这个操作就是一个dup2(2)调用.他标准输出到all_result ,然后复制标准输出到文件描述符2(STDERR_F...

2019-09-30 15:16:00 33

原创 浅谈移动端设备标识码:DeviceID、IMEI、IDFA、UDID和UUID -费元星

在公司做数据分析的时候,发现NA端有很多ID,所有来系统的理解一下,有问题大家多指出【心路历程】最近刚好在思考工作中统计数据所用的标识码产生的数据误差到底有多大,借此机会几番搜索资料+请教大神,整理出此文。因为自己是产品经理,所以出发点是整理知识点、理解个大概、知道什么不能用、什么标识是靠谱的,并不研究太深入。毕竟非专业开发,有时候若了解知识点太深入,反倒会更困惑(关联知识点太多)。即...

2019-07-11 15:47:00 33

原创 费元星-关于百度在数据仓库-层级架构上的思考

目前在做的数据产品都是基于数据仓库上实现,主要的应用方式包括固定报表、数据查询、数据挖掘等。在知识类相关的数据分析产品中,通常需要对多个业务系统的数据进行集成,更需要对数据分层进行科学的规划。为什么分层我们对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的...

2019-04-27 08:01:00 140

原创 费元星的第二代车,基于图像识别和超声波的无人智能小车

1.智能车动力学模型:本次比赛采用四轮车,后轮用作驱动,前轮用于转向。针对研究的内容主体是在控制和协调上,为降低系统分析与综合的难度,在建立动力学模型前,先作如下几点假设: (1)智能车的车体、车轮以及道路均为刚体,所有运动均在同一个水平面上; (2)智能车车体关于其纵轴线对称,质心即为其几何中心; (3)智能车行进时无滑移,前面转向轮转角一致。2.根据感知控制层得到的实操模型车取得的数据包括...

2019-04-20 14:18:00 11

原创 【完美解决】Spark-SQL、Hive多 Metastore、多后端、多库

【完美解决】Spark-SQL、Hive多 Metastore、多后端、多库【完美解决】Spark-SQL、Hive多 Metastore、多后端、多库SparkSQL 支持同时连接多种 Metastore,包括Atlas2(PB),Hive 0.12+几种格式。用户可以在一条SQL语句中操作来自多个 Metastore 的表。配置 Metastore按照正常的使用方式配置 conf/h...

2018-11-30 13:33:00 18

原创 【费元星】crt 无法上传文件,总是显示盾牌表示-完美解决

将如下内容保存到文件中,已.bat 结尾taskkill /f /im explorer.exeattrib -s -r -h "%userprofile%\AppData\Local\iconcache.db"del "%userprofile%\AppData\Local\iconcache.db" /f /qstart explorer使用管理员权限,执行。完美解决crt无法上传文件...

2018-10-22 17:37:00 16

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除