自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 资源 (1)
  • 收藏
  • 关注

原创 程序员的核心竞争力是什么?

程序员的核心能力技术基础:掌握编程语言、数据结构和算法,熟悉操作系统、计算机网络、数据库等计算机科学相关领域的知识。学习能力:程序员需要不断学习新的编程语言、框架和技术,以适应行业的发展和变化。具有自主学习和探索新技术的能力是程序员的核心竞争力之一。逻辑思维和问题解决能力:程序员的工作很大程度上是解决问题,因此具备严密的逻辑思维和分析问题的能力至关重要。团队协作和沟通能力:程序员需要与团队成员保持良好的沟通,共同解决问题。良好的团队协作和沟通能力能够提高工作效率,有助于项目的顺利推进。

2023-09-10 21:08:39 251

原创 如何在工作中体现数据开发的业务敏感度?

用套路体现自己懂数据

2023-09-09 14:43:38 296

原创 python导出依赖

上面的命令中,"." 表示当前目录,"--encoding=utf8" 表示使用 UTF-8 编码,"--force" 表示强制更新 "requirements.txt" 文件,即使它已经存在。这个文件通常被称为 "requirements.txt",它可以用来重建项目的虚拟环境,或者在其他机器上安装相同的依赖。执行完上述命令后,你会在项目根目录中看到一个新的文件 "requirements.txt"。这将会安装 "requirements.txt" 文件中列出的所有依赖包及其版本信息。

2023-05-08 21:56:43 1012

原创 shell中set -e

是一个 Shell 命令,它用于在脚本运行时自动退出,如果命令执行失败,则它将立即退出并返回一个非零的退出状态码。这个命令可以确保在脚本运行时,如果有任何错误发生,脚本将停止运行,避免继续执行可能会产生更多问题的命令。命令,当脚本中有命令执行失败时,脚本将继续执行后面的命令。这可能会导致一些潜在的问题,因为后续的命令可能会继续执行,而不考虑前面的命令是否执行成功。命令可以确保在脚本运行时自动退出,如果命令执行失败,则它将立即退出并返回一个非零的退出状态码,以避免可能的问题。本文由博客一文多发平台。

2023-05-08 21:42:05 2028

原创 如何成为一名数仓工程师?

数据仓库是一种面向主题的、集成的、变化慢的数据存储和管理系统,用于支持企业的决策制定和分析。它是一个包含了大量历史数据的数据库,能够将来自多个数据源的数据整合到一个统一的数据模型中,方便用户进行查询、分析和报表生成。1.有生产线自动化意识,技术实现解决重复工作,数据调度,报警,数据校验,数据测试等。4.解决问题的方式,如自己不能搞定,记录未解决的问题,每次开会必提,要解决方案,6.不吹牛逼,不炒概念,不吃老本,时刻学习,敢怼,敢承担。

2023-05-07 00:56:37 758

原创 python遍历数组

以上是常见的几种遍历数组的方式,根据不同的需求,可选择不同的方式。

2023-05-06 12:08:29 2016

原创 python数据处理中的常见问题

独热编码将一个类别数据的每个可能值转换为一个新的特征,并使用二进制值来表示。在有些情况下,需要将数据标准化,例如将数据缩放为范围或以零为中心并具有单位方差。在数据集中,许多数据可能是缺失的,这可能会干扰算法的结果。在使用机器学习算法时,通常需要将数据集分成训练集和测试集。可以使用train_test_split函数将数据集分割为训练和测试数据。处理数据时,必须将它们转换为正确的数据类型以进行计算。通常,可以使用astype()函数将数据类型转换为整数、浮点数、字符串等。

2023-05-05 23:18:34 768

原创 为什么大数据薪资高?

这使大数据行业的技能门槛较高,大多数入行人员需要不断学习和研究,因此其技能和经验的匮乏也为其提供了更高的薪资待遇。此外,不同的企业对大数据工程师的薪资待遇也会有所差别,一些不知名的小企业可能会对大数据工程师的薪资开出较低标准,而一些知名的大企业则会提供更高的薪资待遇,尤其是以数据挖掘、分析为核心的企业。总之,大数据行业的薪资比后端工程师高,除了技能门槛的高、人才需求旺盛、投入成本高、晋升空间广、工作内容有乐趣等因素外,还存在着诸多细节差别,需要具体综合考量,给出较为精确的答案。

2023-05-03 08:57:06 986

原创 大数据开发和后端开发的区别

后端开发主要负责处理Web应用后端的业务逻辑和功能实现,包括处理业务数据、交互逻辑、Web API接口的服务端实现、数据库设计和优化等工作。大数据开发主要负责处理大规模、高速度、异构、非结构化的数据,并进行数据挖掘、分析和应用。大数据开发需要使用大数据技术(如Hadoop、Spark等)进行数据存储、数据清洗、数据分析等工作。虽然大数据开发和后端开发的技术方向有所不同,但它们都需要具备扎实的编程基础和计算机基础,以及对相应技术的深入了解和应用能力。

2023-05-02 23:40:34 2103

原创 python在大数据处理的应用

python在处理大数据时很舒适

2023-05-01 06:29:34 1899

原创 浅谈大数据领域的云计算

在公司里面用了几年的云计算去处理大数据,确实好用的

2023-05-01 00:40:22 876

原创 大数据处理流程介绍

大数据处理的整个步骤流程

2023-04-30 07:08:37 3256

原创 如何学习python?

但是,如果你没有任何编程经验或背景,需要更多的时间来学习基础概念、语法和核心功能,建议安排至少2个月或者更长的时间来学习Python。Python在数据分析方面也有很多优秀的工具和库,例如在数据的处理、清洗、处理可视化方面比较优秀, pandas和numpy是使用Python进行数据分析的重要库。建议定期规划学习时间和目标,每天和每周都保持一定的学习和练习时间,不断积累经验和技能。学习基础概念后,需要进行一些简单的练习来加深对语法的理解,包括变量、条件语句、循环语句,列表、元组、字典、函数等。

2023-04-29 22:58:07 1008

原创 工作5年的程序员,怎么快速融入新公司

工作7年后,从一家公司换到另外一家公司了,从曾经的迷茫,到现在的有些自我怀疑,希望自己能更积极一些。

2023-04-28 19:41:46 62

原创 python的常用web框架比较

每个框架都有自己的优缺点,选择哪个框架取决于你需要什么样的功能和优势。成熟的项目经常会选择 Django 或 Flask,但对于小型和简单的应用程序,Bottle 和 Flask 会更快,并且学习这些框架也很容易,因此这些框架可能是更好的选择。

2023-04-27 22:17:02 214

原创 如何利用AI工具如chatgpt,辅助开发?

发现同事都用chatgpt来辅助开发了,这是一个很能提高效率的事情

2023-04-26 20:53:22 785

原创 python flask快速入门的10个问题

Flask中可以使用多种模板引擎,如Jinja2。安装Jinja2后,将其设置为Flask应用程序的默认模板引擎,并使用render_template方法渲染模板。Flask拥有丰富的扩展库,如Flask-WTF, Flask-Login等。使用pip安装这些扩展,并在Flask应用程序中引入它们即可使用。工作中需要简单写一下web服务来做一些事情,了解到python的flask可以快速启动。使用Flask中的FileField表单控件可以上传文件。Flask自带了一个测试客户端,可以用于测试应用程序。

2023-04-24 22:49:03 648

原创 Grafana 9.2学习笔记

学习 Grafana

2023-04-23 22:40:31 524

原创 3年前的薪资一样的同事,薪资差别2倍,是为什么呢?

已经工作7年了,不知道自己该具备什么样的能力。发现我以前的同事3年之后差别好大。有的还是 20k ,年薪30万的;有的已经快40k,年薪60万了。这种要高薪的底气主要来源哪里呢?

2023-04-22 23:35:01 339

原创 chatgpt回答mysql查询优化

当你的需求明确的时候,能表达出来自己的疑问,chatgpt给你的回答简直是超凡的。比同事回答的详细,比百度回答的具体,只是有些真假需要你去判断。

2023-04-22 22:20:50 378

原创 向chatgpt提问最重要的技巧

写提示词的核心思想:概念与类比。需要代入自己具体的问题和前提条件,然后gpt的回答会更吻合。

2023-04-02 16:33:30 642

原创 关于kafka,你背了哪些面试题(持续更新中)

背面试题不仅面试有用,也是一种很好的学习方式,关于kafka的面试题持续更新中

2023-03-09 15:48:11 323

原创 【数据仓库】01. 分层设计有哪些好处?

为什么要进行数据分层?

2022-11-30 15:21:24 434

原创 SQL求连续活跃天数

SQL计算连续活跃天数

2022-04-11 20:15:18 2087 3

原创 MySQL中的列转行

mysql中的列转行在工作中遇到的一个MySQL列转行的统计:场景用户访问app时会跳出标签选择页面让用户选择喜欢的标签,在数据库中记录的是数组样式的字符串,数据样式大致如下:iduser_idlike_tagscreate_time11101[“八卦”,“数码”,“财经”]2020-09-01 09:19:5221102[“数码”]2020-09-01 09:23:5231103[“数码”,“影视”]2020-09-01 09:29:52

2020-09-12 18:44:34 4139

原创 sql面试题_求秒杀时商品的hold时长

sql面试题20200607表结构以下是数据库中 4 个表的表结构:表一:订单表(表名:table_order),主键是order_id+goods_id,用于记录每个订单的商品明细。同一个订单可能有多个商品,每条信息记录每个订单里不同商品的件单价和销售件数等,销售额=件单价price*销售件amountorder_iduser_idgoods_idadd_timepriceamountdepartment_id1236111203402014/3/22 1:19

2020-06-11 21:15:04 423

原创 grouping sets操作符简化group by+union all操作

在一个GROUP BY 查询中,根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果进行UNION ALL操作。GROUPING SETS就是一种将多个GROUP BY逻辑UNION写在一个HIVE SQL语句中的便利写法。GROUPING SETS会把在单个GROUP BY逻辑中没有参与GROUP BY的那一列置为NULL值,这样聚合出来的结果,未被GROUP BY的列将显示为NULL。如果说聚合函数(Simple UDAF / Generic UDAF)是HQL聚合数据查询或分析的中枢处

2020-05-08 22:48:46 1693

原创 Hive抽样取数

在生成中表的数据量太大,几亿行的时候,希望取出部分数据来看一下数据特征,采用抽样取数的方法是比较靠谱的。主要有利用随机数抽样、分块抽样、分桶抽样这几个方式。如下是例子和说明:建表语句CREATE TABLE tripdata (country STRING, city STRING, visitors INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY...

2020-05-07 23:38:25 925

原创 MySQL常用函数大全

MySQL字符串函数函数描述实例ASCII(s)返回字符串 s 的第一个字符的 ASCII 码。返回 CustomerName 字段第一个字母的 ASCII 码: SELECT ASCII(CustomerName) AS NumCodeOfFirstChar FROM Customers;CHAR_LENGTH(s)返回字符串 ...

2020-05-06 22:21:34 167

原创 SQL查询A表中有B表中没有的数据

A、B两表,找出ID字段中,存在A表,但是不存在B表的数据。A表总共13w数据,去重后大约3W条数据,B表有2W条数据,且B表的ID字段有索引。方法一使用 not in ,容易理解,效率低 执行时间为:1.395秒1 select distinct A.ID from A where A.ID not in (select ID from B)方法二使用 left join…on…...

2020-05-05 16:46:16 25975 7

原创 SQL练习:求断点前的连续天数

背景:有客户购买车险,去另一家公司购买后又回到本公司,求转到其他公司购买保险前在本公司购买车险的连续年份。--创建一个person对象create table person( pname varchar2(10), pid number(20));--添加数据记录insert into person (pid,pname) values (2020,'a')...

2020-04-17 22:09:52 245

原创 数仓岗位常见面试问题

1.自我介绍2.说下最近的项目,你当时负责的哪个岗位?是甲方还是乙方,就是IT部门是吧,你负责的前台处理还是后台etl的处理?3.你主要用的一些etl工具有哪些?调度呢?自己有没有配置调度文档之类的?4.从原系统的数据抽过来到我们数据仓库这个系统,一般分哪几种场景去抽这个数据?是每天调,还是一个月调,还是一次性调完?5.那你在抽数的过程中有没有碰到过哪些数据问题或者性能问题?比如数据量变少...

2020-04-15 21:56:06 6051 2

原创 Hive面试题5

业务场景说明:假设客户在我司系统中存在唯一的标示为客户号(CLIENT_NO),客户在向我司投保时,会产生一笔保单,这笔保单的唯一标示为保单号(POLICY_NO),保单信息中包括了保险开始时间(INSURE_BEGIN_DATE)与结束时间(INSURE_END_DATE),以及需要支付的保费(ACTUAL_PREMIUM)。以下是改流程主要涉及到的三张表。请了解表结构以及数据情况并作答:一、...

2020-04-04 19:58:58 315

原创 【sql练习】计算时间差的秒数(考虑非工作日)

例如:审批开始时间是2020-02-07 20:09:57,结束时间是2020-02-10 22:30:30,请问审批共耗时多少秒?(扣除所有的法定节假日和周六日)数据准备节假日表数据DROP TABLE IF EXISTS holiday_table;CREATE TABLE holiday_table ( DATE_ID date, DAY_WORK int, isWork...

2020-02-03 23:19:43 1926

原创 数据仓库基本特征

数据仓库基本概念数据仓库,简称数仓,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。只有一个存在的必要:分析。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以...

2019-12-04 23:01:45 7206

原创 SQL中的case when函数使用

建表语句create table testScore ( tname varchar(30) null, ttype varchar(10) null, tscor int null ); insert into testScore values ('张三','语文',80); insert into testSco...

2019-11-13 23:51:00 255

原创 spark面试题1:Hadoop和Spark 、Hive的关系

大概说一些这三个框架各自是什么,解决了什么问题。HadoopHadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。hadoop的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理狭义上的Hadoop是指框架本身;hadoop生态系统,不仅包含hadoop,还包括...

2019-11-04 23:54:35 1303

原创 Hive面试题6:动态分区

面试时问的一道情景题:假设我创建了一张表,其中包含了2016年客户完成的所有交易的详细信息,现在我插入了100万条数据,我想知道每个月的总收入。问:如何高效的统计出结果写出步骤即可分析:首先分析这个需求,其实并不难,但是由于题目说了,要高效。而且数据量也不小,直接写sql查询估计肯定会挂。我们可以通过根据每个月对表进行分区来解决查询慢的问题。 因此,对于每个月我们将只扫描分区的数...

2019-11-03 11:04:59 292

原创 Hive使用row_number()函数有重复值,顺序固定吗

分组topN。求出每个部门工资最高的员工信息建表语句create table employee (empid int ,deptid int ,salary decimal(10,2));插入数据insert into employee values(1,10,5500.00);insert into employee values(2,10,4500.00);insert into...

2019-11-02 17:17:17 8200 2

原创 SQL面试题3:怎么对连续数据进行归类?case when、if

面试常问:写sql语句对某列数据进行归类,比如给大于90分的标上优秀,80-80良等,怎么写,会给你一个具体的题目。这时候就需要用到case when了,case when 我之前觉得很麻烦,后来拿熟悉的Java代码去对比理解,发现记忆更深更理解了。case when的语法的重要性,可以类比java代码。写代码的人都知道,程序有3种结构。顺序结构、选择判断结构、循环结构。对于初学写代码的人会写...

2019-11-02 00:09:29 655

照片验证工具_v1.3.8_install.exe

考证的时候,验证上传证件照片是否合格的工具。可缩小图片尺寸和输出合格的考证上传照片。只要1.4M的大小,简单好用。

2020-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除