自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

YJ语

简单的事情简单做,复杂的事情简单做

  • 博客(203)
  • 资源 (2)
  • 收藏
  • 关注

原创 PostgreSQL中使用窗口sum()

SQL 错误 [42601]: ERROR: syntax error at or near “sum”¶ Position: 1796。

2023-05-23 18:40:50 517

原创 psycopg2 使用 executemany 新增数据 爆 can‘t adapt type ‘numpy.int64‘

使用psycopg2将一下DataFrame的数据,插入到PostgreSQL的某个模式中,具体方法如下:

2023-02-21 16:43:49 747

原创 psycopg2连接PostgreSQL下的不同模式(SCHEMA)

在PostgreSQL下有很多个不同模式(SCHEMA),psycopg2连接指定默认public的模式。current transaction is aborted, commands ignored until end of transaction block获取列名字

2023-02-09 11:18:24 1438

原创 HIVE 分区表 增加字段 忘记 CASCADE

HIVE 分区表 增加字段 忘记 CASCADE

2022-12-05 16:12:27 1763

原创 HIVE near LEFT voucher_post_date in select clause

【代码】HIVE near LEFT voucher_post_date in select clause。

2022-11-25 08:45:04 446

原创 SQL 进行递归

在SQL中写递归语句,一般可以干以下的事情(第2点可能常出现于一些SQL笔试题)

2022-10-21 10:45:27 555

原创 查看本地MYSQL数据库的IP地址

MYSQL IP地址

2022-10-11 10:01:45 43711 2

原创 wps/excel 正则表达式 提取数字

本来想着使用Python,用正则表达进行数据的处理,但是考虑到业务人员不会使用Python,在进行使用的时候,发现业务人员使用的是wps,原微软中的一些公式在wps中没有。

2022-08-23 15:28:21 2253 2

原创 power bi -分组累计求和

power bi分组累计求和

2022-07-11 16:10:58 3847

原创 灵魂发问power bi中的Calculate函数到底是什么?

Calculate的使用原理

2022-07-08 10:03:02 2671 1

原创 pymysql 向MySQL 插入数据无故报错

pymysql.err.ProgrammingError: (1064, “You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ‘-支付买家数,粉丝支付买家数,加购商品-支付买家数,引导店铺’...

2022-06-20 14:35:04 1385 3

原创 2022春招面试总结

时间 公司 地点 岗位 关注核心 渠道 面试形式 工作职责:12月1日 文远知行 海珠 数据分析 自动驾驶领域 boss 笔试(挂) 1月20日 素士 天河 数据分析 过(没去有点后悔) 2月10好 天长信息 数据挖掘 高速公路领域的数据分析 boos 面试取消 2月11号 丝一 天河 数据分析(偏编程) 约面失败 2月15号 东软 中邮机器人 boos 面试失败 2月16号 若羽臣 BI管培生 boss 面试失败 2月16号 广州信用卡中心 系统岗 boss 一面失败

2022-06-19 15:29:19 246

原创 Python常见方法总结(方法封装)

Python

2022-06-02 10:33:36 281

原创 中国联通 22春招 群面

题目:将一个3.1米的卡车,中间可能需要过一个3m的隧道,运送到山顶进行5G基站的建设问题:1)设计方案,尽可能的完善2)不考虑,对应的时间和成本如果可以,选出一名代表人进行总结发言总结:一定给过隧道:1)从隧道本身,说是限高3m,但是3.1m的车也可能可以过(或者对隧道进行改造)2)从车本身,针对车进行改造,例如将车胎放气,需改车的底盘3)从货物本身,将货物进行拆解,然后换小车进行将获取分批运过去,然后进行组装(更甚至是不直接把货放下,人工将货物搬过去)不一定过隧道:(核心点是找另一

2022-05-30 14:09:50 386

原创 Python自动化办公word、ppt转pdf

Python自动化办公,在工作的过程中偶尔会遇到大量的word、ppt转pdf的情况,针对这情况,归纳了一份Python使用,希望可以加大办公的效率!import osimport comtypes.clientdef get_path_for_word(): # 获取当前运行路径 path = os.getcwd() print('当前路径:' + path) # 获取所有文件名的列表 filename_list = os.listdir(path)

2022-03-26 15:01:10 2028

原创 常见数值型类型特征

在一些数值型类型的,常使用的特征###连续型的统计特征,如均值、方差等##传入:去掉id和label的DataFrame##传出:特征DataFramedef psfeatureTime(data): #data = pd.Series(data) # 均值 df_mean = data.mean(axis=1) # 方差 df_var = data.var(axis=1) # 标准差 df_std = data.std(axis=1)

2022-03-23 22:36:22 585

原创 Python获取前几天的时间

在处理文件的时候,有些时候会经常使用某个时间范围的数据针对这种天天手写str的情况,写个方法调用~import datetimedef get_before_day(day, before): today = datetime.datetime.strptime(day, '%Y-%m-%d') offset = datetime.timedelta(days=-before) result = (today + offset).strftime('%Y-%m-%d')

2022-03-14 12:02:38 1239

原创 商品常见指标 - 商品毛利

最近接触到一个很有意思的东西 - 商品毛利 - 代表商品的正负盈亏状况:商品毛利 = (商品售价-商品成本)/商品售价

2022-02-10 10:49:27 283

原创 mysql中获取累计数据

有较长一段时间没写SQL,最近快速的捡起遗忘的一些点语法:sum(字段1) over(partition by 字段2 order by 字段3 rows between unbounded preceding and current row) as 新字段名参考:https://blog.csdn.net/weixin_43332500/article/details/105033468...

2022-02-08 10:05:26 439

原创 DataFrame中列的顺序改变

一个强强迫症患者,针对一些列的顺序格外难受,利用一下可以改变列的顺序order = ['date', 'time', 'open', 'high', 'low', 'close', 'volumefrom', 'volumeto']df = df[order]

2022-01-25 16:55:12 821

原创 数据库中字段类型转换

把字符串类型的字段转换成整形处理:select max(CAST(id AS int)) from dictionary;其中:CAST(id AS int)的意思是把字符串类型的id转换成int类型,然后使用max比较函数得到id值最大的结果!当然了,还有一种办法,就是把id改为整形类型,就不用转换了。...

2022-01-16 17:12:07 1566

原创 DataFrame中满足某些要求,修改列名

t.BDM[t.标识==‘团批’] = ‘团批’

2022-01-13 17:31:22 139

原创 type Vector takes type parameters

在参考:http://dblab.xmu.edu.cn/blog/1454-2/进行学习的时候突然发现爆出一个这样的bug最后只要改成这样就可以了解释:vector是个容器,需要添加类型

2022-01-01 17:14:00 750

原创 兴趣电商-人货场

抖音电商作为新一代内容电商(也可以称为兴趣电商),与传统电商(淘宝等)和社交电商(拼多多等)存在一定的差异。作为内容电商,抖音电商主要从两方面去创造用户感兴趣的内容从而吸引消费者。一是通过创造视频端的内容去获取精准粉丝,二是通过创造匹配用户的商品端内容去吸引精准用户。运营抖音号就是内容电商的主要运营方式,那抖音平台如何帮助抖音电商解决市场,效率和品牌三大问题?一方面,通过多元化的内容场景让抖音电商的品牌有更多机会出现在用户眼前,激发用户购买需求。另一方面,抖音平台通过简化了购买路径

2021-11-10 09:57:10 320

原创 Hive - DDL(data define language)(库表得增删改)

DDL(data definition language):数据库定义语言,也就是对于Hive中的一些表、数据库进行增删改的操作1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> create database if

2021-10-24 20:06:36 798

原创 Hive的数据类型

一、基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。二、集合数据类型针对集合数据类型比较难理解,特地拿了一个例子——进行举例:1)假设某表有如下一行,我们用JSON格式来表示其数据结构。在Hive下访问的格式为2)访问三种集合列里的数据,以下分别是ARRAY,MAP,STRUCT的访问方式三 类型转化类似Java中的了数据类型的转化机制,小转大可以,但是大转小

2021-10-24 17:02:01 1412

原创 Hive基本操作

在学习的过程中,经常忘记hive的一些操作命令(例如启动,关闭),特定把一些常用的操作命令給记下来(1)启动hive[atguigu@hadoop102 hive]$ bin/hive(2)查看数据库hive>show databases;(3)打开默认数据库hive>use default;(4)显示default数据库中的表hive>show tables;(5)创建一张表hive> create table student(id int, name

2021-10-24 16:20:25 718

原创 Hive基础概念

1.1 什么是hiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在YARN上总结:HQL首先根据映射表,从HDFS中获取对应的路径,然后将Hive转化为对应的MR操作1.2 Hive的优缺点1.2.1 优点1)操

2021-10-24 15:47:16 700

原创 源起:这是一场悲催的笔试

最近,面了一个挺好的公司,所处的地理位置和方向都是我喜欢的,在面试中跟两位面试官聊的还是可以的,本以为能过~但是在面完之后,突然发了一份笔试的笔试题过来一看,sql应该问题不大(微笑)二看,hive,我的天hive的语法我基本上忘记了三写,因为hive大多数忘了,所以使用就使用了mysql的语法进行笔试,并告知面试官我使用的是mysql,以及附上自己的解决思路最后的最后我挂了,回头反思一下,挂的点很有可能就是hive这里一狠心开始复习之前所学习的hive——避免春招,突然遇到这种心痛不已的

2021-10-24 14:35:39 1138

原创 12.Hadoop学习总结

2021-10-24 14:02:55 1172

原创 APP的数据指标体系构建(举例)

在对产品进行学习的时候,看到一个有趣的题目,特此记录下来进行学习其中然我感触最深的是2.2问的思路,对于一个活动的成效,单纯只是看指标是不可以接受的,需要考虑其它的因素问题下载星巴克APP,并基于该产品并阐述以下问题1.请为该产品搭建一个完整的指标体系2.假设以下场景:我们所在的应用团队希望促进用户充值,并鼓励使用余额消费,请你为它涉及一个运营活动,其中包括:①如何策划该活动②如何评估该活动的活动效果针对问题1针对问题2.1针对问题2.2完整的思维导图如下:参考:htt

2021-10-16 15:43:00 666

原创 [群邑]那几个月的日子

距离我的第一份实习已经过去挺久来着,我实习在一家知名的广告公司,在这期间收获了很多,在国庆的这段时间,针对这段实习经历进行一次复盘,记录下实习的那几个月!文章目录1 工作1.1 本职1.2 知识2 成长2.1 养成习惯2.2 主动性2.2 资源收集(核心!)2.3 沟通能力2.4 技术能力2.5 业务能力3 不足3.1 效率3.2 专业度3.3 哑巴1 工作1.1 本职对于我的本职工作主要有以下三部分组成:一是正常的取数、周报、月报:先说取数,大概是占这部份工作的50%,别看这部份内容很简

2021-10-07 16:22:41 148

原创 nlp情感分析

如果相对一个评论信息进行打分,你该如何操作?正常的情况下,使用训练的模型对评论进行打分,不仅需要进行建模、打标签、模型的调优,这是一件很繁琐的事情!这里记录两个方法,一是直接调用SnowNLP库,二是调用百度的接口一:直接调用SnowNLP库(因为该模型使用的是买菜市场的评论信息,进行打分时存在一定误差)from snownlp import SnowNLPimport pandas as pd# 读取文件df = pd.read_excel('评论.xlsx')# 数..

2021-10-04 21:04:38 273

原创 任务计划管理器:——》电脑自动化运行程序

人物计划管理器(注意不要含中文名字!)最核心只要知道3个参数怎么放程序或者脚本:pyhton.exe(固定格式补需要修改)添加参数:E:\temp2\2020\autodata.py(你python文件的绝对路径)起始于:E:\temp2\anaconda(python.exe的绝对路径)...

2021-08-30 17:43:54 165

原创 [卡牛]春招笔试

这是卡牛的一道数据分析题目:“你爱我、我爱你、蜜雪冰城甜蜜蜜…”真得也太洗脑了蜜雪冰城一直在产品、价格、渠道、推广上走的都是亲民化路线,恰恰是这样的策略,蜜雪冰城稳稳的站住了下沉市场,这次mv的主要目标1.提高品牌声量、促进产品销售转化2.进一步塑造”亲民平价“的品牌形象其中mv的主要特点:1.画面以ip形象“雪王”为主角、魔性起舞、视觉层面增加品牌ip形象曝光2.bgm改变英文民谣《哦,苏珊娜》,只有一句歌词、洗脑、节奏欢快、产生病毒效果传播渠道官方首选发布在了年轻人文化沃土与文化交流的

2021-08-22 22:25:13 1792

原创 一个无限容量的超级计算机,最多可以连接多少个tcp 2021年秋招笔试题

昨天网易笔试的时候,突然遇到了一个这样的题目:一个无限容量的超级计算机,最多可以连接多少个tcp?这样的题目,真心优点出乎我的意料,因为这好像偏开发的岗位,而不是数据分析岗位!趁着还有记忆,过来回顾老早学的计算机网络,翻出来去年学的思维导图笔记最后,我们来看看这到题的解决思路【个人思路+网上参考】:首先我们看看TCP协议的表头:我们可以知道源端口和目的端口,总共占了32位,那么一半就是16个字节所以对于一个IP来讲,最多可以连接2^16-1 = 65535个tcp...

2021-08-22 21:49:33 313

原创 原来漏斗分析应该这样用!

写在前面:今天阅读了一个有趣的文章~原来漏斗分析可以这么使用!它最主要的思想如下:一共进来了多少流量,表达意图的流量占比如何,占比大小可能代表存在什么样的问题,实现意图的流量是多少,多少是否反映我们这个功能的好坏?核心观点是,因为漏斗分析是纵向的分析,但是在每一个漏斗模块可以横向进行分析,细扣流量的变化以及意图。原文如下:Original 胖里 胖里的日常 Today朋友们好呀,我是胖里,欢迎来到我的每周一更。今天算是有感而发,聊点跟漏斗分析相关的内容。这两天在数据管道公众

2021-08-05 10:34:13 190

原创 CNN中各结构的闪光点(巧妙构思!)

1 传统的神经网络模型中,使用多个线性模型+非线性的激活函数,使神经网络极富变化线,可以有效拟合数据的分布情况,但是也容易造成过拟合。2 卷积(主要是卷积核)标准卷积结构反卷积(使用在图像分割中)空洞卷积(使用空洞——扩大感受野)深度分离卷积(使用1*1的结构,极大减少了参数,使用模型可以训练的更快,有效嵌入!)1 池化平均池化,最大池化——》可以凸显有效特征的重要性,同时减少了参数全连接引用了大大的权重矩阵,以及非线性的激活函数结构...

2021-08-04 13:37:23 101

原创 深度学习中的规范化(BN、LN等四种规范化)

这篇文章介绍深度学习四种主流的规范化, 分别是Batch Normalization(BN[9]), Layer Normalization(LN[7]), Instance Normalization(IN[8])以及Group Normalization(GN[2])。 1. 作用 为啥用Normalization? 这是因为训练深度神经网络会收敛很慢,很有可能发生梯度弥散或者梯度爆炸。用了Normalization可以训练得很快,学习更好。 2. 做法 给定输入xx则是BN层的可学..

2021-08-03 19:45:37 990

原创 输出分析建议的人太多,沉淀数据思维做成数据产品的人太少!

有些时候建议,也仅仅是建议!而最好的结果是将建议转化为产品!成体系!输出分析建议的人太多,沉淀数据思维做成数据产品的人太少!

2021-08-03 18:51:40 96

EXCEL函数大全(excel工作常用)

EXCEL函数大全(excel工作常用)

2022-07-12

Multi-Dimensional Root Cause —— Squeeze.pdf

根因定位算法:Squeeze

2021-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除