棒棒糖one-CSDN博客

原创 hive查找字符出现的位置find_in_set和locate 函数

问题场景查找Face这个标签在image_labels字段中出现的位置。尝试了2个函数，find_in_set和locate 函数，如下所示select feed_id,db_time, user_id,image_labels, find_in_set('Face',image_labels) as a, locate('Face',image_labels) as b from gravity.ods_gravity_items_hourly where d_s be

2022-05-06 12:23:31 6781

原创用户分层RFM模型

1、基础理论与相关指标2、实现过程3、结果分析

2021-03-31 17:44:19 293

原创 Sql优化

查询语句中不要使用*尽量减少子查询，采用关联查询（inner join、left Join等）减少使用 in , not in ,使用exists, not exists 或关联语句替代where子句中尽量避免使用or 来连接，若一个字段有索引，一个没有索引，则会使引擎放弃使用索引而进行全表扫描，尽量用union 或union all 进行替代（在确认没有重复数据或不用删除时，使用union all 更好一点）增加中间表，尽量不要在查询的时候进行统计尽量避免在where字句中对字段进行null值.

2021-03-29 11:26:51 177 1

原创斐波那契数列

运用方法：递归调用代码实现：class Solution(object): def __init__(self, name, salary): self.name = name self.salary = salary def fib(self, n): """ :type n: int :rtype: int """ if n == 0: retu

2021-03-28 10:46:11 137

原创 Python机器学习——KNN

目录原理步骤案例原理1、KNN（K-nearest neighbors）：意为K近邻。取名由来or算法思想：如果想要了解一个人的经济水平，只需要知道他最好的5个朋友的经济能力，对他的这五个朋友的经济水平求平均就是这个人的经济水平2、在一个没有标签的样本进入算法后，首先计算他与训练集中每个样本的距离，找到与他最近的K个样本，然后用他这K个最近邻居的标签来确定它的标签3、属于机器学习中有监督的分类预测模型，K表示要用到多少个邻居的数量步骤1、给定测试样本，计算每个测试样本与训练集中每个样本的距

2021-03-15 10:57:10 158

原创 Python 岛屿个数判断

Python 岛屿个数判断题目：解题思路：题目：给一个 01 矩阵，1 代表是陆地，0 代表海洋，如果两个 1 相邻，那么这两个 1 属于同一个岛。我们只考虑上下左右为相邻。岛屿: 相邻陆地可以组成一个岛屿（相邻:上下左右）判断岛屿个数。01 矩阵范围<=200*200# 例：a = [ [1,1,0,0,0], [0,1,0,1,1], [0,0,0,1,1], [0,0,0,0,0], [0,0,1,1,1]]# 有三个岛屿解题

2021-03-13 16:39:31 533

原创数据分析常见问题

题目1：携程APP会经常给用户发放不同的折扣券。假设有三种类型的折扣券A, B, C ；这三种折扣券同时通过APP直接发放给用户，且每张折扣券的优惠程度，有效日期大致一样。用户可以在一次同时使用多种优惠券，平台可以根据折扣券码得知哪张优惠券被使用, 同时平台还拥有这些用户的个人数据，例如年龄，性别，订单记录等。如何量化折扣券使用户额外消费的金额? 以及如何通过数据分析得知哪种折扣券最能吸引用户再次使用APP下单？（1）、如何量化折扣券使用户额外消费的金额?GMV提升量 = 本不会下单的用户却下单G

2021-03-03 17:25:56 473

原创提取出所有用户每两次访问之间的平均时间间隔

题目：根据要求写出SQL用户登录表（login）结构如下：uid（用户的id，字符型）login_date(用户访问日期）要求：提取出所有用户每两次访问之间的平均时间间隔。...

2020-12-09 17:49:24 1154

原创 hive中的lateral view explode函数

原文链接：https://blog.csdn.net/helloxiaozhe/article/details/102627647hive> select * from explode_lateral_view;OKa:shandong,b:beijing,c:hebei 1,2,3,4,5,6,7,8,9 [{"source":"7fresh","monthSales":4900,"userCount":1900,"score":"9.9"},{"source":"jd","mon

2020-07-03 11:06:35 1781

原创 Python 巨人吃豆

代码题：有一个巨人，每走一米需要吃一颗豆子，身上最多带m颗豆子，桥长n米，桥这边有无数颗豆子，问巨人过桥最少要吃多少颗豆子。（巨人可以在桥上放豆子折返）1、m=60，n=80 最少需要多少颗；如何证明是最少2、m=60, n=81 最少需要多少颗3、写代码实现 f(m,n)要求1个小时内返回结果，给出分析、思路和代码。# coding=utf-8def f(tempM,tempN): count = 0 # [minN,maxN] minN = 0 m

2020-06-12 18:28:26 448

原创窗口函数三种排序

排序窗口函数dense_rank() over(order by Score desc) as 'Rank' rank() over(order by Score desc) as 'Rank'row_number() over(order by Score desc) as 'Rank'dense_rank()函数可以将排序按自上往下排，相同分数并列第一，下一个分数就是第二，不跳跃；则两个分数排名（Rank）相同。平分后的下一个名次应该是下一个连续的整数值。换句话说，名次之间不应该有“间隔”

2020-06-01 10:26:47 2142

原创 python 分类型数据转化数值型

将分类型变量转换成数值型变量的两种方法一、map映射性别映射数值先创建一个map ,再将map映射到表格中的值sex_mapping = {"male": 0, "female": 1}train_df['Sex'] = train_df['Sex'].map(sex_mapping)二、get_dummies（）函数pandas.get_dummies(data, prefix=...

2020-04-21 23:37:25 6607

原创 SQL窗口函数实现累加求功能

1、语法：sum(字段1) over(partition by 字段2 order by 字段3 rows between unbounded preceding and current row) as 新字段名2、功能：实现组内累加3、实例：表sheet1，内容如下：先对表中每人每月的收入求和： select name,mon,sum(amount) as tota_amount...

2020-03-22 19:40:29 17385

原创数据分析面试概念汇总

经常遇到一些不知道说的是什么的英文缩写，今天就看来整理一下，免得以后面试被问到尴尬1、召回率（recall），准确率（accuracy），精确率（precision）准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量。https://blog.csdn.net/qq_37466121/article/details/877190442、GMVGMV (Gro...

2020-03-22 17:57:52 564

原创 SQL中的时间函数

1、常用：year()、month()、day()、minute()、second()、分别取日期的对应部分curdate()——2020-3-22 取当前日期curtime()——22:47:37 取当前时间weekofyear（）当前时刻是全年中的第几周dayofweek（）当天是一周内的周几2、格式转换：(1)、date_format函数date_format(“201...

2020-03-22 16:30:48 1255

原创分别使用SQL、R和python将宽数据和长数据互相转换

在进行数据处理时，通常需要对表的格式进行调整，将长表转换成宽表，或将宽表转换成长表，那么在这里总结下集中常用工具来进行表格式转换的方法。一、什么是长数据和宽数据？长数据表格式如下：宽数据表格式如下：二、使用mysql 进行转换SELECT student,MAX(CASE subject WHEN '语文' THEN score END) AS '语文',MAX(CASE sub...

2020-03-17 23:37:51 2352

原创独立样本与配对样本t检验

spss操作全力推荐医咖会这个医学网站，上面讲解非常齐全，下附链接：https://www.mediecogroup.com组间均值是否存在差异，使用t检验独立样本t检验1、需满足条件①、数据满足独立性、②、样本均数服从正态分布、③、两个总体方差齐，可选用两个样本均数比较的t检验2、进行判断①、逻辑上判断是否满足独立，②、数据量比较大时，一般可认为数据满足正态分布③、方差齐次...

2020-03-15 22:48:47 13776

原创 windows10下安装fbprophet并在jupyter notebook 中测试

安装教程如下：亲测有用https://blog.csdn.net/weekdawn/article/details/87881820成功后在conda中出现如下：下面来说下之后怎么在jupyter notebook 中使用新建的虚拟环境来调用fbprophet首先cmd1、激活虚拟环境(conda activate py372、在该环境下打开jupyter notebook(p...

2020-02-04 22:05:18 925

原创将引用矩阵转换成vosviewer可识别的txt格式并作图

一、转换数据格式输入数据格式如下：代码import pandas as pdimport csv#读csv文件def readCsvFile(file_name): birth_data = [] with open(file_name,encoding = 'utf-8') as csvfile: csv_reader = csv.reader(csvfile) # 使...

2020-02-02 17:48:41 3794 11

转载 Windows下LaTeX安装教程与新手入门

一、安装教程参考链接：https://blog.csdn.net/jackandsnow/article/details/88407909二、入门教程https://blog.csdn.net/Emily_Buffy/article/details/90180909写的非常详细，也很实用...

2020-02-02 17:09:26 2450

原创 jupyter notebook修改默认文件夹

1 首先通过cmd调出命令行窗口，输入jupyter notebook --generate-config如下图：2 打开显示的文件路径：C:\Users\wangm.jupyter\jupyter_notebook_config.py中的jupyter_notebook_config.py文件3用编辑器打开py文件搜索 notebook_dir关键词，找到这个位置：修改路径，wi...

2019-12-21 18:29:00 115

转载 R语言因子型数值转数值型

一直觉得只要是数字，不管是什么类型的，都可以通过as.numeric()函数转换为对应的numeric类型的数字，例如x<-“123”，x为character类型，而as.numeric(x)则为numeric类型的123。但是因子(factor)类型却不一样。 a<-factor(c(100,200,300,301,302,400,10))，它们的值分别为100 200 300...

2019-10-02 12:58:26 5044

原创 Python读取CSV成数据框并进行筛选和相关性检验

一、第一种方法读取后为list，再转化为数据框import csvfrom pandas.core.frame import DataFramecsv_file=csv.reader(open('合并.csv','r'))content=[] #用来存储整个文件的数据，存成一个列表，列表的每一个元素又是一个列表，表示的是文件的某一行for line in csv_file: #...

2019-09-27 17:20:17 7510 1

原创 R语言数据变形melt和dcast用法

reshape2包中的dcast函数和acast函数，两个函数都可以将长格式数据转换成宽格式数据。dcast与acast几乎没有区别，唯一的差别在于acast函数的输出结果没有行标签，dcast函数的输出结果有行标签。

2019-09-12 12:02:08 25187

原创用In Design编辑页眉页脚和页码

首先要有一个pdf文件，下载安装ID这个软件打开选择窗口——>实用程序——>脚本跳出来这个小框框，选择脚本的PlaceMultipagePDF.jsx选项，双击，选择桌面的pdf文件，导入大概是这个样子：双击A-主页，出现两个空白页，在相当于一个模板，在这上面进行的操作，后面的页面会继承主页操作于是我们之后的操作都是在主页上进行的，先插入logo吧Ctrl+D可...

2019-09-05 18:00:36 2349

原创由学科引用矩阵计算相似度

本文是用Excel表格内的学科引用矩阵计算得到学科相似度，分为以下几个步骤：第一步，读取Excel数据,返回行标签和列标签和内部的数值（n维数组）。第二步，对数据按行进行计算相似度。其中这里写了2个计算相似度的方法，一个是cosine相似度，另一个是由张琳的这篇文章《Diversity of References as an Indicator of theInterdisciplina...

2019-08-13 10:24:43 1619 8

原创统计mysql中学科引用表中学科引用次数

将学科相互引用表中的数据，统计出来，做成学科引用次数的矩阵table2格式如下：字段re_sub即引文所在学科，ar_sb即文章所在学科，有这两个字段即可计算学科引用次数，并将其填充到Excel表格中，做成矩阵形式import pymysql.cursorsimport logginglogging.basicConfig(filename='log.log', ...

2019-07-12 15:37:00 209

原创学科引用表

要将article的学科和reference的学科做全连接，如下：article表reference表article与reference关联表还有一个是journal对应的subject表好，四张表全部都在这了，现在要做出一张学科之间相互引用的表第一步：将article和reference表分别和journal_subject表做内连接，得到两张新表(SELECT t.ar...

2019-07-12 15:28:54 241

转载 excel批量生成文件夹和txt文件

一、由Excel表格数据批量生成文件夹1、启动Excel，在A列中复制已输入好的文件名或直接在Excel中输入，一个单元格一个文件名。在B1中输入="md "&A1，注意引号为英文状态下，且md后有一个空格。2、复制B列，在记事本中粘贴后，保存，文件名后缀用“.bat”，也可直接保存后，把后缀名改为"bat”。然后直接双击运行尽可以看到了。二、由Excel表格数据批量生成文本文档...

2019-06-27 11:48:16 19029 2

原创查询各部门最高薪水

面试遇到一个题，如下所示：给出每个部门员工薪水最高的员工信息emp_no, dept_no, salary表1：dept_empemp_no员工编号dept_no部门编号from_dateto_date表2：salariesemp_no员工编号salary薪水from_dateto_date...

2019-06-24 21:48:04 3933

原创列转行关联矩阵

将a表中的数据转换成b表的格式表a表b1、sum函数法SELECT arsubject, SUM( CASE resubject WHEN 'A' THEN 1 ELSE 0 END) AS A, SUM( CASE resubject WHEN 'B' THEN 1 ELSE 0 END) AS B ,SUM( CASE resubject WHEN 'C' THEN 1 EL...

2019-06-17 23:05:09 268

原创将列表导入excel并以矩阵形式排列

将 [[(0, 0.043816663), (1, 0.04390042), (2, 0.91228294)], [(0, 0.03811829), (1, 0.03805999), (2, 0.9238217)]]元组数据导入Excel并以矩阵的形式排列def saveAticleTopicsResultToFile(result,outPutFile): r = [] ...

2019-05-27 09:43:33 1541

原创主成分分析

&gt; #主成分分析&gt; X &lt;- read.table("clipboard",header = T)#读数据&gt; cor(X)#样本相关阵 X1 X2 X3 X4 X5 X6 X7X1 1.0000000 0.9298159 0.9435580 0.8365996 0...

2019-05-27 09:34:24 244

原创 R语言主成分分析法笔记

01、什么是主成分分析法简要概括主成分分析法的作用：把能反映某种特征的很多指标汇总成一个指标。举例而言，一家银行的流动性可以体现在它的现金资产占比和定期存款占比上——银行A的现金资产占比是0.12，定期存款占比是0.37；银行B现金资产占比是0.09，定期存款占比是0.5。哪一家流动性更好呢？如果我们能确定存在一个公式比如：流动性指标 = 30%现金资产占比 + 70%定期存款占比 ...

2019-05-27 09:33:38 23508 8

原创 LDA python 用Gensim包处理LDA主题模型

from nltk.tokenize import word_tokenizefrom nltk.corpus import stopwordsfilepaths = []#循环将文件夹中的TXT全部导入import osrootdir = ‘F:/GEV/lda_dir/referenceData’list = os.listdir(rootdir) #列出文件夹下所有的目录与文件...

2019-05-27 09:05:41 2742 2

原创文件夹中的txt文本全部导入 python

循环将文件夹中的txt文本全部导入import osrootdir = 'F:/python_test/text/test'list = os.listdir(rootdir) #列出文件夹下所有的目录与文件for i in range(0,len(list)): path = os.path.join(rootdir,list[i]) if os.path.isfile(path):...

2019-05-27 08:59:37 786

原创 K最近邻算法—入门

首先做个热身准备：numpy的eye函数，生成了一个6*6的对角矩阵sparse将np数组转化成CSR格式的scipy稀疏矩阵，sparse函数只会存储非0元素import numpy as npfrom scipy import sparsematrix = np.eye(6)sparse_matrix = sparse.csr_matrix(matrix)print(matrix...

2019-05-24 18:40:31 754

原创 MySQL基础语法

一、修改表ALTER1、改表名ALTER TABLE table_name RENAME new_tableName2、改字段类型ALTER TABLE table_name MODIFY <字段名> <数据类型>3、改字段名ALTER TABLE table_name CHANGE <旧字段名> <新字段名> <新字段数据类型...

2019-05-23 18:53:24 106

原创将列表（含字典）数据写入Excel

将Excel数据写入字典cmd小测试打开cmd 转入Excel所在文件夹下再打开python，步骤如下：F：进入F盘cd 打开F盘下子目录导入所需要的库pandasdf = pd.read_excel("data.xlsx")#读取Excelres = df.to_dict(orient = "record")#输出字典读取字典保成excel调用函数，传入参数即可if ...

2019-05-10 13:43:39 19070 6

原创根据一张表来更新另一张表的方法

将表c中的journal_full_name用表s中的journal_full_name填充，根据相同的id方法一update c set c.journal_full_name=s.journal_full_namefrom reference_new_copy AS c,reference_new_some AS swhere c.id=s.id;此方法对版本有要求，未试验成...

2019-04-23 19:29:19 4782

空空如也

空空如也