自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (2)
  • 收藏
  • 关注

原创 pip/conda/mamba安装拓展

然后,我们需要在.condarc里修改conda缓存包的地址pkgs_dirs,把这个地址变为我们想要存放下载的python包的地址,在离线的机器上我们也进⾏同样的操作来指定conda的缓存路径。事实上不可能有十全十美的工具,conda非常简易的管理了多个软件流程,那么必然也会有解决不了的事情,必然同一个流程的两个python软件基于不同版本的python包,就尴尬了。在改好.condarc配置文件后,我们就可以下载我们想要的包了,不过此时,需要带上⼀个关键的参数: --download-only。

2023-12-26 18:26:33 182

原创 行模式识别的功能分析查找多行数据的拐点和规律

SQL 行模式识别(MATCH_RECOGNIZE)综合了 WHERE、GROUP BY、HAVING 以及窗口函数的 OVER 子句的功能,能够用于检测数据流中的复杂模式,具有处理复杂事件(CEP)的强大功能。在本篇的示例脚本中,还有一个银行交易日志表(bank_log),包括日志编号(log_id)、交易时间戳(ts)、银行账户(from_user)、交易金额(amount)、交易类型(type)以及目标账户(to_user)。行模式识别通过指定一个模式(正则表达式),找到匹配该模式的一组数据行;

2023-08-15 10:56:52 140

原创 调研报告越多,洞察力越差?

无论是全球顶尖的咨询公司(麦肯锡、埃森哲、德勤、安永等)、知名智库(亿欧、易观等)、各大调研公司(Forrester、益普索、艾瑞等)、券商(东北证券、广发证券等)、广告和传播公司(奥美、电通等)还是头部公司的研究院(阿里、IBM等)以及各企业服务公司(超多的B2B公司)都非常勤劳敬业。这样的公司有大量的高手和专家,见多识广,有方法有理论。在信息量巨大,大众焦虑的当下,更需要保持清醒,客观理性地分析信息和数据,时时更新知识,保持对市场的敏感并从多个角度思考与校验,形成观点,最终帮助业务决策。

2023-07-18 11:24:49 109

转载 Hive中实现group_concat

mysql中的group_concat分组连接功能相当强大,可以先分组再连接成字符串,还可以进行排序连接。但是hive中并没有这个函数,那么hive中怎么实现这个功能呢?这里要用到:concat_ws函数和collect_list、collect_set 函数。建立测试表(无分区表):concat_ws + collect_set + group by:代码块SQLselect id, concat_ws(',',collect_set(content)) as c

2022-04-02 16:39:39 965

转载 学习CALCULATE函数

1.单条件筛选求和北京市间夜 = CALCULATE(SUM[入住间夜],FILTER(‘表’,[城市]=“北京市”))2.多条件筛选求和5月北京市R品牌间夜 = CALCULATE(SUM[入住间夜],FILTER(‘表1’,[城市]=“北京市”&&[品牌]=“R”),FILTER(‘表2’,[YYYYMM]=“202105”))3.各种层次的占比计算总体占比DAX=DIVIDE(SUM(‘表’[求和项]),CALCULATE(SUM(‘表’[求和项]),ALL(‘表’)))

2021-12-01 18:11:34 2100

原创 SQL中的on、where、having

数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。1、on和where条件的区别在使用left jion时,on和where条件的区别如下:1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。假设有两张表两条SQL:1、select * form ta

2021-12-01 18:05:57 2756

原创 hive over窗口函数使用

前提:按照OVER() 进行partion,然后每个分组执行函数计算。最后为每一个分组增加对应的字段数据。最后原始数据行数没有改变,可以在此基础上继续使用。一、计算累计和统计1-12月的累积销量,即1月为1月份的值,2月为1.2月份值的和,3月为123月份的和,12月为1-12月份值的和代码块Plain TextSELECTmonth,SUM(amount) month_amount,SUM( SUM(amount)) OVER (ORDER BY month ROWS BETWEEN

2021-12-01 17:57:56 1419

原创 SQL排序窗口函数

Hive的分析函数 - rank(), row_number(), dense_rank()区别Hive中三个排序函数rank()、row_number()、dense_rank()日常中比较常用到,今天来说说三者的区别:一、rank()函数此排序方法进行排序时,相同的排序是一样的,而且下一个不同值是跳着排序的。二、row_number()函数此方法不管排名是否有相同的,都按照顺序1,2,3,……,n。三、dense_rank()函数此方法对于排名相同的名次一样,且后面名次不跳跃。...

2021-10-19 16:24:31 69

原创 利用DAX Studio连接PowerBI数据集到Excel并实现数据刷新

背景周期性的更新数据和撰周报月报成为繁重的劳动。很多时间花费在数据处理上,而真正的分析工作,往往只能草草收场,周报月报的质量也难以得到提高。使用Power BI对图表进行可视化处理,效果和稳定性是杠杠的,但是总有一些表格是需要在Excel里完成的。可是微软不支持用户能自动与PPT嵌入图表(也许是微软想直接在PowerBI内部制作类似报告,但是不得不说做出高大上的演讲报告方面,PowerBI只是个弟弟)。目前PowerBI的报告能力,颜色和文字能力,图表的定制能力,目前不及Excel和PPT。给分析人.

2020-10-05 17:20:24 4351

原创 用PowerPivot处理同比环比问题要注意年/月/日的字段要选择日历表中的相应字段,不然容易算错

用PowerPivot计算销售总额的同比增长率和环比增长率。要完成这一分析,我们需要4大步骤。1.导入数据,创建关系我们需要导入3张数据表,[01-订单明细]、[02-商品价格]、[03-日历表]。其中日历表中的日期列里日期必须是连续的且唯一无重复的,日期范围要大于等于被分析对象的日期范围。我们创建的关系是一对多关系,一端是 [02-商品价格] 表和[03-日历表],因为表格里对应的 [产品编号] 和 [日期] 是唯一值,多端是 [01-订单明细] 表,里面的 [产品ID] 和 [日期] 不是唯一值

2020-08-06 13:45:11 4735

转载 pip install --upgrade pip失败可以试试这个办法

问题:在使用python -m pip install --upgrade pip进行pip升级时,每次到最后就是报一大堆红色,最终升级不成功。办法:使用默认的镜像源时间过长就会没响应,使用豆瓣的镜像进行升级。在anaconda prompt或cmd中运行以下命令python -m pip install --upgrade pip -i http://pypi.douban.com/simple --trusted-host pypi.douban.com...

2020-08-06 09:47:47 3434 2

转载 Jupyter Notebook 添加代码自动补全功能

安装如果之前安装过显示目录功能的话,这一步骤可以跳过。pip install jupyter_contrib_nbextensions配置安装完之后需要配置 nbextension,注意配置的时候要确保已关闭 Jupyter Notebook:jupyter contrib nbextension install --user --skip-running-check启动 Jupyter Notebook,勾选设置上面两个步骤都没报错后,启动 Jupyter Notebook,上面选项栏会出现

2020-08-04 09:43:15 2043 1

转载 MySQL分组聚类partition关键字的替代方法

分组聚合,就是先分组再排序,可以的话顺手标个排名;如果不想分组也可以排名;如果不想分组同时再去重排名也可以ROW_NUMBER() OVER([PARTITION BY column_1, column_2,…][ORDER BY column_3,column_4,…])Oracle和SQL server的关键字是over partition bymysql的无关键字row_number() over (partition by col1 order by col2),表示根据col1分组,在

2020-07-29 15:25:49 1430

原创 MySQL导入northwind数据库完全手册

northwind数据库是什么大家在学习SQL时,苦于找不到一个好的实例。由于实际工作中项目使用的表结构属于公司的商业保密内容,且在和大家交流时,其结构大家也不熟悉;而使用简单创建的Teacher、Student、Class等数据模型时,建表、录数据也是一个麻烦事;微软SqlServer提供的northwind示例数据库是非常适合大家练手的。网上大部分都是SqlServer的版本,northwind示例数据库的MySQL版本,这位博主提供的文件很不错,想要的同学可以自行下载。northwind的Mys..

2020-07-28 11:41:34 3072

原创 使用fiddler抓包小程序再requets库定时预约座位

图书馆的座位每天凌晨12点放座位,每天半夜爬起来抢座严重影响休息,白天的学习效率也不高。于是我用学到的Python编程技术,自动预约座位解决这一难题。为了避免不必要的纠纷,仅做代码技术交流,文中被爬取网站的具体信息隐去。第一步:使用fiddler抓包小程序1、fiddler安装和调试这一步就不详细介绍了 ,很多帖子都有。我就安装这个帖子安装的。fiddler安装调试教程2:vx小程序抓包小程序现在可以在客户端直接打开了,可以直接抓包电脑的通信数据包。该lib的小程序在人工手动预约的时候需要输

2020-07-15 11:24:34 1844 1

原创 NLTK 基本语料库函数

函数 描述fileids() 语料库中的文件fileids([categories]) 这些分类对应的语料库中的文件categories() 语料库中的分类categories([fileids]) 这些文件对应的语料库中的分类raw() 语料库的原始内容raw(fileids=[f1,f2,f3]) 指定文件的原始内容raw(categories=[c1,c2]) 指定分类的原始内容words() 整个语料库中的词汇words(fileids=[f1,f2,f3]) 指定文件中的词汇w

2020-06-04 15:34:44 1114

原创 Python字符串处理函数

函数 含义s.startswith(‘t’) 测试 s 是否以 t 开头s.endswith(‘t’) 测试 s 是否以 t 结尾t in s 测试 s 是否包含 ts.islower() 测试 s 中所有字符是否都是小写字母s.isupper() 测试 s 中所有字符是否都是大写字母s.isalpha() 测试 s 中所有字符是否都是字母s.isalnum() 测试 s 中所有字符是否都是字母或数字s.isdigit() 测试 s 中所有字符是否都是数字s.istitle() 测试 s

2020-06-04 14:37:59 134

原创 使用global全局变量画出会颜色渐变的科赫koch雪花

学习了嵩天老师的课程里的科赫小雪花画法,想自己再加工一下变成线条颜色渐变的雪花,于是引入turtle.color,并定义r,g,b作为颜色赋值,在函数中将r,g,b设为global变量import turtledef koch(size,n,r,g,b): global r,g,b turtle.colormode(255) turtle.color(r,g,b) if n ==0: turtle.fd(size) else: f

2020-05-18 10:02:20 930

原创 BeautifulSoup的string是navigablestring不能存入MySQL数据库怎么办?

在使用BeautifulSoup解析HTML文档后希望把数据保存到MySQL数据库,但是在插入数据库时出现报错: for key , value in ulist.items(): cursor.execute('INSERT INTO UList values(%s,%s,%s,%s,%s)',[key,value[0],value[1],value[2],value[3]])mysql.connector.errors.ProgrammingError: Failed proces

2020-05-12 14:47:32 690

中国省市区县名单整理版.xlsx

完整的中国全部省市区县名单,包含港澳台,各级行政区划的全称,可用于地址分类、目的地匹配等多种场景。xlsx格式,方便易读适合大数据分析,已整理好。sql、Python等经过格式转换后均可以使用

2020-07-29

移动通讯客户Kmeans聚类分析练习数据集.xlsx

移动通讯客户Kmeans聚类分析练习数据集Excel格式,适用于机器学习入手练习,xlsx格式,适合多种数据分析工具

2020-06-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除