念念bw-CSDN博客

原创 pip/conda/mamba安装拓展

然后，我们需要在.condarc里修改conda缓存包的地址pkgs_dirs，把这个地址变为我们想要存放下载的python包的地址，在离线的机器上我们也进⾏同样的操作来指定conda的缓存路径。事实上不可能有十全十美的工具，conda非常简易的管理了多个软件流程，那么必然也会有解决不了的事情，必然同一个流程的两个python软件基于不同版本的python包，就尴尬了。在改好.condarc配置文件后，我们就可以下载我们想要的包了，不过此时，需要带上⼀个关键的参数: --download-only。

2023-12-26 18:26:33 182

原创行模式识别的功能分析查找多行数据的拐点和规律

SQL 行模式识别（MATCH_RECOGNIZE）综合了 WHERE、GROUP BY、HAVING 以及窗口函数的 OVER 子句的功能，能够用于检测数据流中的复杂模式，具有处理复杂事件（CEP）的强大功能。在本篇的示例脚本中，还有一个银行交易日志表（bank_log），包括日志编号（log_id）、交易时间戳（ts）、银行账户（from_user）、交易金额（amount）、交易类型（type）以及目标账户（to_user）。行模式识别通过指定一个模式（正则表达式），找到匹配该模式的一组数据行；

2023-08-15 10:56:52 140

原创调研报告越多，洞察力越差？

无论是全球顶尖的咨询公司（麦肯锡、埃森哲、德勤、安永等）、知名智库（亿欧、易观等）、各大调研公司（Forrester、益普索、艾瑞等）、券商（东北证券、广发证券等）、广告和传播公司（奥美、电通等）还是头部公司的研究院（阿里、IBM等）以及各企业服务公司（超多的B2B公司）都非常勤劳敬业。这样的公司有大量的高手和专家，见多识广，有方法有理论。在信息量巨大，大众焦虑的当下，更需要保持清醒，客观理性地分析信息和数据，时时更新知识，保持对市场的敏感并从多个角度思考与校验，形成观点，最终帮助业务决策。

2023-07-18 11:24:49 109

转载 Hive中实现group_concat

mysql中的group_concat分组连接功能相当强大，可以先分组再连接成字符串，还可以进行排序连接。但是hive中并没有这个函数，那么hive中怎么实现这个功能呢？这里要用到：concat_ws函数和collect_list、collect_set 函数。建立测试表（无分区表）：concat_ws + collect_set + group by：代码块SQLselect id, concat_ws(',',collect_set(content)) as c

2022-04-02 16:39:39 965

转载学习CALCULATE函数

1.单条件筛选求和北京市间夜 = CALCULATE(SUM[入住间夜],FILTER(‘表’,[城市]=“北京市”))2.多条件筛选求和5月北京市R品牌间夜 = CALCULATE(SUM[入住间夜],FILTER(‘表1’,[城市]=“北京市”&&[品牌]=“R”),FILTER(‘表2’,[YYYYMM]=“202105”))3.各种层次的占比计算总体占比DAX=DIVIDE(SUM(‘表’[求和项]),CALCULATE(SUM(‘表’[求和项]),ALL(‘表’)))

2021-12-01 18:11:34 2100

原创 SQL中的on、where、having

数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。1、on和where条件的区别在使用left jion时，on和where条件的区别如下：1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。2、where条件是在临时表生成好后，再对临时表进行过滤的条件。这时已经没有left join的含义（必须返回左边表的记录）了，条件不为真的就全部过滤掉。假设有两张表两条SQL:1、select * form ta

2021-12-01 18:05:57 2756

原创 hive over窗口函数使用

前提：按照OVER() 进行partion，然后每个分组执行函数计算。最后为每一个分组增加对应的字段数据。最后原始数据行数没有改变，可以在此基础上继续使用。一、计算累计和统计1-12月的累积销量，即1月为1月份的值，2月为1.2月份值的和，3月为123月份的和，12月为1-12月份值的和代码块Plain TextSELECTmonth,SUM(amount) month_amount,SUM( SUM(amount)) OVER (ORDER BY month ROWS BETWEEN

2021-12-01 17:57:56 1419

原创 SQL排序窗口函数

Hive的分析函数 - rank(), row_number(), dense_rank()区别Hive中三个排序函数rank()、row_number()、dense_rank()日常中比较常用到，今天来说说三者的区别：一、rank()函数此排序方法进行排序时，相同的排序是一样的，而且下一个不同值是跳着排序的。二、row_number()函数此方法不管排名是否有相同的，都按照顺序1，2，3，……，n。三、dense_rank()函数此方法对于排名相同的名次一样，且后面名次不跳跃。...

2021-10-19 16:24:31 69

原创利用DAX Studio连接PowerBI数据集到Excel并实现数据刷新

背景周期性的更新数据和撰周报月报成为繁重的劳动。很多时间花费在数据处理上，而真正的分析工作，往往只能草草收场，周报月报的质量也难以得到提高。使用Power BI对图表进行可视化处理，效果和稳定性是杠杠的，但是总有一些表格是需要在Excel里完成的。可是微软不支持用户能自动与PPT嵌入图表（也许是微软想直接在PowerBI内部制作类似报告，但是不得不说做出高大上的演讲报告方面，PowerBI只是个弟弟）。目前PowerBI的报告能力，颜色和文字能力，图表的定制能力，目前不及Excel和PPT。给分析人.

2020-10-05 17:20:24 4351

原创用PowerPivot处理同比环比问题要注意年/月/日的字段要选择日历表中的相应字段，不然容易算错

用PowerPivot计算销售总额的同比增长率和环比增长率。要完成这一分析，我们需要4大步骤。1.导入数据，创建关系我们需要导入3张数据表，[01-订单明细]、[02-商品价格]、[03-日历表]。其中日历表中的日期列里日期必须是连续的且唯一无重复的，日期范围要大于等于被分析对象的日期范围。我们创建的关系是一对多关系，一端是 [02-商品价格] 表和[03-日历表]，因为表格里对应的 [产品编号] 和 [日期] 是唯一值，多端是 [01-订单明细] 表，里面的 [产品ID] 和 [日期] 不是唯一值

2020-08-06 13:45:11 4735

转载 pip install --upgrade pip失败可以试试这个办法

问题：在使用python -m pip install --upgrade pip进行pip升级时，每次到最后就是报一大堆红色，最终升级不成功。办法：使用默认的镜像源时间过长就会没响应，使用豆瓣的镜像进行升级。在anaconda prompt或cmd中运行以下命令python -m pip install --upgrade pip -i http://pypi.douban.com/simple --trusted-host pypi.douban.com...

2020-08-06 09:47:47 3434 2

转载 Jupyter Notebook 添加代码自动补全功能

安装如果之前安装过显示目录功能的话，这一步骤可以跳过。pip install jupyter_contrib_nbextensions配置安装完之后需要配置 nbextension，注意配置的时候要确保已关闭 Jupyter Notebook：jupyter contrib nbextension install --user --skip-running-check启动 Jupyter Notebook，勾选设置上面两个步骤都没报错后，启动 Jupyter Notebook，上面选项栏会出现

2020-08-04 09:43:15 2043 1

转载 MySQL分组聚类partition关键字的替代方法

分组聚合，就是先分组再排序，可以的话顺手标个排名；如果不想分组也可以排名；如果不想分组同时再去重排名也可以ROW_NUMBER() OVER([PARTITION BY column_1, column_2,…][ORDER BY column_3,column_4,…])Oracle和SQL server的关键字是over partition bymysql的无关键字row_number() over (partition by col1 order by col2),表示根据col1分组，在

2020-07-29 15:25:49 1430

原创 MySQL导入northwind数据库完全手册

northwind数据库是什么大家在学习SQL时，苦于找不到一个好的实例。由于实际工作中项目使用的表结构属于公司的商业保密内容，且在和大家交流时，其结构大家也不熟悉；而使用简单创建的Teacher、Student、Class等数据模型时，建表、录数据也是一个麻烦事；微软SqlServer提供的northwind示例数据库是非常适合大家练手的。网上大部分都是SqlServer的版本，northwind示例数据库的MySQL版本，这位博主提供的文件很不错，想要的同学可以自行下载。northwind的Mys..

2020-07-28 11:41:34 3072

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

bearsfreedom的博客

原创 pip/conda/mamba安装拓展

原创行模式识别的功能分析查找多行数据的拐点和规律

原创调研报告越多，洞察力越差？

转载 Hive中实现group_concat

转载学习CALCULATE函数

原创 SQL中的on、where、having

原创 hive over窗口函数使用

原创 SQL排序窗口函数

原创利用DAX Studio连接PowerBI数据集到Excel并实现数据刷新

原创用PowerPivot处理同比环比问题要注意年/月/日的字段要选择日历表中的相应字段，不然容易算错

转载 pip install --upgrade pip失败可以试试这个办法

转载 Jupyter Notebook 添加代码自动补全功能

转载 MySQL分组聚类partition关键字的替代方法

原创 MySQL导入northwind数据库完全手册

原创使用fiddler抓包小程序再requets库定时预约座位

原创 NLTK 基本语料库函数

原创 Python字符串处理函数

原创使用global全局变量画出会颜色渐变的科赫koch雪花

原创 BeautifulSoup的string是navigablestring不能存入MySQL数据库怎么办？

中国省市区县名单整理版.xlsx

移动通讯客户Kmeans聚类分析练习数据集.xlsx

空空如也