自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(344)
  • 资源 (14)
  • 收藏
  • 关注

原创 excel日期表设置20201215

=TEXT(A2,"YYYY年")=TEXT(A2,"M月")=TEXT(A2,"d日")=YEAR(A2)=MONTH(A2)=DAY(A2)=WEEKNUM(A2)= IF(WEEKNUM(A2,2)-1 = 0,WEEKNUM(DATE(YEAR(A2)-1,12,31),2),WEEKNUM(A2,2)-1)=WEEKDAY(A2)=LOOKUP(WEEKDAY(A2,2),{1,2,3,4,5,6,7;"星期一","星期二","星期三","星期四","星期五","星期六","星.

2020-12-15 10:53:17 443

原创 词云分析

https://www.jianshu.com/p/4fb27471295f 简书概述http://www.pullword.com/ 分词器https://wordart.com/ 词云https://www.zhihu.com/question/29666539/answer/169051709 微博评论https://www.sogou.com/link?url...

2020-02-19 17:12:05 2683

原创 简单的词云统计--评论分析

弄了一些竞品的评论数据增加了一个函数EXCEL判断字符串中是否包含某个特定子串的公式判断字符串中是否包含某个特定子串的公式总结。学习的过程是一个不断积累和总结的过程,正是EXCEL HOME给了偶这样好的平台。例: A列 中输入字符串: "提前祝大家元旦快乐!", B列中输入公式判断是否包含子串 "大家", 包含返回"有内容", 不包含返回"无内容".1. COUN...

2019-12-31 14:40:12 1615

原创 配色表网站

颜色https://www.fontke.com/tool/rgbschemes/http://color.biaozhiku.com/?page=2

2019-12-31 11:32:09 757

原创 你的供应链还Hold住吗?销售预测解析--其一

产销协调计划产销协调计划(Sales&OperationsPlaning),是供应链的优化的核心,现在大多数企业采用的是S&OP概念创始人OliverWight提出的执行模式以及其升级模式——IBP(Integrated Business Planning),该模式核心在于将需求和供应分别计划然后统一协调,基于需求预测,需求计划与供应计划进行协调指导采购、备料与生产。按照传...

2019-12-07 11:24:47 772

原创 生意参谋和数据银行盘点:品牌+市场+产品

关键词:生意参谋、品牌数据银行适用行业:所有类目适用店铺:所有店铺生意参谋和品牌数据银行说白了就是为了方便商家了解自己店铺和品牌的的日常的经营数据、淘宝市场同行的经营数据以及长远方向的品牌宣传和市场策略,好进行及时的调整。因此可以分为四个大的方面来阐述。1.店铺的经营数据它包括浏览量,访客数,支付子订单数,支付金额,支付转化率,客单价,退款金额,较上周同期变化...

2019-12-02 13:00:00 2517

原创 腾讯文档-协同更新操作

需求:有一个文档或者excel需要多个人运维,且可以同时进行增删改查的操作,并导出可视化功能!http://www.dpriver.com/pp/sqlformat.htm?ref=wangz.sqlformat.htm...

2019-10-14 09:11:48 2757

原创 生意参谋活动复盘分析

https://sycm.bbs.taobao.com/detail.html?spm=a21ag.8365346.slider.d7286.2930410cX1PmiX&postId=8162781

2019-10-11 15:44:26 585

原创 python文本情感分析:SnowNLP的应用---案例

想法:一直以来,我曾今想过,我们的出来的商业评论如何确定和判断他的情感因素?如何根据文本来将某条记录打上对应的标签,仅仅靠一个分类??安装:https://pypi.org/project/snownlp/0.12.3/#files 下载完可安装1.pip install snownlp==0.12.32.python setup.py installfrom snownlp i...

2019-09-12 11:29:43 4229

原创 SQL数据处理:SQL处理excel常用的功能---给新手的建议

无论用哪个工具,能解决问题就是好数据分析师!不要跟数据分析师谈什么技术实现!一、关联公式:Vlookupvlookup是excel几乎最常用的公式,一般用于两个表的关联查询等。所以我先创建一个新表:复制sale表并筛选出地区仅为广州的,命名为sale_guang。create table sale_guang SELECT * from sale where city="广州";...

2019-09-11 10:29:20 1121

原创 python处理:python实现Excel的14个常用功能 ---给新手的建议

无论用哪个工具,能解决问题就是好数据分析师!不要跟数据分析师谈什么技术实现!一、关联公式:Vlookupvlookup是excel几乎最常用的公式,一般用于两个表的关联查询等。所以我先把这张表分为两个表。df1=sale[['订单明细号','单据日期','地区名称', '业务员名称','客户分类', '存货编码', '客户名称', '业务员编码', '存货名称', '订单号', ...

2019-09-11 10:19:52 1696

原创 python数据处理:数据银行用户画像获取---生意参谋市场竞品数据获取一键获取(工具+代码)

数据银行用户画像获取---生意参谋市场竞品数据获取找我

2019-09-10 09:30:57 2436 2

原创 python算法指标:AIC和BIC

在四处寻找资料后,想写下来这篇文章来证明下我的观点,同时可以抛砖引玉来获得更好的答案.首先先让我们思考两个问题1)实现参数的稀疏有什么好处吗?一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么可以对训练数据可以预测的很好,但是对测试数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。2)参数值越小代表模型越...

2019-08-16 17:21:14 12980 3

原创 时间序列:ACF和PACF

TimeSeriesGetting Started Table of Contents 模型拟合和描述 输入输出模型 模型测试和绘图 使用R型公式来拟合模型 statsmodels参数 模型和拟合结果的超类 Python手册(Machine Learning)–statsmodels(GettingStarted)Python手册(Machine Learn...

2019-08-15 16:10:47 6580

原创 PowerBI中的卡片图特效

业务需求:将变成操作:考虑要让每次选择时带上对应的类别,故需要新建两个度量:#求评论数PLS = sum('Sheet1 (2)'[评论数])#每次触发时带入类别,UNICHAR表示控行带分类的PLS = IF(HASONEVALUE('Sheet1 (2)'[头条号分类]), VALUES('Sheet1 (2)'[头条号分类])&U...

2019-08-13 14:31:50 4328

原创 分类模型评价指标KS与IV的比较

KS与IV均是用来衡量分类模型准确度的方法,在平常的实验中,用这两种方法得出来的结果往往表现一致。但是,这种一致并不是绝对的,在分析场景时,两个指标发生互相偏离的结果还是存在的。这种偏离的存在主要来自于两者计算方法的不同。为了考察造成这种不同的深层次原因,首先应当知道这两个指标的计算方法。‍1、将全体样本按要分析指标的大小进行排序后,均分成N个箱体。这里应该注意一点,若指...

2019-07-01 17:13:16 5545 1

原创 python:to_csv&read_csv常用参数的解析

df.read(file,sep,shkiprows,usecols,nrows,chunksize...)sep=',' # 以 “,” 作为数据的分隔符shkiprows= 10 # 跳过前十行usecols=['column1', 'column2', 'column3'] # 读取指定列nrows = 10 # 只取前10行chunksize=1000 # 分块大小...

2019-06-19 11:40:11 12020

原创 python:数据分析(可视图,分组计算)

#合并数据pd.merge(df,df2,how = 'inner',on = '门店',suffixes = ('前表','后表'))pd.merge(data1,data2,how = "inner" on = "",suffixes = ("",""))#读取数据import pandas as pddata_key = pd.read_csv(r"C:\Users\lihwa...

2019-06-18 16:58:40 774

原创 python批量解压

#!/usr/bin/python# -*- coding: UTF-8 -*-'''Created on Jun 6, 2019@author: carson'''import osimport reimport zipfileimport StringIO# 下述三行是为了解决编码问题import sysreload(sys)sys.setdefaultencod...

2019-06-18 08:58:40 643

原创 R语言安装包出现的问题:关于package'***' is not available

最近下载了最新的R版本后,在下载包的时候经常碰到这样的错误:package'***' is not available(for R version 3.4.1)可使用下面的代码进行安装:source("http://bioconductor.org/biocLite.R")biocLite("包名")将会下载BiocInstaller包,通过该包可以更好的下载或更新Bioconduc...

2019-06-11 17:43:23 34780 3

原创 Python3 百度AI接口的应用测试

接口调用准备1.进入网站:https://console.bce.baidu.com/?_=1535519624081&fromai=1#/aip/overview2.选择产品服务里的文字识别,点击创建应用3.选择文字识别,创建完成4.创建后选择该应用,可以看到里面有AppID、API Key、Secret Key三个参数,将三个参数放入下面实例对应的三个地方5.参考实例,然后...

2019-06-10 16:00:58 490

原创 app运营:用户留存率详解

留存率,越来越受到大家的关注,从网站用户到客户端产品,游戏产品,无线APP产品,都非常重视这一指标,留存率成为衡量一个产品是否健康成长的重要指标之一。SELECT first_day, sum(case when by_day = 0 then 1 else 0 end) day_0, sum(case when by_day = 1 then 1 else 0...

2019-06-06 17:25:13 1009

原创 数据处理---电商数据整合

由于阿里的生意参谋数据做了反爬数据,利用python采集已经不是最佳方案,由于提供下载的数据表,这期将整合这些数据:##处理店内数据,可做数据留存和可视化报表# by carson 2019-06-04import sysimport pandas as pdfrom pandas import read_csvfrom pandas import to_datetime#要...

2019-06-04 17:25:55 1006 6

原创 tushare 的token设置

1.安装:pip install tushare --upgrade2.注册:https://tushare.pro,如图,复制粘贴即可import pandas as pdimport tushare as ts#a9f08e2376247c3b4c6********************7189153d946c2token= "#a9f08e2376247c3b4c6**...

2019-05-27 09:49:16 6818

原创 pandas库学习基础和经验(二)--重点推荐

1.pandas 中DataFrame使用:数据标准化、数据分组、日期转换、日期格式化、日期抽取2.pandas 中DataFrame使用:记录抽取,随机抽样,记录合并,字段合并,字段匹配,数据的简单计算3.pandas 中DataFrame使用:数据导入\出,重复值处理,缺失数据处理,字段抽取,字段拆分4.pandas 中DataFrame的数据定义,访问,修改,删除,增加,遍历...

2019-05-24 16:39:41 218

原创 pandas中的stack和unstack函数解析

在用pandas进行数据重排时,经常用到stack和unstack两个函数。stack的意思是堆叠,堆积,unstack即“不要堆叠”,我对两个函数是这样理解和区分的。  常见的数据的层次化结构有两种,一种是表格,一种是“花括号”,即下面这样的l两种形式:表格在行列方向上均有索引(类似于DataFrame),花括号结构只有“列方向”上的索引(类似于层次化的Series),结构更加偏向于...

2019-05-24 15:08:25 2314

原创 pandas库学习基础和业务经验(一)--重点推荐

近期用到的函数总结:#分组排序功能import pandas as pddef test_f(df,column,istopn = False,n=1): """ df:数据框 column:为需要对之聚合的列 istopn:返回每一组的第n行数据 """ count = len(df) distinct_count = df[co...

2019-05-22 17:40:13 243

原创 一个文件夹下多个sheet多个excel获取并清洗

#by carson 2019-05-21#函数的定义:获取对应目录下多个带有多个sheet工作薄的excel文件def read_info(inputdir): #文件夹下多个工作薄 sheet_names = ["ALL-ALL","ALL-TM","ALL-TB","PC-ALL","PC-TM","PC-TB","WX-ALL","WX-TM","WX-TB"] #读取当...

2019-05-21 13:46:00 569

原创 hive函数实操大全--重点推荐

把最近学到的博客整理在一起了:相关博客1.一文读懂Hive分析窗口函数(hive做累计、分组、排序、层次等计算)https://blog.csdn.net/abc200941410128/article/details/784089422.hive分层级取数(将多行记录合并为一条):concat_ws ,collect_sethttps://blog.csdn.net/LH09126...

2019-05-14 10:58:06 520

原创 纠正别人博客中的hive问题

因为有业务需求,所以查看了几篇别人的博客,发现有错误的地方:1.http://www.cnblogs.com/mobiwangyue/p/8328758.html2.https://www.jianshu.com/p/51599bab0c00为了验证业务需求的做法,特地模拟了一些假的数据做相关demo,数据如下:1. hive2. show databases;3. us...

2019-05-13 15:50:33 199

原创 SQL优化:hive中的over和各个函数综合应用

1.使用over子句与rows_number()以及聚合函数进行使用,可以进行编号以及各种操作。而且利用over子句的分组效率比group by子句的效率更高。2.在订单表(order)中统计中,生成这么每一条记录都包含如下信息:“所有订单的总和”、“每一位客户的所有订单的总和”、”每一单的金额“#代码如下select customerID,SUM(totalPrice) ov...

2019-05-13 09:22:37 944 1

原创 生意参谋获取数据系列章节

1.生意参谋采集过程中的链接测试工具Sycm Request Test2.生意参谋漏洞之无限“任意店铺”销售数据”查询及一些扩展3.深思淘宝生意参谋改版数据权限减少图片化加密的背后4.关于生意参谋数据采集分析人员,我们的采集程序是否可以使用另一种方式,更不用大改之前所写的代码5.http调用api解密生意参谋DATA6.Excel调用.net生成的DLL解密生意参谋DATA...

2019-05-08 14:24:44 2944 4

原创 业务分析:hive下的分组求占比情况

在业务中与见一个占比情况,做了一个小demo,以供自己参考元数据:实现的形式#方式一with demo as (select cookieid as cookieid,pv as pv,sum(pv) over() as total,pv/sum(pv) over() percentfrom pv_web)select cookieid,sum(p...

2019-05-05 12:58:55 16056 2

原创 hive行转列,列转行实践

drop table demo;create table demo(test1 string,test2 string,id string)row format delimited fields terminated by '\t'stored as textfile;或者1.建表drop table demo;create table demo(test1...

2019-04-26 11:04:08 724

原创 城市对照表---爬全国天气近10年天气用

pin_city city small_pin_cityBeijing 北京 beijingTianjin 天津 tianjinShanghai 上海 shanghaiChongqing 重庆 chongqingYinchuan 银川 yinchuanShizuishan 石嘴山 shizuishanWuzhong 吴忠 wuzhongGuyuan 固原 guyuanZhong...

2019-04-25 12:22:57 1477

原创 python一维表二维表转化

效果:import pandas as pd # 读入数据:df = pd.read_excel(r'C:\Users\lihwa11\Desktop\Python\code\data\one.xlsx')df# 将二维数据表转化为一维数据表:new_data = df.set_index('地区') # 将df中的地区一列设置为索引列df1 = new_...

2019-04-24 13:03:14 1745

原创 pyechart使用重点推荐

pyechart的安装官方文档 图例展示 pip install pyecharts 地图资源依赖库 pip install echarts-countries-pypkgpip install echarts-china-provinces-pypkgpip install echarts-china-cities-pypkgpip install echarts-ch...

2019-04-19 13:11:31 780

转载 Anaconda中配置Pyspark的Spark开发环境--window

要点导航1.windows下载并安装Anaconda集成环境 2.在控制台中测试ipython是否启动正常 3.安装JDK 4.安装Spark并配置环境变量 5.Pyspark配置 6.测试Pyspark是否安装成功回到导航1.windows下载并安装Anaconda集成环境 URL:https://www.continuum.io/downloads回到导航...

2019-04-19 11:01:42 858

原创 [Hive]Lateral View使用指南

https://blog.csdn.net/sunnyyoona/article/details/62894761

2019-04-19 09:31:56 433

原创 hive业务数据逻辑-非常用函数

--device_report//爽客数据分析需求//设备表with temp_table1 as (select t1.report_date,-- 日期转化 date_format(t1.report_date,'yyyyMMdd') as dashboard_day, t1.place_code, -- nvl函数是判断gr...

2019-04-18 10:49:09 409

销售额占比前十的店铺!

3.月维度!增长幅度大的店铺 降幅大的店铺 上个月有这个月没进前300名的

2019-11-29

pima-indians-diabetes-database-master.zip

皮马印第安人糖尿病数据集下载皮马印第安人糖尿病数据集下载 数据集:pima_indians-diabetes.csv 美国亚利桑那州的⽐马印第安⼈患糖尿病概率极⾼。WHO为此调查了21岁以上 的⼥性患者,并记录了以下信息: 1. 怀孕了⼏次 2. ⾎糖 3. ⾎压 4. ⽪脂厚度 5. 胰岛素 6. 体质指数 7. 糖尿病统 8. 年龄 9. label:是否患病

2019-09-19

户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券户的某个任务完成的#发放优惠券

#发放优惠券 游戏解释:当用户A发起某个砍价任务B,分享链接被其他人C.D.E等人点击后砍掉对应的价格(多个用户,用户可发起多个任务) 游戏规则:满70-20 需求:需要知道是第几个人帮某个用户的某个任务完成的#发放优惠券 游戏解释:当用户A发起某个砍价任务B,分享链接被其他人C.D.E等人点击后砍掉对应的价格(多个用户,用户可发起多个任务) 游戏规则:满70-20 需求:需要知道是第几个人帮某个用户的某个任务完成的#发放优惠券 游戏解释:当用户A发起某个砍价任务B,分享链接被其他人C.D.E等人点击后砍掉对应的价格(多个用户,用户可发起多个任务) 游戏规则:满70-20 需求:需要知道是第几个人帮某个用户的某个任务完成的

2019-09-05

运营趋势最终版本.ipynb

运营趋势最终版本

2019-07-29

CDNOW_master.txt

用python分析消费者行为

2019-06-11

order.csvorder.csvorder.csvorder.csv

https://blog.csdn.net/OYY_90/article/details/90174529这篇博客的数据,

2019-05-13

数据库包的前提

数据库包的前提

2019-04-12

wiki教程+生意参谋看板+电商底层表

wiki教程+生意参谋看板+电商底层表,

2019-03-19

大数据分析实战

Spark大数据分析实战 值得推荐

2018-11-22

spark分析-重点推荐

spark分析有实际案例案例重点推荐推荐

2018-11-22

好玩的图表可视化

机器学习,好玩的图表可视化,好玩的图表可视化好玩的图表可视化好玩的图表可视化好玩的图表可视化好玩的图表可视化

2018-10-12

作图小工具

可视化作图小工具

2018-10-12

Excel小人制作男女比例图

Excel小人制作男女比例图

2018-09-13

tableau数据集

对应的博客教程,tableau大数据分析的资源数据集 对应的博客教程,tableau大数据分析的资源数据集

2018-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除