自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (5)
  • 收藏
  • 关注

原创 做完十年数据分析后的思考与总结

提前做好职业规划,多复盘、多记录、多写作,都是成年人,没必要跟自己过不去,好好沉淀,直到被掘金人挖到的那一刻,真正的实现价值的变现。

2024-01-16 14:33:01 1682

原创 要做一个大数据人才,到底应具备哪些技能?

我是西索,最近这段时间,和几个大厂的TL 做分析方面的探讨,在大数据时代要怎么才能发挥更高的数据价值,刚好涉及到这部分的讨论,把讨论结果做个分享,供同行参考。这几年听到最多的一个声音,我们要开始“卷”价值了。那么“你的价值体现是什么?”、“当前还有多少价值可以做”、“接下来我们要创造什么价值”…对于刚入行的同学来说,需要了解大数据分析过程中涉及到的流程和环节,再结合大数据的要素进行能力拆解。数据分析和大数据分析,原始数据量大小不同,导致处理方式的不同。

2024-03-05 20:00:25 705

原创 做分析用什么工具

而SQL是用来提数跑数的,你必须得会,得熟练,不然时间都耗在这儿了 当你遇到数据量较大或者需要复杂模型,就可以上PYTHON和R了 当然如果是你公司有大数据平台,就可能使用HIVE、SPARK、STOM等等。第二是,多多和别人交流和分享,思维的碰撞,能加深个人的理解和感悟 数据分析,是各行各业都需要的技能,不同行业的数据分析,分析方向和内容也是千差万别。工具是最容易掌握的,真正提高工作效率的,都是大家常提的、公认的,脱离实际场景的内容,提供客户数据标签管理、智能圈人、人群扩散、位置营销、营销效果分析;

2024-03-05 19:57:28 865

原创 如何去评估好业务方提交的数据需求

对部分自己不确定的事情,需要找一个熟悉业务的人来背书,这个人要么是你的同级,要么是你的直属领导。数据作用在哪个部门,会影响到他们什么,这个和第一个问题有些同质,考虑的点不一样,重点在于影响范围上,去了解数据提供到的业务方,他们拿到数据之后会做出什么样的策略。

2024-01-18 10:39:24 366

原创 走向数据之光,成长启示

总而言之,言而总之,几个比较受用的观点:1、可以人人都会数据分析,但不是人人都能成为数据分析师,具有非常强的专业性壁垒;2、数据只是商业的一环,在业务的驱动性没有那么有价值,离开业务的数据只是一类信息;3、我们希望能通过数据解决很多问题,但实际上,数据不是万能的,政策、市场、业务都在时刻变化着,需要结合业务演进;4、做数据分析,不是做单次响应,能做到业务闭环,才是企业真正需要的人才,多元、复合是趋势;

2024-01-18 09:54:00 833

原创 走向数据之光,实践思考

互联网”、“人工智能”、“AIGC”、“5G”、“量子计算”,在这个快速变化的时代下,国家提倡数字经济,企业实施数字化转型,对数字化人才的需求急剧增长,数字化人才日益成为国家创新驱动发展、企业转型升级的核心竞争力。数据决策,原本是为了替代拍脑袋的经验决策,但是人是惯性的,我们慢慢的也会从数据决策,变成拍脑袋得数据结论的经验决策。个人能力的成长,溢出部门职责要求的时候,会形成一种对抗,部门的职责范围扩增,会衍生出组织团队定位的问题,都需要做好日常的思考、复盘和总结,保持持续的学习和交流必不可少。

2024-01-17 09:16:20 930

原创 走向数据之光,价值驱动

组织视角,需要考虑分工个人视角,需要去考虑成长和期望,需要考虑价值贡献,才能有结果导向,博得更高的财务回报for财务总监、VP、CEO的时候,他们需要的是决策痛点:“明年我们的商业化版本要不要调价”期待:“能不能调,调多少”能力:“能不能分析过往的模式”、“外面的行业模式”、“外界的行业、丛林指数”、“财务ltv模型是不是在变好,单价变高之后,用户保有量变少”结果:“以bp的形式,去思考商业分析”●怎么做问题的质量判断?●你能不能拿到高质量的问题,有没有掌控权,质量不高的问题,永远拿不到好的结果。

2024-01-17 09:15:12 897

原创 做好分析需要看的一些书

在方法论、工具上的使用已经炉火纯青,对于模式和框架也已经了然于胸,这时候往往不局限于一个行业或者一个方向,而是拓面立体,《决战大数据》、《Doing Data Science》、《数据之巅》、《大数据时代》、《智能时代》、《卓有成效的管理者》……一份工作,短则1~2年,长则5~10年。, 要学习hadoop、hive、sprak,我的第一推荐仍然是官网,当然,这里有个前提,就是你的英文阅读能力得特别好,否则的话,还是推荐《Spark大数据分析》、《Data Analytics with Hadoop》

2024-01-16 14:09:32 885

原创 毫无基础的人如何入门 Python ?

其实不止是 Python,任何学习都会遇到这么几个难点。

2024-01-16 13:40:43 896

原创 大数据开发工程师需要具备哪些技能?

对于大数据,随着技术的不断迭代,数字化的发展,对数据职能的区分度会越来越细分,持续保持对前沿知识的关注,通过和周边的大佬进行学习,结合场景进行深度应用,在数字化的道路上才能走的更长远。也分很多种类型,包括搜索算法、导航算法、NLP、视觉算法、图像识别、自动驾驶、安全算法、通信算法等,需要掌握的技能差异性也很大,整体来看,有以下共性。前端从业人员主要分布于我国中东、南部地区,其中北京的前端开发工程师最多,其次是深圳、上海、成都、杭州、广州、武汉、南京、长沙和西安;

2024-01-11 16:20:36 1004

原创 商业分析能力是怎样炼成的?

对过去十年,从“信息孤岛,不能用、不好用”到“破开壁垒,可以用、好用”,大数据、云计算、互联网、物联网等信息技术得到了大力发展,人工智能技术飞速提升,打破了科学与应用之间的“技术鸿沟”,图像分类、语音识别、知识问答、人机对弈、无人驾驶等具有广阔应用前景。管理需求变更以确保每个人都在使用最新的文档,并且适当的利益相关者参与有关变更的所有决策,让自己可以回答问题并帮助解决在项目的技术设计、技术实施或测试阶段出现的任何问题,更新和/或重新打包需求文档,使其对技术设计和实施过程有用;,所需要具备对能力矩阵。

2024-01-11 16:16:26 1355

原创 影响最大的七本工具书

结合BAT下企业级5个真实的应用案例,譬如根据新闻标题跟踪疾病暴发、分析社交网络以及在广告点击数据中寻找相关模式,通过分析需求转化,了解常见问题的解决,例如数据丢失、混乱的数据以及与构建模型不匹配的算法,Python算法包中的详细设置说明和常见故障的解决办法,利用简单示例实现算法原理的理解与落地应用。数据科学,包含了对问题事件的分析、挖掘,需要用到很多前沿的算法,譬如机器学习、深度学习,涉及到的代码、算法、数据集、格式和可视化都需要有完整的项目进行演练,才能实现互联网短平快的目的,高效高产。

2024-01-11 16:13:50 1269

原创 年薪百万的人怎么做好工作复盘和总结

【代码】年薪百万的人怎么做好工作复盘和总结。

2023-11-15 20:11:20 245

原创 分享篇:我用数据分析做副业

前提是有积累到一定的受众,输出BI软件使用、分析工具、分析方法论、分析案例、大数据场景、算法实践等内容的培训课程,实现知识付费。● 段位高一点可以,可以提供职业规划的指导,如何写好简历、做好职业发展路径规划、选择工作、行业发展等。● 早期的时候,接一些零散的小单,譬如Excel模板、自动化统计工具等,帮助雇主解决。● Python的应用除了数据处理,最大的优势是在数据建模,和小伙伴参与各大平台的。● 在接触一段时间R的时候,会接一些社区内的使用咨询,多是学生,如何在R中实现。● 写专利真的可以很赚钱!

2023-11-15 20:10:25 474

原创 分享篇:最近在研究的AIGC内容

1、大模型会颠覆一些生产力,让强的人更强归根到底,大模型是工具,和早些年的excel、python、ps没差,能不能用好工具,这个得靠脑子,比较吃框架和构思点,不同的人用下来的结果和效果可能会不一样2、对OL来说真的可以提效很多,但是也伴随着危机在文字整理、框架生成上不用做过多的思考,能够快速的做好归纳总结,但是现在这个阶段的语言还不够凝练,没办法做到揣测人心。

2023-11-15 20:07:54 326

原创 技巧篇:在Pycharm中配置集成Git

在Pycharm右下角,我们可以看到Git:master,表示目前在主分支。Control-->Git 然后在 Path to Git executable中选择本地的git.exe路径。进入1:点击Pycharm导航栏中的VCS -> Get from Version Control -> Git。把Git版本库中的项目代码克隆到当前Pycharm的工作路径中。打开Pycharm, 点击File-->Settins-->进入2:点击Pycharm导航栏中的Git -> Clone。配置git上的地址,

2023-11-15 20:06:04 793

原创 技巧篇:Mac 环境PyCharm 配置 python Anaconda

在 python 开发中我们最常用的IDE就是PyCharm,有关PyCharm的优点这里就不在赘述。当我们看到上图所示的内容之后,第一反应就是点击 Conda Environmenr,这是不正确的,也是很多人都会遇到的困惑。Anaconda集成了100多个常用的第三方库,在项目的开发中就可以减少使用 pip 命令进行安装。我们选择anaconda3文件夹,并打开,找到 python.app/Mac OS 文件夹,并打开,选中 python,并点击右下角的ok,并打开;这一步最为关键,也是最容易出错的。

2023-11-15 20:05:12 1239 1

原创 经验篇:大数据常用工具集合

Tableau、QuickBI、PowerBI、FineBI、观远BI、GBI、网易有数、QlikView、Oracle Analytics Cloud、SAP Analytics Cloud、Cognos、Google Analytics、Adobe Analytics。

2023-11-15 20:04:30 329

原创 技巧篇:常用的R代码汇总

一些常用的R代码集合

2022-06-05 21:31:26 2846

原创 技巧篇:常用的vba代码汇总

一些常用的vba代码集合

2022-06-05 21:30:49 5693

原创 技巧篇:常用的python代码汇总

一些常用的python代码集合

2022-06-05 21:29:36 141

转载 感悟篇:我在B端做数据分析(一)

B端分析的一些场景

2022-05-15 14:17:53 579

原创 入行9年关于数据分析的一些沉淀

2019-09-30 10:52:07 826

原创 耗时1星期,最全的sklearn结构整理

不多说,直接上图!

2019-09-16 11:51:48 255

原创 python怎么计算相关系数、偏相关系数?

首先看下相关系数、偏相关系数的计算公式Xi=[1.1, 1.9, 3]Yi=[5.0, 10.4, 14.6]E(X) = (1.1+1.9+3)/3=2E(Y) = (5.0+10.4+14.6)/3=10E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02此外:还可以计算:...

2019-09-12 15:43:14 17516 1

原创 虚拟变量的方法介绍及python实现方式

虚拟变量的定义作用计量经济学中对虚拟变量给出了定义、作用及使用场景,进一步的深入了解可以系统性学习。定义:虚拟变量 ( Dummy Variables) ,用以反映无法定量度量的因素,譬如性别对收入的影响,是量化了的质变量,通常取值为0或1。另外一些名字:又称哑变量、虚设变量、名义变量、属性变量、双值变量、定性变量、二院型变量等作用:引入哑变量可使线形回归模型变得更复杂,但对问题描述...

2019-09-10 13:38:25 9203

原创 python生成自动邮件任务

前言在日常的数据分析过程中,我们常常需要将一些固化的指标定期发送给相关的负责人,以实现信息推送、告警的目的。几个步骤获取数据制表、绘图利用email模块发送部署定时任务1、获取数据参考python获取外部数据源e.g. 通过sql连接数据库或者读取本地excel文件来获取数据# 执行sqldef get_monitor_data(): sql='select * ...

2019-09-06 16:01:11 743

原创 python常用计算类型方法总结

python3常用计算函数总结# pip 安装的时候,如果有些包已经存在,则用ignore忽略即可# pip install moviepy --ignore-installedimport pandas as pdimport numpy as npimport randomfrom scipy import statsimport scipy as spimport matp...

2019-09-05 13:24:07 304

原创 LINUX系统python通过matplotlib绘图中文字体乱码

LINUX系统python通过matplotlib绘图中文字体乱码,解决服务器里面没有字体的问题:参考1:https://www.jianshu.com/p/7b7a3e73ef21参考2:https://www.zhihu.com/question/25404709查看环境input: 终端cat /etc/redhat-releaseoutput:CentOS Linux re...

2019-09-05 13:23:05 1533

原创 python常用计算类型方法总结

### python3常用计算函数总结```# pip 安装的时候,如果有些包已经存在,则用ignore忽略即可# pip install moviepy --ignore-installedimport pandas as pdimport numpy as npimport randomfrom scipy import statsimport scipy as spimp...

2019-09-04 14:14:34 218

原创 SecureCRT自动断开的解决方法

在服务器内生成一个Py文件test.pyimport osimport timei=''print('start heartbeat')while 1==1: time.sleep(60*10) seq=''.join(['=']*10) print(seq,'gogogo',seq)在终端运行python test.py &...

2019-09-04 10:29:16 704

原创 关于sklearn算法学习的一部分总结

前言关于一部分算法实践的代码整理关于算法实践的几个步骤### 载入python相关的包```python# 基础import pandas as pdimport numpy as npfrom collections import defaultdictimport matplotlib.pyplot as pltimport seaborn as snsimport...

2019-09-04 09:55:52 262

原创 python对mysql的绝对操控总结

前沿对mysql操控的几行代码总结,增删改查。import pymysqlfrom sqlalchemy import create_engineimport pandas as pdimport numpy as npclass use_mysql(object): # con = pymysql.connect(**config) # mycursor = con...

2019-08-19 11:37:33 179

原创 python实现钉钉群机器人报告推送

前言Python+七牛云+钉钉+ODPS实现数据获取及群消息自动推送。几个步骤获取数据制表、绘图利用七牛云获取图片url通过钉钉sdk发送群消息如果有很多信息需要推送,可以考虑在绘图时直接用subplots将图分割好;也可以通过钉钉推送markdown内容进行多张图配置;获取数据参考python获取外部数据源e.g.def get_monitor_data(): ...

2019-08-15 11:52:41 1334 1

原创 python在ODPS上的深度应用

前言对于需要在ODPS上进行数据管理,且要用到python进行数据分析的童鞋来说,这篇总结是绝对的干货。链接:阿里云官网pyodpsPyODPS提供了DataFrame的接口来处理 MaxCompute对象,也可以转换成为pandas进行数据操作。下面是数据管理中的几个常用场景:数据查询、数据写入、表删除,都是基于pandas dataframe的操作过程。需要注意的是在dataworks...

2019-08-15 11:52:08 4764 5

原创 python通过wordcloud绘制词云

python3下绘制定制化词云,预先安装wordcloud,准备任意一张图片eg.jpg,以及一个写有文案的txt文件。code如下:#!/user/bin/python# -*- coding:utf-8 -*-_author_ = 'xisuo'import osimport numpy as npfrom wordcloud import WordCloud,STOPWORD...

2019-08-15 11:51:19 414

技巧篇:pyspark常用操作梳理

pyspark常用操作梳理 基于spark.sql进行操作 创建临时表 创建临时视图 基于dataframe进行操作 了解表结构 查看数据 查看列名 持久化 列操作 列名称重命名 条件筛选 利用when做条件判断 利用between做多条件判断 in数据判断 数据去重 分组统计 生成索引 数据整形 列转行 行转列 数理统计 描述性统计 统计频数 统计四分位数 分组统计 统计相关系数 统计协方差 随机抽样 自定义统计 udf操作 数据关联 横向拼接 左连接 多字段连接 通过pandas dataframe进行转换 利用pandas取差集、交集和并集

2021-06-21

python通过wordcloud绘制词云.md

python3下绘制定制化词云,预先安装wordcloud,准备任意一张图片eg.jpg,以及一个写有文案的txt文件。

2019-08-15

Python可视化.docx

Python可视化分析

2019-05-16

《数据分析葵花宝典》修炼指导手册.pdf

数据分析技能。

2019-05-15

2018年中国城市分级完整名单(包含338个地级市).xlsx

城市分级。

2019-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除