Alpha-小庄-CSDN博客

原创如何成为商业数据分析师?

商业数据分析师：任重道远我为什么这么说呢？商业世界和数据世界之间有一个桥梁，这个桥梁需要商业数据分析师来连接。也就是说：商业数据感性理性需要在两者之间实现转义和应用。借用梁宁老师在产品经理30讲中的观点，将产品经理能力分成三部分来看，我认为这也同样适用于我们的商业数据分析师。宏观视野中观套路微观体感势能的使用、趋势的把握招式、套路、具体...

2019-08-06 10:16:03 854 1

现在显然已经是数据智能时代了，传统商业和智能商业的本质区别可以用一个字来概括：“活的闭环”。数据是“活”的，用户的每一次行为都转化为新的数据汇入数据的大海，而每一个新数据的汇入都实时引发各个数据集的连锁反应；算法是“活”的，用户对产品、服务的每一次体验，都成为算法迭代成长的养分，使算法越来越聪明地反映商业本质；反馈闭环是“活”的，在其中，产品在迭代，数据在流动，算法在成长；最终，我们所熟悉的工业时代的机械逻辑——预先设定一切——将被彻底颠覆，取而代之的将会是一个全新的商业生态系统和商业形态。

2019-07-27 16:33:13 9730 1

原创机器学习-朴素贝叶斯

今天带大家从理论到实践学习一下贝叶斯算法。（特别声明：图片来源于贪心学院与阿里云学院）首先我们需要先了解一点概念：随机试验与随机事件，具体如下关系事件与韦恩图上面的这些基本关系，在以后会经常用到。下面了解一下概率的基本性质。我们接下来直接引入条件概率的概念，这里要注意一下，贝叶斯公式就是根据条件概率公式推导而来的，因此要重视起来。下面看一下概念和简单例子。...

2019-07-10 17:21:05 282 2

原创机器学习-线性回归与逻辑回归

机器学习被很多新手认为非常的神秘，经常会为学到了几个新鲜的名词而自我陶醉。那今天就来唠一唠这回归分析。回归分析包含着线性回归与逻辑回归。先从基本概念入手。理论加实战才能学的深刻。下面的一些图片来源于贪心学院训练营和网络。回归算法是一种通过最小化预测值与实际结果值之间的差距，而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测有线性回归等，而对于离散值/类别预测，我们也可以把...

2019-07-05 17:37:01 1447

原创机器学习-K最近邻（KNN）算法

注：部分图片来源于贪心学院训练营，部分来源于网络。就像学习任何编程语言一样，都要从认识‘hello world’开始。在机器学习算法里面，KNN算法也相当与这个角色。定量说一下：理解代码核心不超过5分钟，从零写KNN代码不超过5行。看到这里估计大家知道我想说明什么了。没错，KNN算法就是一种分类算法。看到这个绿色的圆形，我们猜测一下，应该给他分到哪一个类别里面呢。...

2019-06-28 16:58:29 1126 2

原创机器学习-用简单线性回归做预测（实战篇）

这是参加贪心学院训练营的第一周，这一周老师主要交了我们简单的线性回归算法与KNN算法的理论与实战。在机器学习里面，主要可以分为两大类问题，即，分类与回归。分类主要是判断新得到的数据为哪一类，回归就是预测某一个连续的值。归根结底，机器学习就是对拿到的历史数据，去训练出数据模型，然后能够对未知数据有一定预测。在进入本次实战任务之前，我们需要先对机器学习有一定的认识。请看我的“一文初窥机...

2019-06-23 22:09:56 9651 5

原创 Python实现文件批量重命名

本次将学习如何使用Python实现文件批量重命名。说明：本实验的程序文件与数据在启动jupyter notebook后，就会在主目录中显示，可以直接打开查看并运行，但为了增加熟练度，达到最佳的学习效果，建议大家手动输入。在服务器C盘下，创建如下所示的目录结构（类似的结果也可以，用于删除广告词测试），缩进表示下一层，即子目录或子文件（目录中的文件）。C:\ 下载的文件（目录） ...

2019-06-10 16:00:35 1957

原创第一章-随机变量与概率估计

随机变量（random variable）表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关，都可以数量化，即都能用数量化的方式表达。随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数，灯泡的寿命等等，都是随机变量的实例。在做实验时，常常是相对于试验结果本身而言，我们主要还是对结果的...

2019-06-07 21:09:00 1124

原创 AI工程师养成计划

以后很长一段时间，博主将要和大家共同学习机器学习和深度学习等等的一些课程。坚持人工智能工程师养成计划。分享的学习内容参考阿里云学院的教学内容安排。让我们一起掌握前沿技术，做新时代的弄潮儿！课程安排如下：一、前置课程1.Python基础学习2.机器学习入门：概念原理及常用算法3.机器学习PAI快速入门与业务实战二、必备数学基础1.高等数学2.线性代数3.微积分4.概率论...

2019-06-06 15:58:47 540

转载一篇文章让你窥探机器学习

申明：本文转载自博客园-飞鸟各投林，觉得对于机器学习入门的概念归纳的很不错，转过来后根据自己的理解对部分内容做了删减补充调整，并作为自己对机器学习理解的回顾，特此记。让我们从机器学习谈起导读：在本篇文章中，将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。当然，本文也面对一般读者，不会对阅读有相关的前提要求。在进...

2019-06-05 16:20:08 1117

原创数据分析入门

本次分享的目的在于讲解以下几个内容：1、什么是数据分析；2、数据分析的三大作用；3、数据分析的六大步骤。（重点）1.什么是数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，将他们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。数据分析分为三种形式： 1.描述性数据分析（初级数据分析） 2.探索性数据分析（高级数据分析） 3.验证性数据分...

2019-06-01 17:23:23 188

原创中电莱斯杯--中国矿大决赛的一点回忆与感悟

中国矿业大学（China University of Mining and Technology），简称中国矿大，坐落于江苏省徐州市，是教育部直属的全国重点大学，教育部与江苏省人民政府、应急管理部共建高校，世界一流学科建设高校、“211工程”、“985工程优势学科创新平台”、“111计划”、“卓越工程师教育培养计划”重点建设高校，全国首批博士和硕士学位授予单位，高水平行业特色大学优质资源共享联盟、...

2019-06-01 10:48:17 459

原创 python数据科学代码速查表大全

大数据的好处我不必多说了。做数据科学领域的工资也是相当高的。本次就是和大家免费分享学习数据科学必备神器--python数据科学代码速查表大全具体如下展示大家看到了内容大概这个样子，这里不仅是中文的，而且非常的高清。高清度如下本次我给大家准备的内容也是很丰富的，具体列表如下。最后附上百度云分享链接链接：https://pan.baidu.com/s/1Ub...

2019-05-23 22:38:55 1720 1

原创 numpy-数组知识深度梳理（1）

上图来自王老师的文章，现在借用一下。从图中我们清晰看到了想要精通python有很多库要学习，有用在金融量化方面的，有用在数据分析方面，还有用在深度学习方面方面的等等，总的来说知识很庞大。我们最近一段时间一起学习的是numpy这个常用库，他和Scipy都常用于Array Operation当中。下面进入今天的正题--numpy之数组知识梳理。#今天对numpy数组再梳理一遍imp...

2019-05-11 16:08:43 242

原创数据驱动--引爆新零售

在通过在真实的电商环境下，使用海量数据构建用户画像和商品画像，对当地的用户行为和购物喜好做客观分析，绘制出当地用户购物情感倾向画像。挖掘出其商用价值并给各零售商户定制个性化服务，辅助零售商作出改进，实现利润增长。import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdf=pd.read_csv...

2019-05-09 23:03:58 304

原创淘宝热卖沙发评论挖掘

对于网购商品来说，顾客一般比较关注的就是这件商品的销量以及商品的评论，销量很低的基本上不怎么考虑，但是这不是致命的。最为致命的就是顾客评论中对自家商品不好的评价。今天我们来看一下淘宝热卖沙发的情况。本文数据选取的是价格超过500元的沙发销量TOP1的商家。进入商店之后，找到评论区，选择好评。具体如下：抓取好评栏目600条顾客的评论数据，然后处理数据/中文分词等，最后进行...

2019-04-02 12:08:22 241

原创蘑菇街短裙热卖探索

夏天要到了，女生短裙可能又是一道靓丽的风景线，那么如何选择的短裙，也是一个不小的话题。下面，我们直接看一下，蘑菇街短裙的简单探索。数据来自蘑菇街短裙栏目销量TOP120的数据。第一步：数据爬虫，利用爬虫技术抓取TOP120短裙热卖的卖点，也就是他们的标题。将数据保存成CSV格式。第二步：利用Anaconda数据处理工具，对数据进行处理。首先我们采集的都是一些中文，这样的话，我们就需...

2019-04-01 15:18:47 186

原创基于python的犯罪数据的可视化预警分析

本文灵感来源于Kaggle比赛-旧金山犯罪预测。小编感觉在犯罪打击上面，数据可视化能够很好的做到犯罪打击，给公安机关提供良好的分析依据和可视化的预警效果。因为犯罪数据基本上不公开，我们本文用到的是Kaggle比赛里面提供的旧金山2015年犯罪的开源数据。话不多说，直接上干货！本文使用的是jupyter Notebook。大家可以下载Anaconda，里面自带jupyter ...

2019-03-16 15:42:06 6309 6

原创 urllib.request的异常处理

在我们⽤urlopen⽅法发出⼀个请求时，如果 urlopen 不能处理这个response，就产⽣urlError。这⾥主要说的是 URLError 和 HTTPError，以及对它们的错误处理。URLError：URLError 产⽣的原因可能有：1. 没有⽹络连接2. 服务器连接失败3. 找不到指定的服务器我们可以⽤ try except 语句来捕获相应的异常。下⾯的例⼦⾥我们...

2019-02-10 10:46:12 2187

原创爬虫简单上手实战

urllib 库的基本使⽤：所谓⽹⻚抓取，就是把 URL 地址中指定的⽹络资源从⽹络流中读取出来，保存到本地。在 Python2 中，我们使⽤ urllib2 这个组件来抓取⽹⻚。在 python3.x 中被改为 urllib.request。urlopen：import urllib.request #导入爬虫用到的模块response=urllib.request.urlop...

2019-02-09 17:04:37 332

原创爬虫原理扫盲

根据使⽤场景，⽹络爬⾍可分为通⽤爬⾍和聚焦爬⾍两种。通⽤⽹络爬⾍是捜索引擎（Baidu、Google、Yahoo）抓取系统的重要组成部分。主要⽬的是将互联⽹上的⽹⻚下载到本地，形成⼀个互联⽹内容的镜像备份。⽹络爬⾍的基本⼯作流程如下：⾸先选取⼀部分精⼼挑选的种⼦URL；将这些 URL 放⼊待抓取 URL 队列；从待抓取 URL 队列中取出待抓取在 URL，解析 DNS，并且得到主...

2019-02-08 16:21:07 187

原创 Python的基础知识傻瓜教学！

多行注释：三个引号 '''被注释的部分"' 标识符：一定要是字母或者下划线开头 a+=b 就是 a=a+b 两个引号引起来中间部分是字符串 Python是没有数组的概念有类似的东西存在但是有列表[] 可以存储元素： abc=[“My”, “You”] 如果要选取列表中的元素：abc[1] 输出 ‘You’ 要替换列表中的元素：abc[1]=”He”元组的...

2019-02-07 19:47:21 227

原创第一章--回顾python爬虫常用操作-2

写文件写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件：>>>f = open('/Users/michael/test.txt', 'w')>>>f.write('Hi,world!')>>>f.close()你可以反复调用write()来写入文件，但是务必...

2019-02-06 16:38:32 141

原创第一章--回顾python爬虫常用操作-1

接下来的一段时间，让小庄同学和大家一起由浅入深的学习Python爬虫开发与实战。学好一门技术是一件漫长的事情，大家一起耐心的去学习。1.安装python：到python官网去下载python3版本使用，由于python是跨平台语言，在Windows和Linux或Mac上面的安装细节不全一样，希望大家自行上网了解安装流程。给大家点建议：个人感觉使用PyCharm和Jupyter No...

2019-02-05 21:14:31 313

原创 AI工程师成长之路-KNN回归算法实现

本博文是博主在阿里云大学学习记录的笔记，未经博主允许禁止随意转载。数据集获取方法：链接：https://pan.baidu.com/s/1b6Nc3-QmHhQjH_uxZg3WCQ 提取码：ndv9本实验将学习如何使用Python实现KNN回归算法。说明：本实验的程序文件与数据在启动jupyter notebook后，就会在主目录中显示，可以直接打开查看并运行，但为了增加熟练度...

2018-10-14 13:51:42 403

原创 AI工程师成长之路-KNN分类算法实现

本博文是博主在阿里云大学学习记录的笔记，未经博主允许禁止随意转载。数据集获取方法：链接：https://pan.baidu.com/s/1b6Nc3-QmHhQjH_uxZg3WCQ 提取码：ndv9接下来将学习如何使用Python实现KNN分类算法。说明：本实验的程序文件与数据在启动jupyter notebook后，就会在主目录中显示，可以直接打开查看并运行，但为了增加熟练度...

2018-10-14 13:44:55 349

原创 AI工程师成长之路--机器学习之模型评估与选择

机器学习之模型评估与选择开篇简介：本文是博主结合前辈经验和自身的认识写的博文，有不少博主自身理解还不太透彻，因为考虑到文章的完整性，有些部分需要引用的前辈的一些方法，望谅解。由于文章专业化内容过多，会影响阅读体验，在这里建议大家难以理解的部分先不要去深究，等待需要用到的时候再去深入研究一下。本博文大家可以先保存以后用到时候当做资料参考，希望能帮助到大家一点点。1.误差与拟合错误率 = ...

2018-10-06 12:16:47 427 1

原创 AI工程师成长之路--机器学习核心三要素

机器学习三要素：模型、策略与算法本章节是我们学习机器学习的一个起点，因为机器学习过程用到很多统计学知识，顾机器学习也叫统计学习，即Statistics Learning。机器学习在干嘛？就是利用已有数据，找到一些合适的数学模型去描述它，然后做一些预测分析，从而优化企业的流程或者提高决策效率。可以开门见山的说，机器学习的核心思想就是机器学习的三要素，即模型、策略与算法。说到模型，其实也很简单...

2018-10-05 15:25:34 615

原创 AI工程师成长之路--我该以何种姿态入门

2018 年，人工智能在各行各业中的落地应用越来越多。十多年前，所有的企业都在想办法互联网化，如今，所有的互联网企业都在试图 AI 化。技术的竞争归根结底表现为人才的竞争，毫无疑问 AI 工程师是 IT 行业需求缺口最大的高端技术岗位，薪资水平虽远高于其他行业，但 AI 工程师依然供不应求。除了高校里科班出身的相关专业毕业生，有代码经验的转型程序员也广受 AI 公司的欢迎。 ...

2018-10-05 12:36:32 1732

小庄同学的博客