自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

data_fan

关注数据/代码/自我成长

  • 博客(49)
  • 收藏
  • 关注

原创 机器学习入门之Kmeans

聚类聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好kmeans过程选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 考虑欧几里得距离的数据,使用误差平方和(Sum of the Squared Error...

2019-12-23 14:17:26 285

转载 机器学习入门之决策树

介绍决策树是一种常见的机器学习算法,它的思想十分朴素,类似于我们平时利用选择做决策的过程。它是类似流程图的结构,其中每个内部节点表示一个测试功能,即类似做出决策的过程(动作),每个叶节点都表示一个类标签,即在计算所有特征之后做出的决定(结果)。标签和分支表示导致这些类标签的功能的连接。从根到叶的路径表示分类规则。比如下面这个“相亲决策树”:决策树的构建决策树通常有三个步骤:特征选择决策树...

2019-12-22 17:30:21 190

转载 机器学习入门之逻辑回归

背景逻辑回归(Logistic Regression,LR)。在Kaggle竞赛的统计中,LR算法以63.5%的出产率,荣获各领域中“出场率最高的算法”这一殊荣。在实际场景中,逻辑回归同样应用广泛,大到国家各项经济政策的制定,小到计算广告CTR,都能看到LR算的身影。除了应用广泛外,LR的建模过程还体现了数据建模中很重要的思想:对问题划分层次,并利用非线性变换和线性模型的组合,将未知的复杂问题...

2019-12-16 11:12:15 147

原创 机器学习入门之梯度下降

背景机器学习就是需找一种函数f(x)并进行优化, 且这种函数能够做预测、分类、生成等工作。那么其实可以总结出关于“如何找到函数f(x)”的方法论。可以看作是机器学习的“三板斧”:第一步:定义一个函数集合(define a function set)第二步:判断函数的好坏(goodness of a function)第三步:选择最好的函数(pick the best one)我们先...

2019-12-16 11:05:46 141

转载 机器学习入门之线性回归算法

背景I‘m Linear Regression, One of the most important mathematical models and Mother of Models.简单介绍简单线性回归目标是,找到a和b,使得损失函数:尽可能的小。示例代码import numpy as npclass SimpleLinearRegression: def __in...

2019-12-01 21:54:27 134

原创 机器学习入门之特征预处理

ss

2019-11-24 22:15:33 226

原创 机器学习入门之评价模型好坏

背景我们在机器学习中如何评价一个模型的好坏?对于一个回归问题,可以使用MSE、RMSE、MAE、R方。对于一个分类问题,可以使用分类精准度。分类算法的评价回归算法的评价...

2019-11-15 14:41:48 261

原创 机器学习入门之KNN

背景

2019-11-10 18:50:45 160

原创 《用户体验要素》读书笔记

介绍最近在和两个小伙伴做一个类似健身wiki小程序,三个人都是开发,想想是时候要补充一些产品sense了,正好在公司的图书角看到了《用户体验要素》这一本书,听朋友说这本书是讲一些概念和方法论的知识。趁周末的时候读一读写写读书笔记。...

2019-09-21 18:12:21 171

原创 写作小技巧

背景写作是一门很重要的技能,它是用书面语言表达信息的一种方式。俗话说见字如面,现代社会的我们可能很少会亲手写字,基本是使用电子设备传达信息。那么在信息传递的过程中,信息接收者很可能会根据信息质量来评估信息输出者的能力和特点,不同的信息质量也给信息接收者带来不同的信息接受效果。因此,适当的写作技巧能够帮助我们更有效地在信息交流中进行高质量的信息交换,以及更好地表达自己。入门《一本小小的红色写作...

2019-08-04 14:57:40 187

原创 数据相关岗位面试经验分享

最近这段时间参加了一些公司的面试,有些朋友会想让我分享一下经验。

2019-08-01 15:20:04 1008

翻译 心有猛虎,细嗅蔷薇

来源:英国诗人Siegfried Sassoon;翻译:余光中In me, past, present, future meetIn me, past, present, future meet,于我,过去、现在和未来To hold long chiding conference.商讨聚会 各执一词 纷扰不息。My lusts usurp the present tense林林总...

2019-07-09 17:06:55 232

原创 用python发邮件

def send_mail(to_mail, subject,data, filename=None): smtp_server = 'smtp.exmail.qq.com' from_mail = "" mail_pass = "" msg = MIMEMultipart() msg["From"] = from_mail msg["To"] =...

2019-06-29 11:00:09 203

原创 从0到1构建用户画像(三)

这一节我们来介绍用户RFM模型在以用户价值来做用户模型当中,其实是有两个方向。一个是基于用户生命周期,也就用户在产品内的成长路径进行的生命周期模型的搭建。另一个就是基于用户关键行为进行搭建。其中RFM模型是最典型的,是衡量用户价值和用户创利能力的一个重要的工具和手段,早被广泛应用在各个行业中了。基本定义RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该机械模型通过一个客户的近期购...

2019-06-25 11:18:52 978

原创 从0到1构建用户画像(二)

这篇文章主要针对用户性别这一标签进行实战开发介绍。语言:python3.6机器学习算法包:sklearn、gensim用户性别基于身份证身份证号有18位,也有15位的,18位的第17位代表性别,15位的最后一位表示性别,奇数为男,偶数为女。用户姓名-性别判断模型样本数据:带有身份证号和姓名的数据分类算法:贝叶斯模型import ngenderimport r...

2019-06-25 10:57:19 376

原创 从0到1构建用户画像(一)

概述从0到1构建用户画像系列,旨在帮助读者快速构建一个简单好用的可视化用户画像系统。什么是用户画像?用户画像(User Profile)是根据用户社会属性,生活习惯和消费行为等信息抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。方案设计以下是一个简要的方案设计说明,仅作为参考。

2019-06-25 10:30:30 517

原创 并发编程读书笔记(一)

java并发编程是java程序员必须要会的知识,虽然写下的东西还比较肤浅,但是自己消化加上自己理解的东西也是好的…这一篇主要介绍了多线程的一些简单的内容。简介进程在没有操作系统之前,程序可以调用机器的所有资源从头执行到尾。这样的程序既复杂而且效率不高。操作系统出现之后,计算机可以允许多个独立的程序同时运行,称之为***进程(process)***。这些进程由操作系统来分配资源例如内存、文件句...

2019-06-24 23:21:40 166

转载 怎样阅读财务报表

来源于同事的分享,理解财务也是获得更好生活的一个很重要的方面。

2019-06-24 13:12:09 823

原创 位运算

概念符号描述运算规则&与两个位都为1时,结果才为1|或两个位都为0时,结果才为0^异或两个位相同时为0,相异时为1~取反0变1,1变0<<左移各二进制位全部左移若干位,高位丢弃,低位补0>>右移各二进制位全部右移若干位,对于无符号数,高位补0,有符号数,有的补符号数,有的补0与...

2019-06-24 11:02:00 107

原创 博客日记

这里是我的博客日记,记录一些坚持写博客期间小小的milestone~2019.06.22 博客访问量超过1000+,排名33万+

2019-06-22 20:33:13 1876

转载 43種能創造「被動收入」的方法,收藏起來吧!

转载自:https://rich01.com/43-2/「我知道現金流很重要,但具體來說,到底該怎麼創造被動收入呢?」在一次的讀書會中,一位朋友問到這個問題。對大多數的人來說,「被動收入」(或稱為非工資收入) 就像是另一個世界的產物,有些人根本沒聽過,而大多數人即使理解,也不知道該從何下手。「被動收入」就是不工作也能賺到的 現金流收入如果還不瞭解,可以先參考這篇文章:財務自由...

2019-06-22 11:12:53 1443

转载 常用工具网站

-大数据导航: http://hao.199it.com/

2019-06-21 16:58:41 152

翻译 如果 (吉卜林的诗)

诺贝尔奖得主吉卜林写给他12岁儿子的诗《如果》如果在众人六神无主之时,你镇定自若而不是人云亦云;如果被众人猜忌怀疑时,你能自信如常而不去枉加辩论;如果你有梦想,又能不迷失自我;如果你有神思,又不至于走火入魔;如果在成功之中能不忘形于色,而在灾难之后也勇于咀嚼苦果;如果看到自己追求的美好破灭为一摊零碎的瓦砾,也不说放弃;如果你辛苦劳作,已是功成名就,为了新目标,...

2019-06-21 13:50:34 1164

转载 数据科学团队角色

转载:https://mp.weixin.qq.com/s/m9WeLKX9sUQVE-4MTLOSNw

2019-06-20 16:15:07 224

原创 git使用整理

the stupid content trackergit是一个分布式的版本控制系统,是由伟大的程序员Linus开发而成。git的本意是饭桶,无用的人,烂人。I’m an egotistical bastard, so I name all my projects after myself. First Linux, now git.与传统的集中式版本控制系统相比,两者的区别是:集中式版...

2019-06-20 10:58:57 178

原创 坚持,一种可以养成的习惯

一年的时间线快要过去一半了,大家还记得年初定下来的小目标吗?《坚持,一种可以养成的习惯》的作者是古川武士。他是日本一家习惯培养顾问公司董事长。这是一本易读可操作性强的自助类书籍。推荐给像从前的我一样缺乏耐性,做事喜欢三分钟热度的小伙伴看~习惯是什么呢?习惯是在脑中设定的程序,它将固定而重复的行为化为无意识地重复动作。作者按难度将习惯大致分为三种:一、行为习惯:如读书,写日记,整理,记...

2019-06-20 10:44:17 462

原创 字符串

定义

2019-06-19 11:19:02 108

原创 深入理解Hive

背景做数据分析和数据仓库的童鞋平常工作中用到的最多的语言就是Hive SQL。那么我们在熟悉编写Hive SQL之后,是不是可以再深入地去了解多一些它的底层实现呢。这篇文章总结了一下我对理解Hive sql的一些知识点总结。...

2019-06-18 18:11:34 318

原创 数据仓库学习资料

资源Hive官方文档:https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation《Hive编程指南》《数据仓库工具箱 维度建模权威指南》《大数据之路:阿里巴巴大数据实践》下载链接链接:https://pan.baidu.com/s/1PmqZhpxphSlgTXJGR0b-4g提取码:s...

2019-06-17 17:45:31 431

原创 数据仓库介绍

什么是数仓数据仓库简称DW,就是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。为什么要有数仓主要因为面向应用型的应用的数据库设计一般是操作型的,而数据分析或者数据挖掘都是面向分析型的应用。这两种应用各有特点和适用的场景,对数据的处理应当分离。业务数据库数据仓库遵循3NF范式,表与表之前关联复杂星型模型,事实表,...

2019-06-17 17:23:06 380

原创 上网指北

参考:https://www.yuque.com/docs/share/99c21690-275b-4693-8417-ba6c731e48e7

2019-06-17 11:50:27 234

翻译 art_of_getting_better

翻译的一篇国外程序员的文章,希望对你也有所启发~don’t immitate,understand (不要模仿,理解)当你处理问题时,不要第一时间去问组里的大牛或者google后在stackoverflow上找到一些代码片段然后复制粘贴。如果每次都是这样,那遇到相同问题你依旧不会,然后循环这种操作。相反,需要先给自己一点时间研究一下,自己找出问题的解决方法。如果你当下没有时间做,那么把它...

2019-06-14 21:06:15 163

原创 通往财务自由之路2

有一些事情,只有学会了才能做,而且在做的过程中不断学习它。 — 亚里士多德作者介绍:博多· 费舍尔被誉为欧洲第一金钱教练。所著畅销书有:《小狗钱钱》《赢家法则》《通往财富自由之路》读书评论:这本书有助于打开我们的视野,作者在书中提出一些让我们“事半功倍”的方法。对于普通职员,作者给出了一些非常中肯的建议帮助我们增加收益。书中也分别写到自由职业者、投资者、企业家、专家他们是提高收入的,又该...

2019-06-14 11:23:52 698 1

转载 算法工程师必须要知道的面试技能雷达图

转载《百面机器学习》这本书的作者之一王喆老师,在知乎上的机器学习笔记专栏值得推荐:https://zhuanlan.zhihu.com/p/54089811

2019-06-12 23:30:28 335

原创 面试与刷题

面试观虽然我自己的面试经验不多,但最近有看到这样一个不错的建议:即使有着一份稳定的工作也可以常常跑去面试一些感觉不错的公司。且不说面试可以更有动力去学习和巩固技能,完善已有的工作让简历更加漂亮,还能了解市场对这个岗位的需求动向,即使面试失败了也能让我们发现自己的不足,而且大公司对你的简历是会留底的,虽然有些大厂会对没有通过的简历冻结一段时间,但等到有职位空缺的时候很可能会找上你。与其等我们准...

2019-06-12 09:29:18 704

原创 搜索

背景

2019-06-10 22:51:08 101

原创 递归

leetcode70.Climbing Stairs(爬楼梯)class Solution: def climbStairs(self, n): count = [1,2] for i in range(2,n): count.append(count[i-1]+count[i-2]) return count[n...

2019-06-10 22:48:39 93

原创 队列

定义队列是一种特殊的线性表,特殊之处在于它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作,和栈一样,队列是一种操作受限制的线性表。进行插入操作的端称为队尾,进行删除操作的端称为队头。...

2019-06-10 22:47:04 141

原创

定义栈(stack)又名堆栈,它是一种运算受限的线性表。其限制是仅允许在表的一端进行插入和删除运算。

2019-06-10 10:55:51 134

原创 数组

定义数组是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。题目

2019-06-09 17:52:57 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除