自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Memory of Mr.Snail

好好学习,天天向上

  • 博客(114)
  • 资源 (2)
  • 收藏
  • 关注

原创 一方的系统架构师认证考试之路

考前两周花了大几十块钱入手了一本系统架构师教程,翻了几页,内容有点多,写的有点官方;看了几页后,颈椎就罢工了,果断扔一边。在网上找了一些培训机构的免费教程,又花了大几十RMB买了一些资料 …考前来不及刷完一套真题,写完一篇论文,就匆忙上阵。听说过医生、律师等职业有评职称的考试,程序员也能评职称?我等体系外的一线搬砖仔,考个软考高级证有啥用?考试内容对于有Java与大数据开发经验,做过相关架构的同学来说,并不难,偏实践:希望可以一次上岸。接下来准点搞点副业,整理与输出系统架构师认证考试的相关学习资料,加油!

2023-11-06 18:25:44 141

原创 数据开发面试题准备

背 景明晚要面试两个 java 高工,稍稍准备几个题目问 题笔试题1)判断单链表是否有环;如果有环的话,寻找带环单链表的环入口2 ) 现有一张包括员工姓名、薪水、省份、城市、年龄、职位等字段在内的员工信息表; 请写 sql 查出:每个城市中薪水高于 2w 的所有员工信息以及对应的人数?说明:正确的查询结果集中可能有如下的记录 :张三、3w、广东省、惠州市、30、java高工、100(注:假设薪水大于2w的员工中,有100名来自惠州)李四、2.5w、广东省、惠州市、31、java高工、100

2021-01-28 11:12:00 1141 2

原创 2020年·MBA论说文写作模板

题 目请以 团结、合作与风险管理为主题,写一篇 700 字的论说文,题目自拟。一、注重【团结|合作|风控】,赢得未来【抗疫精神 | 材料摘要】对我们当下也有非常重要的借鉴意义。它启示我们大到一国一族,小到一人一家,想要持续发展,都离不开【强有力的风险管控 | 团结 | 合作】。风控是立身之本,是个人发展进步的基础一个人只有树立良好的【风险管控 | 团结 | 合作】意识,才能取得长足的进步。“疾风知劲草,烈火见真金”,从青丝到白发,从北国到南疆,张桂梅始终坚持为国效力、为党分忧、为民尽责的本色。她

2020-12-15 18:00:48 473 1

原创 财务数据分析基础

最近要主导公司财务数据分析项目的交付,有必要系统掌握一些基本的财务理论,要不怎么跟大佬沟通啊 … 开学吧了解财务知识,看清企业兴衰1. 财眼看世界各不相同的企业,在财务人眼里的共同点:用钱赚钱~购入、出售、再投入、再扩大了解企业形形色色的业务,无论大公司还是小公司,初创期还是成熟企业都在重复一件事,现金在各个环节转一圈,周而复始2. 日常业务背后的财务实质企业不同时期的三件事:...

2020-03-24 09:54:52 1537

原创 读《王垠:当然我在扯淡》

上周因阿里面试事件,关注到王垠 [yin第二声]。这几天断断续续通读了他博客上的文章。感觉很棒,就像在一个偏僻的地方,你精疲力尽,饿的头脑发晕,前面突然出现一家不知名的小餐馆,里面的酒呀、鱼呀全部是你的最爱。于是你咕噜咕噜,一口气把自己吃成了一个小胖子。第二天上路的时候,发现自己的脚步更坚定了。王垠的文章很能鼓舞那些正直善良的同学,帮他们找回最初的自己。我第一次自愿花30RMB在网络上买读了他...

2019-12-31 15:59:14 4635 2

原创 对索引存储与散列存储的一些形而上的思考

场 景对于数据库大表,为了加速期查询速度,往往在外键上加索引、Java集合类中HashMap使用的很频繁等等,而对于索引存储与散列存储的理解一直不清晰。问 题索引存储与散列存储怎么理解分 析房间比作存储单元,房间号比作存储单元地址。问题来了,如何快速在一家酒店找到自己的灵魂伴侣呢?这里先假设她(或者他)肯定在某一房间内,身份证作为关键字,你只知道她的身份证号码,长啥样你不知道。首先,数据...

2019-12-26 15:13:20 501

原创 避免不合理的高收益

没错,指数基金确实属于股票类资产,但风险无处不在,吃饭有风险、走路有风险,把钱放到银行存着也有风险 。本文进一步通过数据说明不投资的风险,以及常见理财产品的收益率与风险,至于基金与指数基金是什么,怎么交易,后续文章会详细介绍。风险与收益 理财金字塔 如上图示,风险与收益成正比:位于上图第一层的银行定期存款、货币基金等理财产品的年收益率在 2% ~ 4% 左右第二层的债券基金、指...

2019-09-22 14:06:18 730

原创 想成为富人,你得攒资产

前 言说着,二黄递给光头成 10 张羊皮卷,每一卷记载一个主题:第一卷 《想成为富人,你得攒资产》第二卷 《最适合上班族买入的资产:指数基金》第三卷 《常见指数基金产品介绍》第四卷 《二黄第一定律》第五卷 《如何购买指数基金》…人生两大快乐,一是没有得到你心爱的东西,于是你可以去寻求与创造,另一是得到了你心爱的东西,于是你可以去品味和体验 。在这个一到周末就下雨的秋日...

2019-09-08 23:11:27 576 2

原创 二黄的第一枚神器

背 景“明天周五,下周二要上线?” 、“有没有搞错!今天搞 openAPI,明天搞数据中台,计划要搞营销中台”、“1个人干 6 个人的活,到是给我发 7 个人的工资啊 ”二黄啃完剩下的面包,打开桌面上的《订单数据对外接口需求文档》; 新的一天,在一万只草泥马奔腾后,悄然拉开序幕。需求理解open API 1.0 第一个版本,暂不上签名与加密、流量控制等非功能性需求开放一个订单开票数...

2019-08-31 17:32:11 639

原创 二黄的自由之旅

场 景是的,财务自由是富二代与创一代的专利, 与来自18线农村、在家电企业IT部门工作近7年的程序猿二黄,相关系数为零。然而,两个月前的早上,二黄偶然听了一本名为《不上班,也有钱》的书:中国台湾一名普通打工仔,10年时间,通过努力工作与极简生活,把省下的钱全部用于定投指数基金,40岁时居然实现了财务自由,然后一家子满世界旅游。让人兴奋的事,作者定投时的年龄比二黄大,家庭月收入比二黄低 - 也就...

2019-08-25 22:51:22 289

原创 写在入职前

背景十天后,入职某家电集团大数据团队。有一段时间没写东西了,很多事来不及思考,就这样自然发生了,比方说买房、被离职、恋爱与求职。依然记得,两年前刚入职美的金融第一个月时,部门信息员邀我写一篇新员工入职感悟。匆匆忙忙写了些虚的东西,关于部门有多好,北滘有多适合人类居住,未来要干嘛 、半年前团队核心成员出走、一个月前被提前离职、五天前一同学喊我写一篇面经,分享这次求职过程中的一些心得,而现在,每天...

2019-03-25 07:35:41 820 1

原创 关于数据架构岗的面试准备 v1.0

场景又到了一年一度的跳槽旺季,是时候小涨一波工资了。考虑到最近各大公司频繁爆出裁员的消息,因此,有必要好好复习与准备一下常见的面试题,做到心中有谱。答题策略一. 禁止瞎说知之为知之,不知为不知,态度要真诚。二. 核心原理与应用场景所有问题尽量按如下两个方向靠拢 :原 理 : 是什么应用场景:在实际项目中的应用;在经典分布式开源框架 eg. spark、hdfs ...

2019-03-24 22:35:57 878

原创 征信画像项目实施文档摘要

项目背景消金美的分期产品,当前主要引用与依赖同盾等第三征信公司相关产品做线上风控。这些风控产品没有融合与应用美的集团自身庞大的零售数据与消金应用自身积累的丰富的用户行为数据,不足以帮助消金团队识别线上商户与消费者的套现欺诈行为。本项目旨在为消金风控团队提供用户风控相关画像标签,以期最大程度识别消费者的欺诈行为。需 求功能性需求实时向消金团队提供包括姓名、设备号、注...

2019-01-14 08:47:40 743

原创 欧洲区域 IT 负责人应聘小结

场 景上周四收到公司发的一封邮件:公开竞选欧洲区域 IT 负责人,工作地主要在德国与意大利;抱着玩的态度投了个人信息,今天早上打开邮件:通过了海选, 上午 10.38 参加英语口语测试 :过 程啊,只有 1 个小时的准备时间,匆忙打了腹稿。大概 20 位同事申请这个岗位,我是最后一个面的。这里罗列一下面试的过程,方便后续竞聘用(扎心,这次后面的几个问题没有回答好,感觉没戏):me : I...

2018-12-03 15:24:09 579

原创 招聘相关

背景晚上要面一个机器学习应用工程师,需要稍稍准备一下问题。问题项目简介简单自我介绍、参与项目主要负责模块的介绍语言与组件基础1 ) java 中多线程的有几种实现方式? scala 中 case class 与普通的 class 有什么区别?2)spark中缓存有哪些策略? persist() 与 cache()区别?机器学习相关1 ) 特征工程:特征选择怎么搞?特...

2018-11-01 17:53:16 388

原创 数学基础

背景扎实机器学习数学基础,坚持四个月,每天进步一点点微积分001 泰勒公式及应用线性代数概率论与梳理统计

2018-08-27 09:00:42 373

原创 基于 PredictionIO 搭建全栈式机器学习平台

场景怎么从零构建自己的机器学习平台(以下简称平台)?分析我们不妨从 平台的终端用户 -App开发人员 与 平台自身的开发人员 入手,分析一下,机器学习平台应该具备哪些能力。对于使用者而言,平台需要简单易接入、能实时提供服务怎么在app中植入机器学习相关算法,让app变得智能? 对于App开发者而言,我们当然希望植入机器学习算法像调用普通 api 一样简单。事实上,目前成熟的AI...

2018-06-14 16:59:21 2527

原创 17年总结与18年计划

背 景后天就放年假了,有必要好好总结过去、规划一下来年。17年总结刚看了去年2月3号做的 2017年规划 ,健身与音乐两项基本完成,17年大致:做 了完成了人生第一个全程马拉松,虽然成绩有点差: 参加了美声培训班,已上20节课,准备18年持续学习;电钢琴持续进步,会自己配和弦。有了自己的小窝,已搬进去住。强吻了一个自己喜欢的女生(可能还是她的初吻),感觉真棒...

2018-02-09 17:24:38 1426 5

原创 基于spark mlllib的推荐系统学习笔记

背景大势所趋,几乎所有的项目都在向机器学习、深度学习靠拢:怎么在行为分析类项目中植入机器学习相关算法?目前,有两个可行的场景:智能路径与在线推荐。智能路径 输入转化目标,按照转化率的高低输出一组用户的转化路径。这个功能针对大型、多业务流程的系统。在线推荐 根据用户自身的属性以及点击等行为数据,在会话结束后,向用户推荐相关的产品。相对而言,在线推荐更加符合我们的业务场景技术驱动业务,真的很费

2017-12-14 16:49:36 3400

原创 数据采集实践(二)

问题消息中间件比如kafka、rockMQ中的消息怎么保存到hdfs等分布式文件系统中?用户的一条行为数据,要历经怎样的跋涉才能展现在一张看是普通的报表上?背景基于Flume的二次数据采集与中转。作为数据分析类产品,魔镜面临的第一个问题就是怎么全面、高效、准确地收集用户的行为数据。上一篇文章,我们详细地介绍了JS SDK的工作原理与API说明,知道如何从美的分期应用的前端,通过埋点的方式采集与上报用

2017-11-03 15:18:41 1222

原创 又一国庆放假前的下午

场景刚刚看了去年国庆放假前的那天下午写的一篇文章,彼时第二段感情刚刚结束,来美的刚一个月,正四处找房子,一晃一年过去了。来,继续听歌,写点什么,钢琴曲《远方》。买了房子又在不经意间做了一个可能影响今后很长一段时间生活质量的决定:5月底匆匆忙忙在公司附近买了房子。不可思议,自己竟然成了一个小房奴-这在一年前来看是不可能发生的事情。户型是自己喜欢的,旧旧的,绿化做的非常好,总共7楼,住5楼,准备今年年底

2017-09-30 17:44:42 653 2

原创 数据采集第一阶段工作汇报与反思

一、场 景本文旨在向金融前端团队介绍当前大数据团队的行为数据采集方案,以及该方案存在的问题:以期前端团队能提供更友好、更前沿的、可落地的行为数据采集方案,助力魔镜用户行为分析产品在金融系统的推广。关键字解释用户行为分析:基于用户在互联网产品(比方说,美的金融app)上的各种行为(页面刷新、按钮点击、收藏、转发、评论等)及行为背后的人发生的时间、频次等维度深度还原用户的使用场景,指导业务增长 金融魔

2017-09-26 17:26:10 1420

原创 精细化运营时代,金融魔镜如何助力各产品线实现业务增长

场景最近团队准备在部门搞一个产品发布会,本人负责魔镜用户行为分析产品的宣传与推广。对于一枚更习惯于撸代码的程序猿来说,有点小挑战喔 : 1、产品没有完全成型,心理没有十足的底气 。 2、相对业界顶尖同类产品,我们暂时没有优势。 但是,从另外一个角度想想。大环境是这样,现在一切都在变化,一切都在流动,没有哪一个公司敢说自己的产品在发布会之前做了绝对充分的准备。 何不发布出一条血路:即使没有产

2017-08-31 21:39:10 838 2

原创 应用概况story文档初稿

1. 作为用户行为分析产品的核心功能之一,2. 我需要2.1 实时统计出当前在线人数(OV)、累计浏览次数(PV)、访客数(UV)、登录次数(VV)与注册次数(RV)共5个基础指标以及累计下载、卸载人数共两个app端个性指标。 2.1 离线统计,并以趋势图展示美的金融app在过去一段时间内的UV与PV趋势、下载与卸载趋势、登录与注册趋势。3. 这样业务人员就能通过这些基础指标,轻松掌握美的金融

2017-08-30 15:17:21 1634 2

原创 用户行为分析需求规格说明书

1、业务痛点略.2、指标解读2.1 H5应用(累计)登录次数 以用户的会话次数来衡量,同一个用户一天可能发起多次会话,一次会话对应一次登录次数(累计)注册人数(累计)访问人数(累计)访问次数性别分布消费者编好访问时间分布前十地域属性年龄段分布访问时间用户名账号名渠道停留时长离开页面访问页数是否登录人均访问时长人均访问页面访问次数访问次数占比访问人数访问

2017-07-10 18:08:08 4517

原创 ML学习笔记 0 之综述

场景这几个月断断续续学了一下吴恩达在coursera上发布的机器学习教程?国内的网络被墙了,看不了,花钱买了一个翻墙软件,终于可以看了,但网速太慢:学点东西真不容易。昨天晚上终于找到了一个地方,可以下载,可以下载,可以下载 - 开心!于是,果断又将第一周课程的第一部分看了好几篇。ok,从今天开始进入机器学习的学习与博客记录阶段:通过复述与简要概述作者的话,形成自己的机器学习体系 - 啊,进步的味道笔

2017-06-29 20:06:23 760 1

原创 JavaScript 学习随笔(一)

背景1)隔壁项目组一姐妹组织了一个培训,主题是《es6 编程实践 & node.js项目脚手架》。es6 ? es 不是 elasticsearch么?这么快就出 6了,上个月还是 5.2.x 啊 2) 做数据采集这一块不拿下 js 是没法愉快的干活了?直觉告诉我 GrowingIO的‘无埋点’与 神策的‘全埋点’关键技术点在于 js - 唯一一门跨平台、跨浏览器、跨前后端的语言随笔今天开始学习

2017-04-29 10:04:11 1153

原创 对金融大数据存在意义的思考(一)之 渠道产品&金融大数据

目标读者java 开发工程师 与 渠道业务人员场 景不少同学在疑惑:金融大数据团队能给自己所在的产品线提供什么服务?背 景部门非大数据团队主流开发语言是 java,存储用 mysql 。目前,总数据量在 T B 级别,业务系统刚起步,数据量确实不多,业务对数据实时性要求也不高,大数据团队能干的活,java webers 好像也可以干分 析在往下讲之前,先普及两个常识:美的金融门户

2017-04-07 11:13:50 2308

原创 Elasticsearch技术分享(一)

场景与同事分享一下最近学习es的心得大纲1)es使用场景2)搭建环境与集群基本运维命令介绍3)基础分布式架构初探与核心概念解读4)实战分析一、es使用场景 1) 什么是 es A) 故事引入: B) 将全文检索、数据分析以及分布式技术合并在一起而形成 :分布式文档存储系统。2) 为什么要学es A) Es in Midea:在魔镜、mip账号 B) Es out of Mid

2017-03-20 18:28:59 1379

原创 案例实战Elasticsearch基本操作(一)

问题Elasticsearch集群的简单管理?面向文档(document)的搜索分析引擎?常用的搜索方式有哪些?场景本文以构建一个电商网站的后台系统为例,介绍es常用的搜索方式:query string search、query DSL、query filter、full-text search、phrase search、highlight search注:电商网站商品管理案例背景介绍1)对商品信

2017-03-10 19:17:26 1367

原创 2017年规划

一、健身1) 每周跑步 20公里,18年元旦突破 1000 公里、力争跑 一个全马2) 每天三组手臂与扩胸训练,每组 10个俯卧撑、20个举重、10个扩胸拉力器二、阅读1) 精读 10 本非专业书籍2) 写一本spark相关的专业书籍三、音乐每天花一个小时左右的时间学习黑色爵士遇见更好的自己,明天上班啦,新的开始,加油!

2017-02-03 19:34:14 573

原创 数据采集方案初探

问题用户浏览网站、App或者小程序的基础行为(浏览、点击、搜索与收藏等)数据怎么采集?会话粒度的数据怎么获取? 埋点与无埋点采集?背景数据采集是整个数据分析的前奏,直接关系到后续数据展现的准确性。本文聚焦网站及H5编写的微信服务号,旨在统一用户行为数据采集方式,形成一致的SDK编码规范。 当前,主流数据采集方式有埋点与无埋点两种。所谓的埋点方式即在网站、APP或者小程序的前或后端某处嵌入一段js或

2017-01-14 17:58:04 9661

原创 大话实时计算(二)

上期内容回顾第一期经典问题回顾与解读观点:大数据 = hive sql ≈ java web理由:大数据不就是写一些hive sql 搞搞ETL,做几张统计分析用的简单报表 - 这个java web 也可以做啊,多简单!解读:大数据与java web完全不同;大数据远非hive sql这种单一的传统的离线分析技术,还有实时计算,机器学习 。。。第一,大数据跟java web完全不同 - 即使业务

2016-10-25 21:45:19 1218

原创 《大话实时计算》

场景蓝瘦?不知道大数据技术生态圈长啥样? 香菇?不知道实时计算到底是什么鬼?淘宝双11实时交易金额统计背后的故事? 。。。 。。。 噢特啦!金融中心大数据特种部队低调推出《开讲啦》系列培训,喊你一起来浪,一起来深度体验大数据的魅力!现象本季 主讲: Mr.Snail 主 题:《大话实时计算》 首次开讲时间: 2016年10月17号晚上7点至8点培训地点:B605 培

2016-10-14 17:06:12 899

原创 [1.5] RDD经典Action类算子实战解读

场景常用action类算子的用法举例分析spark中常用的action类算子有: saveAsTextFile、reduce、count、 collect、foreach 以及 take 等,这里以 saveAsTextFile、collect与foreach算子的用法为例加以详细说明。saveAsTextFile:将rdd中的数据以文本形式保存下来,制定的文件目录不存在则创建,存在的话抛异常(文

2016-10-09 18:57:03 1676

原创 写点什么

场景还有不到一个半小时就国庆放假了,坐在这里感觉应该要写点什么,来SD近一个月想到什么写什么钢琴版的《蒲公英的约定》很适合在这个时候听,开始记流水账:一、关于水煮鱼8月31号早上,深圳,龙岗区坂田街道雪岗北路,禾坪岗禾安4巷,福华楼。 起来收拾好东西,都没有退房,直接走人?房东没在,说好的早上退房,结果人不在。房子的钥匙还在我这里,算是留个纪念,在这个小窝住了2年多,闭上眼睛能想象出那里晚上8点左

2016-09-30 17:59:39 830 2

原创 如何在已有CM集群环境中添加kafka组件

参考kafka升级 CDH5与CM5环境搭建场景怎么局部升级当前cm集群呢,比如添加kafka组件、spark组件等分析一、升级原因1、 现有集群组件只能做一些离线类统计分析,无法满足当前实时类业务计算的需求。 2、 现有集群计算引擎是基于MR2,计算能力相对较弱。综合以上因素,决定在已有的集群组件中添加 : flume、kafka 与 spark 组件,以期提升集群的计算能力,满足当前实时

2016-09-14 17:06:53 5214 4

原创 征信通产品原型设计文档

场景在最好的年代,组个小分队,拼一个激动人心的产品 - 征信通简介一、什么是征信通征信通旨在利用大数据相关技术,分析用户的各种行为数据:电商、社交、出行行等用户360度全景数据,快速(分钟级)准确评价出用户的信用等级,为各信贷公司、商家提供客户的信用等级参考,进而打造实时贷、全民贷时代。最终,让所有有能力或者未来有能力支付的人轻松、快捷地购买到自己的商品。二、征信通解决的问题1、实时贷征信时间 :

2016-09-13 18:14:53 2389

转载 [3.3.0]数据倾斜与shuffle类性能调优

转自:spark性能优化指南场景数据倾斜解决方案与shuffle类性能调优分析数据倾斜有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。一、数据倾斜发生时的现象1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,99

2016-08-20 11:36:51 2979

原创 给,还是不给

大街上,陌生人向你要钱,给还是不给?场景一福田区八卦三路,E8路公交,泥岗村站。 两周前的某一天,下班回家。等车的时候突然发现没有带钱,下班走的太急。怎么办,回公司拿?有点远。附近有一小伙,于是走过去。 “哥们,忘带钱了,给我5块钱,我加你QQ,给你转过去”。 这哥们愣是往后退了几小步 - 尼玛,最近是染了头发,看上去也不像坏人啊!小伙看了我一眼,说了些什么,我没有听清楚,反正是不太愿意加我Q

2016-08-05 23:22:13 531

数据开发岗简历编写模板

简历最好能覆盖以下三方面的项目经历: 基础平台搭建与线上问题解决 一方面,许多中小型企业,大数据这一块其实还处于刚刚起步阶段,对于平台搭建这一块是刚需;另一方面,一线大厂对于线上基础组件,比方说hdfs与spark的补丁修复(能二次开发就更好了)比较感兴趣。而这些,都可以以项目的形式写进去。 实时计算类项目 一个稍微复杂点的实时类项目几乎可以覆盖大数据生态圈的所有核心技术点,具体可以参考本人前期写的一篇文章 : 征信画像项目实施文档摘要 机器学习类项目 个人认为,数据部门终极价值的落地需要靠机器学习。仅仅搞传统BI与实时计算的话,对于大部分中小型企业而言,大数据团队没有多大的存在价值。

2019-03-24

虚拟机下 Red hat linux 9 系统的安装

注:鄙人实际安装材料: 一、linux 版本:rhel-server-5.8-i386-dvd.iso。 二、VMware 版本:VMware-workstation-full-8.0.0-471780 。 本文中原作者安装linux时用到三个iso文件,这里我只用到了上面的那一个iso文件(我的这个应该是集成版,哪里有下载?直接百度rhel-server- 5.8-i386-dvd,就会有各种下载方案出来。红帽官网暂时没有找打相关下载路径,网速好慢。)。

2016-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除