u010823625-CSDN博客

原创基于自动节点树的公司广告投放渠道数据异常原因下探分析

基于自动节点树的公司广告投放渠道数据异常原因下探分析1、业务1.1 业务背景1.2 前置知识1.2.1 广告投放渠道划分1.3 解决方案2、数据&开发2.1 数据概览2.2 计算整体波动量2.2.1 先将每天的数据与其前1天的数据做环比变化统计2.2.2 渠道贡献率、环比变化统计2.2.3 下一级渠道贡献率、环比变化统计3、优势1、业务1.1 业务背景日报、周报、月报等常规性报告是各个公司的基础数据支持形式。在日常报告中，经常会出现很多异常波动的指标，需要分析师找到异常波动的影响因素。但在寻

2020-08-13 18:31:45 328

原创 Spark实时ETL·中国移动充值活动交易额指标统计

Spark实时ETL·中国移动充值活动交易额指标统计1、充值活动交易额指标统计1.1 ODS实时分流1.1.1 需求1.1.2 Canal配置1.1.3 Spark Streaming 实时分流1.2 Stream-Static Join1.2.1 需求1.2.2 Stream-Topic1.2.3 Static维表1.2.4 Spark Streaming 流-维 Join1.3 活动指标统计1.3.1 需求1.3.2 实现1.4 数据大屏指标统计1.4.1 需求1.4.2 实现1、充值活动交易额指标统

2020-07-24 15:41:55 741

原创 Hive电商用户画像

Hive电商用户画像1、用户画像1.1 用户消费订单表1.1.1 近30天订单1.1.2 退货和拒收1.1.3 常用收货地址、常用支付方式1.1.4 剩余指标计算1.2 用户营销信息表1.2.1 Spark SQL 计算30天内用户的活跃状态1.2.2 Spark ML 构建用户价值模型1.2.2.1 BFM模型1.2.2.2 K-Means算法1、用户画像1.1 用户消费订单表字段类型描述user_idbigint用户IDfirst_order_timetimes

2020-07-23 20:39:10 1037

原创基于共享单车业务的实时大数据采集计算分析平台

基于共享单车业务的实时大数据采集计算分析平台1、Flume 实时采集1.1 Flume配置1.2 自定义拦截器2、Spark Streaming + Kafka 实时计算3、ELK 数据展示1、Flume 实时采集1.1 Flume配置a1.sources=r1a1.channels=c1 c2# configure sourcea1.sources.r1.type = TAILDIRa1.sources.r1.positionFile = /opt/module/flume/test/l

2020-07-08 21:48:05 1378

原创 Spark电商离线数仓·用户模块指标统计

Spark电商离线数仓·用户模块分析1、Sqoop 数据采集1.1 同步策略1.2 Sqoop脚本2、Hive 数仓分层2.1 ODS层2.2 DWD层2.2.1 维度表（dwd_dim_）2.2.2 事实表（dwd_fact_）3、Spark SQL 数据开发（新增）4、Kylin 即席查询（新增）5、Superset 结果展示（新增）1、Sqoop 数据采集1.1 同步策略全量 select * from 表 where 1 = 1增量 select * from 表 where create

2020-07-08 21:45:10 1798

原创漫谈·知识图谱

漫谈·知识图谱1、关系抽取1.1 专家系统1.2 句法依存1.3 远程监督2、知识图谱的常见表示（Neo4j）2.1 数据2.2 导入2.3 查询2.4 效果1、关系抽取1.1 专家系统以两家公司有投资关系为例key_words = ["收购","竞拍","转让","扩张","并购","注资","整合","并入","竞购","竞买","支付","收购价","收购价格","承购","购得","购进", "购入","买进","买入","赎买","购销","议购","函购

2020-05-24 22:47:06 383

原创数据分析：关于双十一淘宝美妆品牌促销的数据分析报告

关于双十一淘宝美妆品牌促销的数据分析报告1、数据介绍2、数据思维2.1 按业务逻辑分类2.1.1 计算各品牌参与活动的商品2.2 各品牌打折力度计算3、报告展示1、数据介绍字段描述date在售日期（yyyy-MM-dd）item_id商品IDitem_title商品标题brand_name品牌名2、数据思维2.1 按业务逻辑分类这是一个2016.11.05 - 2016.11.14为期10天的数据集所以我们可以以2016.11.11为分割点，讲

2020-05-19 21:48:44 3119

原创 Flink Learning Project ：基于Flink的实时热门商品统计和订单支付模块

基于Flink的实时热门商品统计和订单支付模块1、实时热门商品统计（窗口聚合、窗口分组、TopN）2、订单超时失效（基于CEP）3、实时对账1、实时热门商品统计（窗口聚合、窗口分组、TopN）2、订单超时失效（基于CEP）3、实时对账...

2020-04-27 21:14:28 928

原创面试项目2：基于Spark2.x的电商大数据统计分析平台

基于Spark2.x的电商大数据统计分析平台1、用户访问session分析（Spark Sql）1.1 复合查询2、刷单用户实时过滤（Spark Streaming）3、页面单跳转化统计（Spark Core）1、用户访问session分析（Spark Sql）1.1 复合查询2、刷单用户实时过滤（Spark Streaming）3、页面单跳转化统计（Spark Core）...

2020-04-27 21:05:34 1262 1

原创面试项目1：基于电商评论数据集的多模态混合推荐系统

面试项目1：推荐系统1、数据收集：爬虫2、推荐之前：文章画像2.1 分词2.2 去停用词2.4 计算CountVectorizer2.5 计算IDF2.6 得到文章关键词TopN3、推荐之前：文章相似度3.1 mini data：TF-IDF、余弦相似度3.2 big data：Word2Vec、Saprk LSH4、推荐之前：用户画像4.1 确定用户偏好5、基于SVD的推荐：Spark ALS6...

2020-04-27 20:17:18 1026 1

原创项目集·Java-Netty

项目集·Java一、多级缓存限流秒杀降级项目（EhCache + Redis + Hystrix + RabbitMQ）1、二、Netty消息推送项目1、Spring Security1.1 CSRF（Cross-Site Request Forgery，跨站请求伪造）三、Dubbo网关项目1、项目背景2、guns四、SpringCloud广告投放系统1、项目背景一、多级缓存限流秒杀降级项目（EhCache + Redis + Hystrix + RabbitMQ）1、二、Netty消息推送项目1、

2021-05-31 17:54:32 427

原创项目集·Java-ElasticSearch大众点评

项目集·Java-ElasticSearch地图找房项目一、ElasticSearch地图找房项目0、ElasticSearch核心概念1、建模1.1 索引结构1.2 数据类型1.3 案例1 地图找房2、结构化搜索2.1 全文检索（Query）& 精确匹配（Filter）2.2 Filter（精确匹配）2.3 Query（相关性分析）3、分组聚合分析3.1 案例1 家电卖场销量统计3.2 案例2 附近的人3.3 案例3 网站流量分析报表一、ElasticSearch地图找房项目0、Elastic

2021-05-31 17:54:22 341

原创项目集·Java-分布式

项目集·Java-分布式一、Dubbo1、项目背景2、Dubbo特性2.1 负载均衡2.2 异步应用2.3 结果缓存2.4 并发、连接控制（结合Hystrix）二、SpringCloud1、技术栈2、基于Hystrix的多级缓存服务降级4、Zookeeper分布式锁3、分布式事务一、Dubbo1、项目背景服务聚合、熔断降级、身份安全2、Dubbo特性2.1 负载均衡随机（按权重随机访问）、轮询、最少活跃和一致性Hash（相同参数的请求，都发给同一台）2.2 异步应用Future barF

2021-05-31 17:54:14 445

原创面试稿·Java

潜伏·潜规则一级目录二级目录三级目录一级目录二级目录三级目录

2021-05-31 17:54:05 743 2

原创 2021.01.26 - 2021.01.28 一周报告（性能调优·专题）

日期标题内容时长2021.01.29MyCat分库分表（下） + NIO2021.01.30Netty项目实战、源码分析2021.01.31Spring webflux2021.02.01SpringCloud（上）2021.02.02SpringCloud（下）2021.02.03Java并发2021.02.04项目实战 ES2021.02.05MySql性能调优2021.02.06D...

2021-05-31 17:53:47 125 1

原创 2021.01.20 - 2021.01.24 一周报告（分布式专题）

日期标题内容时长2021.01.22分布式通信 + ZooKeeper服务注册2021.01.23ZooKeeper + Dubbo2021.01.24消息中间件（上）Active MQ + Kafka2021.01.25消息中间件（下）Kafka + Rabbit MQ2021.01.26NoSQL 之 MongoDBMongo ORM、Mongo高可用、Mongo新特性2021.01.27NoSQL 之 RedisR...

2021-05-31 17:53:36 63

原创 2021.01.15 - 2021.01.19 一周报告（Spring专题）

日期标题内容时长2021.01.15常用设计模式（上）工厂模式、单例模式、原型模式、代理模式7h6m2021.01.16常用设计模式（下） + MyBatis源码分析（上）策略模式、模板模式、委派模式、适配器模式、装饰器模式、观察者模式、MyBatis配置、Mapper.xml、缓存、分页、批量、关联查询9h10m2021.01.17MyBatis源码分析（下） + 手写Spring（序）MyBatis1.0~2.050m2021.01.18手写...

2021-05-31 17:53:22 130 1

原创数仓基础·拉链表

数仓基础·拉链表1、真实场景下的拉链表1、真实场景下的拉链表在数据仓库的ODS层，有一张订单的增量数据表，按天分区，存放每天的增量数据在数据仓库的DW层，有一张订单的历史数据拉链表，存放订单的历史状态数据DROP TABLE IF EXISTS t_dw_orders_his_tmp;CREATE TABLE t_dw_orders_his_tmp AS SELECT orderid,createtime,modifiedtime,status,dw_start_date,dw_e

2020-08-04 20:32:16 1388

原创大数据面试·漫谈

大数据面试·漫谈数据仓库、数据湖、数据中台列式存储的好处数据仓库、数据湖、数据中台数据仓库(Data Warehouse)是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化的（Time Variant）数据集合数据湖：元数据的存储地数据中台：数据共享，连通数据孤岛列式存储的好处支持压缩只读取需要的列，能够获取更好的扫描性能支持向量运算...

2020-07-01 16:09:13 129

转载大数据面试·Spark篇（二）

大数据面试·Spark篇（二）Spark Streaming任务延迟监控及告警1.需求2.自定义StreamingListener3.添加到streamingContext中Spark Streaming任务延迟监控及告警1.需求监控批次处理时间，若超过阈值则告警，每次告警间隔2分钟2.自定义StreamingListenerclass SparkStreamingDelayListener(private val appName:String, private val duration: Int

2020-07-01 13:37:09 154

转载大数据面试·Spark篇（一）

Spark的shuffle算子一、去重二、聚合三、排序四、重分区五、集合或者表操作一、去重def distinct()def distinct(numPartitions: Int)二、聚合def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]def gro

2020-07-01 13:22:46 497 1

原创大数据面试·Hadoop篇（五）

大数据面试·Hadoop篇（五）2.1 Hive2.1.1 Hive压缩类型推荐2.1.2 Hive分区表和分桶表2.1.3 order by、sort by、distribute by、partition by2.1.3.1 order by2.1.3.2 sort by2.1.3.3 distribute by2.1.3.4 partition by2.1.4 Hive常用函数2.1 Hive2.1.1 Hive压缩类型推荐压缩比、压缩速度、压缩后的文件是否支持HDFS Block的分片注重压

2020-07-01 13:10:10 172

转载大数据面试·Hadoop篇（四）

大数据面试·Hadoop篇（四）1.4 Hadoop集群常用shell命令1.4.1 启动HDFS1.4.2 启动YARN1.4.3 创建文件夹1.4.4 查看HDFS系统根目录1.4.5 上传文件1.4.6 下载文件1.4.7 合并下载1.4.8 复制1.4.9 移动1.4.10 删除1.4.11 从本地剪切文件到HDFS上1.4.12 追加文件1.4.13 查看文件内容1.4.14 查看集群的工作状态1.4 Hadoop集群常用shell命令1.4.1 启动HDFSstart-dfs.sh1.

2020-07-01 11:35:53 101

原创大数据面试·Hadoop篇（三）

大数据面试·Hadoop篇（三）1.3 MapReduce调优1.3.1 数据输入阶段的调优1.3.2 Map阶段的调优1.3.3 Reduce阶段的调优1.3.3.1 合理设置Map和Reduce数量1.3.3.2 设置Map和Reduce共存1.3.4 IO传输阶段的调优1.3.5 MapReduce Shuffle&数据倾斜1.3.5.1 造成数据倾斜的操作1.3.5.2 数据倾斜的解决方案1.3.5.3 Shuffle1.3.6 硬件1.3 MapReduce调优MapReduce一般要

2020-07-01 11:34:47 145

原创大数据面试·Hadoop篇（二）

大数据面试·Hadoop篇（二）1.2 HDFS HA1.2.1 简单说下HDFS HA1.2.2 DataNode宕机1.2.3 NameNode宕机1.2.4 NameNode对元数据的管理1.2.5 HDFS的checkpoint1.2.6 HDFS如何保证HA1.2 HDFS HA1.2.1 简单说下HDFS HADatanode同时配置主备两个Namenode，并同时发送Block报告和心跳到两台Namenode。确保任何时刻只有一个Namenode处于Active状态1.2.2 D

2020-07-01 11:34:12 110

原创大数据面试·Hadoop篇（一）

大数据面试·Hadoop篇1、HDFS1.1 写1.2 读1、HDFS1.1 写ClientNameNodeDataNode1DataNode2DataNode3检查目标文件是否已存在应答成功请求调用请求调用请求调用应答成功应答成功应答成功ClientNameNodeDataNode1DataNode2DataNode31.2 读ClientNameNodeDataNode1请求通信，查询元数据，找到存有文件块的DataNode服务器就近选择一台DataNode服务器ClientNameNodeD

2020-07-01 11:33:41 130

原创 2020·记录阿里的一次面试（一）

2020.06.18 新冠期间接到了面试邀请，27.5小时我可以准备点什么？1、第1个小时（第一天上午10:35-11:35）1.1 激动1.2 后悔1.3 平复心情1.4 做出最小化可行性解决方案2、第2-N小时1、第1个小时（第一天上午10:35-11:35）激动、后悔、平复心情、做出最小化可行性解决方案1.1 激动今天是星期四（我更新简历的第4天、我已经投了23家公司了，主方向是推荐算法、数据开发、公司在西湖区、余杭区），但反馈效果都不太好。1.2 后悔没有录音（因为接电话的时候

2020-06-19 19:01:53 262

原创知识分享·NLP中一些有趣的trick

知识分享·NLP中一些有趣的trick1、计算文本相似度1.1 编辑距离1.2 杰卡德系数（Jaccard 相似系数）1.3 词频统计1.4 余弦相似度1.5 Word2Vec2、LDA3、文本聚类1、计算文本相似度1.1 编辑距离import distance def edit_distance(s1, s2): return distance.levenshtein(s1, s2) strings = [ '你在干什么', '你在干啥子', '你在做什么',

2020-06-13 21:46:27 1216

转载 XGboost高频面试

XGboost高频面试1. 简单介绍一下XGBoost2. XGBoost与GBDT有什么不同3. XGBoost为什么使用泰勒二阶展开4. XGBoost为什么可以并行训练5. XGBoost为什么快6. XGBoost防止过拟合的方法8. XGBoost中叶子结点的权重如何计算出来9. XGBoost中的一棵树的停止生长条件10. RF和GBDT的区别11. XGBoost如何处理不平衡数据12. 比较LR和GBDT，说说什么情景下GBDT不如LR13. XGBoost中如何对树进行剪枝14. XGBo

2020-06-13 19:34:23 621

原创 Encoder-Decoder、Attention、Transformer

Encoder-Decoder、Attention1、Encoder-Decoder2、Attention1、Encoder-Decoder2、Attention

2020-06-13 19:33:25 280

原创百面机器学习

百面机器学习1、特征工程1.1 特征归一化1.1.1 Min-Max Scaling1.1.2 Z-Score Norm1.1.3 为什么要归一化？1.1.4 归一化是万能的吗？1.2 类别型特征编码1.2.1 序号编码1.2.2 独热编码1.2.3 二进制编码1.3 词袋模型和词嵌入模型1.3.1 词袋模型1.3.1.1 TF-IDF1.3.1.2 N-gram1.3.2 词嵌入模型（Word2Vec）1.3.2.1 CBOW1.3.2.1 Skip-gram1.3.3 LDA2、自然语言处理2.1 RN

2020-06-13 19:33:04 137

原创据说真的有神，叫做人工智能（下）：深度学习篇

据说真的有神，叫做人工智能（下）从最简单的文本分类讲起sklearn versionkeras version从最简单的文本分类讲起sklearn versionfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizerfro...

2020-06-13 19:32:44 237

原创 CTR预估模型演进史 · Deep&Cross、DIN、ESMM

CTR预估模型演进史 · Deep&Cross、DIN、ESMM1、Deep&Cross1.1 cross_layer2、DIN2.1 Dice激活函数2.2 Attention3、ESMM3.1 多任务学习3.2 多任务学习在推荐系统中的应用1、Deep&Cross1.1 cross_layerdef cross_op(x0, x, w, b): dot = tf.matmul(x0, tf.transpose(x)) cros= tf.tensordot(dot

2020-06-13 19:29:51 412

原创数据赋能·餐饮门店选址

数据赋能·餐饮门店选址1、卖什么2、在哪里1、卖什么人均消费适中，性价比和口味得分较高的餐品2、在哪里实际中要考虑小区、办公楼、购物中心、房租、转让费、装修费等多个因素（开源数据集中没提供，所以此处仅考虑了人流和邻居）...

2020-06-12 17:09:53 283

原创基于时空序列的地铁广告投放和商业选址（KMeans+ROI）

智慧物流：新冠期间饿了么骑士行为预估1、赛题描述2、初赛Top1的初赛代码3、北京科技大学的复赛代码1、赛题描述初赛：根据骑士历史的决策信息，结合当前骑士所处的状态来预测骑士的下一步决策行为。复赛：对订单进行调度，分配给最合适的骑士，并预测骑士的后续行为及每个行为事件发生的具体时间。2、初赛Top1的初赛代码3、北京科技大学的复赛代码...

2020-06-10 20:33:00 552 2

原创 Python手推FM、DeepFM

Python手推FM、DeepFM1、FM1.1 交叉项求解1.2 代码2、DeepFM1、FM1.1 交叉项求解v=[v1v2v3]=[123456121]v={\left[ \begin{array}{ccc}v1\\v2\\v3\end{array} \right ]}={\left[ \begin{array}{ccc}1 & 2 & 3\\4 & 5 & 6\\1 & 2 & 1\end{array} \right

2020-06-09 16:49:31 245

原创 201X年度·微信个人收藏精选集（二）

201X年度·微信个人收藏精选集（二）1、我20岁时不明白的事1.1 为什么我们上学时在找工作的时候总是如此管中窥豹，却又执迷不悟。1.2 校招和社招2、单身是最好的升值期3、每个职场人都该知道的「30:30:30:10法则」4、城市，行业，岗位，薪酬...你更看重哪个？5、三种基本战略5.1 成本领先战略5.2 差异化战略5.3 集中化战略6、五个程序员求职者的最佳提问1、我20岁时不明白的事（原文：我20岁时不明白的事）1.1 为什么我们上学时在找工作的时候总是如此管中窥豹，却又执迷不悟。我现

2020-06-02 16:36:28 64048

原创 201X年度·微信个人收藏精选集（一）

201X年度·微信个人收藏精选集（一）1、DIKW金字塔2、为什么你的月薪一直破不了万？3、选择Offer要考虑哪些因素3.1 职业价值观3.2 影响Offer选择和将来发展的若干因素4、工作后该如何学习？5、技术精进之道6、程序员的职场通路7、月薪多少才能体面地生活？1、DIKW金字塔D代表Data，即数据，通常是观察、测量直接所得，如文本、规约、实践的记录；I代表Information，即信息，回答数据的含义，如回答Who（谁），Where（哪里），When（何时），What（什么）等问题；

2020-06-02 11:49:23 1461

原创 Tensorflow Examples：Linear Regression、Logistic Regression、CNN

Tensorflow 入门级样例1、波士顿房价预测（Linear Regression by Tensorflow）2、MNIST手写数字识别（Logistic Regression by Tensorflow）3、MNIST手写数字识别（CNN by Keras）1、波士顿房价预测（Linear Regression by Tensorflow）import tensorflow as tffrom sklearn import datasetsfrom sklearn import prepro

2020-05-16 15:34:11 228

原创面筋·七月ML300TI

NLP&ML&优化1、生成型&判别型2、最大概率分词 => 南京市长江大桥3、中文分词的基本方法3.1 基于语法规则的分词3.2 基于词典的分词3.2.1 最大匹配法3.2.2 最大概率法3.2.3 最短路径法3.3 基于统计的分词4、CRF、HMM、MEMM对比分析5、欧式距离&马式距离6、L1&L27、1、生成型&判别型判别模型(discriminative model)通过求解条件概率分布P(y|x)或者直接计算y的值来预测y生成模型（

2020-05-16 09:55:34 130

2048小游戏js版本，键盘上下左右操作。

Spring + CXF + JSON 所需jar包

空空如也