zx8167107-CSDN博客

原创 2道算法题

a公司的技术终面挂了，好可惜！没想到最后问的是基础，最近也都面了不少家了，很少有问这么基础的问题而且还是在最后一面，在准备面试的时候也是简单粗略的过了一下，因为本身就不难，没想到就踩坑了，太可惜了！哎面试官的忠告说的很有道理：作为一名程序员，基本功就是写代码，这个能力还是要加强。出来混还是要还的！！！也算是获得了一些宝贵的经验吧，就是不知道还有没有下次机会了，真的是很可惜！问题...

2020-03-06 23:52:35 369 1

原创徽州国保档案

前言徽州从历史、文化、地理、行政以及社会、学界角度上来看最严格的定义就是一府六县，一府六县指的是：歙县、休宁、祁门、黟县、绩溪、婺源。该六县是严格意义上的徽州内涵所在，目前分属在安徽、江西两省的三个市内。徽州单独从文化和近代史上来看范围会大一些，包括了历史上受徽文化影响或者近代短暂划归徽州地区的旌德、石台、淳安、建德等，这些地方最严谨的定义是徽文化影响区。目前行政上来说的话徽州指的是安...

2020-01-17 19:28:13 2830

原创天池o2o消费券比赛速记

比赛地址https://tianchi.aliyun.com/competition/entrance/231593/introduction包括了比赛的各种细节、数据等等我是参考了第一名的方法特征+xgboost第一名的代码和思路参考https://github.com/wepe/O2O-Coupon-Usage-Forecast第一名给出了思路和代码但是不够详细，有些细节也...

2019-11-20 15:59:27 510

原创 pyspark实现随机森林与交叉验证

主要分为两大部分：第一部分是训练模型、交叉验证调参以及保存模型；第二部分是load模型并且测试模型以及获得特征重要性排序# -*- coding:utf-8 -*-### 获取数据以及特征列from pyspark.sql import SparkSessionspark = SparkSession.builder.appName("RF").enableHiveSupp...

2019-09-29 19:00:38 3890 1

原创数据开发interview

数仓分层的原理、架构、用途rf模型细节，模型搭建抛开现有的大数据平台（猛犸）如何部署模型大数据为什么会有数据倾斜，如何优化？python 进行etl的细节----------------------------hadoop HA的原理和流程fileimage和edit文件原理和使用过程spark on yarn的启动流程数据倾斜tez相关linux she...

2019-08-09 17:22:48 259

原创数据仓库与数据中台（onedata）整理

干货：解码OneData，传说中的阿里数据中台是如何练成的？https://yq.aliyun.com/articles/44991阿里首次披露中台战略：OneData的统一数据标准和实时数据分析是核心https://yq.aliyun.com/articles/31765?spm=a2c4e.11153940.0.0.5237125b8cKgJW从方法论到零售客户实践解码阿里巴...

2019-08-05 18:00:13 3280

原创 TF-IDF

特征工程中用到了tf-idf，数据是游戏内行为数据、event_name为用户行为、select A.advertising_id, CONCAT(A.event_name,'_tfidf'), tf*idf as tf_idf from ( select t...

2019-07-02 16:52:50 169

原创线性模型

主要是先看了西瓜书上的线性模型的内容参考：求解系数的常见方法：最小二乘法：https://www.cnblogs.com/pinard/p/5976811.html梯度下降法：http://www.cnblogs.com/pinard/p/5970503.html过拟合需要正则化系数来优化，涉及到范数知识：https://zhuanlan.zhihu.com/p/28...

2019-05-22 16:11:51 136

原创决策树

决策树是一种基于概率分布的分类回归模型，在我们平时写if else这种类似代码时其实也是一种决策树，只不过是一种基于规则的决策树，所以该算法具有很好的可解释性。决策树的一个主要核心就是基于什么算法来建立这棵树，主要算法有ID3、C4.5和CART等，算法的核心就是基于什么准则来选取建树的特征，对应的就是信息增益、信息增益比、基尼指数。关于剪枝，涉及到损失函数，但是在实际使用中一般不会让树生...

2019-05-20 15:44:32 129

原创 hive表格字段错位解决办法（源文件为json）

hive表格可以直接解析json文件、甚至是json文件的压缩包，用json文件解析表格直接建表会很方便，如图：但是如果json的value中有多个逗号的话，那些不是以json格式作为源文件格式的表格去读取json表格的数据的时候会导致数据列错位，因为默认的text表格默认是以逗号作为分隔符的，会直接把json的value里的逗号当成分隔符来处理了。如图：解决方法：修改后续表格的文...

2019-04-11 14:36:04 3629

原创 udf获取json中所有的key

代码如下：package ***.com.json_udf;import net.sf.json.JSONObject;import org.apache.hadoop.hive.ql.exec.UDF;import java.util.Iterator;/** * create by zhangxin 2018-07-25 */public class get_json...

2019-03-28 11:04:01 627

原创 udf计算事件发生时间序列特征

使用该udf函，可获得不同时间跨度的连续事件，以及对应区间长度的均值、方差输入是事件发生时间的列表、输出是事件发生的一系列数值包括均值、方差等等。代码如下：package ***.****;import org.apache.hadoop.hive.ql.exec.UDF;import java.util.*;/** ...

2019-03-28 10:22:28 352

原创 python替换字符串中的逗号

hive处理文本数据时需要指定分隔符，一般来说都是用逗号来做分隔，当某个字段的内容是字符串时，特别是有"{}"双引号括起来的json那种，hive处理时会直接将某个字段中的字符串内容中逗号也当成分隔符来处理，造成hive表格字段内容的异常，这里就需要用将字符串中的逗号替换掉。代码如下：# -*- coding: utf-8 -*-import re,os,sysdef alter(f...

2019-03-21 15:03:46 7233

原创 shell 循环遍历

代码：#!/bin/bashhour_first=("0" "1" "2")hour_second=("0" "1" "2" "3" "4" "5" "6" "7" "8" "9")function bydate() { for h_f in ${hour_first[@]}; do for h_s in ${hour_second[@]}; do #code ...

2019-03-21 11:29:09 2008

原创 shell 实现变量累加

shell操作中偶尔也会用到全局变量累加，用来计数等用途，代码如下：#!/bin/bashcount=0#每次累加1count=$((${count} + 1))

2019-03-21 11:22:43 22138

原创 linux shell通过http协议获取数据并上传hdfs

#!/bin/bashsource ./common.configd_h_m=`date +%Y-%m-%d_%H:%M:%S`day_and_hour=`date -d "${timespan}" +"%Y-%m-%d-%H"`today=`date +%Y-%m-%d`today_timespan=`date -d "${timespan}" +"%Y-%m-%d"`url=...

2019-03-20 18:23:12 1071

原创 python获取邮件内容（邮件内容为html）

用python获取邮件内容比较简单，直接用现成的imap和pop3包即可，但是有时候邮件的内容不是plainText而是html甚至是一个url链接，原本的操作流程是点击url获取内容（比如csv等等）。我这边的需求是从html里的众多url中找到包含所需文件的url并将文件的内容保存到本地。上代码：# -*- encoding: utf-8 -*-import getpass,...

2019-03-20 17:02:26 7404

原创 python 画折线图并通过邮件转发

业务上很多时候需要将结果数据以图表形式呈现、以达到直观高效的效果、另外还能观察业务结果的走向和趋势。目前如果不使用很多大厂的数据可视化产品，可以选用zeepline或者其他工具、但考虑到很多时候在制作图表时还要涉及到数据的计算和处理、以及图表的保存转发等等、所以这里使用python来完成。第一步是制作折线图并保存# _*_coding:utf-8_*_import osimpo...

2019-03-20 16:24:49 3558

原创 hive sql去重--sql取最近一条记录

hivesql在使用中会经常碰到去除重复数据的操作，一般来说一个关键字distinct就可以解决，但是distinct的使用场景限制比较多，它是对所选取的所有字段进行比对，只要有一个字段的值不相同就为非重复记录，例如select distinct id, namefrom table字段较少的情况下就没问题，能够找出id、name都不同的所有记录...

2019-03-08 15:33:36 10880 3

原创 c语言使用libcurl库以及docker打包方案

最近有一个棘手的问题，涉及到数据安全的考量，原先非常方便的使用python进行http服务的代码需要改成c语言来实现，我的方案是直接用c调用libcurl的库来实现，这里面遇到不少问题，后来出于不同的linux环境通用的原因又使用了docker来打包运行，下面就是详细内容。 libcurl：本身这个库对c语言就有很好的支持，官网上就有现成的c语言的api使...

2019-01-21 16:14:53 796

原创 K-means

kmeans背景原理以及工作流程介绍：https://github.com/apachecn/AiLearning/blob/dev/blog/ml/10.k-means%E8%81%9A%E7%B1%BB.md#k-means-%E5%B7%A5%E4%BD%9C%E6%B5%81%E7%A8%8B源代码：https://github.com/apachecn/AiLearning/...

2018-12-04 16:51:30 272

原创 SVD

《机器学习实战》一书中的svd部分可以用来辅助阅读有位网友的《机器学习实战》算法理解，还不错https://github.com/haidawyl/MLinAction github文字介绍地址：https://github.com/apachecn/AiLearning/blob/dev/blog/ml/14.%E5%88%A9%E7%94%A8SVD%E7%AE%80%E5...

2018-11-16 16:40:17 161

原创 PCA

github上有个人工智能的开放库、我先从机器学习开始学习内容与《机器学习实战》这本书相关学习地址： https://github.com/apachecn/AiLearningPCA：https://github.com/apachecn/AiLearning/blob/dev/blog/ml/13.%E5%88%A9%E7%94%A8PCA%E6%9D%A5%E7%AE%80%...

2018-11-13 16:11:08 191 1

原创典型数据智能项目的数据流程介绍

目前我在某大型互联网公司的AI事业部的数据智能组，主要业务是利用内部数据进行ai业务开发，最近由于内部原因暂时手头工作不是很忙，闲下来整理下这个基本已经初具模型的ai数据业务的整个数据流程。数据流程首先对整个项目的数据流做下阐述，整个流程如下所示： 1. 数据来源数据通过Nginx反向代理将http服务发送的log日志信息保存在服务器本地，运维使用的...

2018-10-15 16:17:15 436

原创 nginx配置logrotate的坑s

最近需要用到利用nginx服务来接收日志并用logrotate服务来删除和备份nginx产生的日志，有不少坑，下面详细介绍下。用户权限问题能拿到root权限，尽量用root来配置和操作，实在不行的话配置下sudo权限nginx配置正确指定好路径安装好后，配置一般来说与网上给出的例子差别不大，具体与你要实现的功能有关。下面是我的例子#user nobody;worker_pr...

2018-09-20 14:02:46 5429

原创 hive SQL 产生结果文件的问题

每次hive sql执行完会产生几个结果文件？默认的hive结果文件名叫什么？这些结果文件我们可以控制么，例如改名？个数？好的下面来解答一下：一般来说，每次hivesql执行完毕之后只会生成一个结果文件，名称默认为000000_0，如果存在类似于insert into这种语句则每一次insert into 成功之后都会产生一个结果文件，类似于000000_0_copy_1,多次ins...

2018-07-18 16:51:06 3791

原创 pyhton+selenuim实现自动化网络爬虫

之前有个需求，需要从网上爬取数据，爬虫的话利用python很容易做，但是该网站需要账号密码登陆，所以采用了python+selenuim来实现，中间还是有不少坑的，尤其在linux上部署的时候。selenuim帮我们实现了模拟打开浏览器、输入账号密码并登陆，后面获取数据就通过解析网页html来实现。先上代码吧：# -*- coding: utf-8 -*-from seleniu...

2018-07-17 17:14:53 1140

最近涉及到一个利用python分块读文件的需求，一开始想法觉得很简单，就对一个文件取总行数，获得线程数、每个线程获得对应的行范围、各线程独立去读自己的范围内的内容即可。实际操作下来发现有问题，读出来的内容总是有些小错误，怀疑不是这么简单，同一个文件的句柄估计多线程同时操作不安全。网上查阅了资料https://blog.csdn.net/lingerlanlan/article/details/...

2018-07-17 16:17:59 8577 3

原创 Spark内存管理及源码阅读

本文主要是参考学习了网上作者卢龙的一篇文章以及自己对源码的解读两部分组成。参考原文地址Apache Spark内存管理详解。感谢原作者~spark的内存按照存储位置主要分为两大块jvm堆内主要分为三部分storage 用于rdd的缓存和存储默认占60%？，可以占用execution的空间，但是当execution空间不足的时候需要释放execution 用于reduce的shuffle阶段存放数...

2018-03-09 10:50:04 642

原创 hive与hbase

最近在学习和整理大数据hadoop的资料时，突然发现一个简单又复杂的问题：hive与hbase是什么关系？怎么区分？平时有接触和使用过hive和hbase，hive的话主要用的是阿里云的odps，hbase用的是hdp平台的开源版本，但是还没有对这两个组件真正的系统的放在一起对比总结过，于是上网查了资料也问了同事，于是在这里再来写点自己的理解。HIVE：首先说说hive，众所周知是一款开源的数据...

2018-02-11 14:48:27 7870

原创 Spark BroadCast 解析

前言在实际使用中对于一些许多rdd需要用到的大的只读数据集变量可以使用共享变量的方式来提高性能，例如查内存表，默认情况下会每个task都保存一份，这样太浪费资源，所以一般会采用共享变量的方式来查表，代码中经常使用，但还没细致研究过，这次刚好借着阅读Spark RDD API源码的机会来深入解析一下broadcast。Broadcast代码还涉及到spark底层存储代码BlockMana

2018-01-28 14:17:39 10548

原创 Spark WordCount Demo

Spark Word Count Demo简介日期版本修订审批修订说明2016.12.281.0章鑫初始版本

2018-01-28 13:58:27 2567

原创 odps（hive）上进行join操作的三种方式

最近项目上用到了阿里云大数据平台的数据仓库，很多离线计算和挖掘工作都是基于odps来实现，这其中必不可少的工作就是表与表之间的join碰撞。由于一开始集群资源比较充裕，一个sql任务不会运行的太久，所以没有对join做单独的关注和优化，最近由于资源紧张并且涉及到大表join，发现性能下降到令人发指的程度（千万级别的表a与百亿级别的表b进行最简单的join操作耗时5个小时以上），另外

2018-01-25 18:31:05 5395

原创 Spark与Hadoop MR的异同

最近的一次大数据相关的面试中，在末尾遇到了一个经典的问题：请说说Spark与Hadoop MR的异同？虽然自己过关了，但是由于现场发挥的原因，回来感觉还可以答得更好，就在这里总结一下这个问题。首先Spark是借鉴了mapreduce并在其基础上发展起来的，继承了其分布式计算的优点并改进了mapreduce明显的缺陷，但是二者也有不少的差异具体如下：1、spark把运

2018-01-22 20:31:35 14351

原创 HIVE与RDBMS的区别

最近做到一份大数据平台相关的笔试题，问答题第一题就是简述HIVE与RDBMS关系数据库的区别，虽然自己这两种技术都摸过、使用过（HIVE只是了解过，主要使用的是阿里云的odps，rdbms的话主要是mysql），但是突然问我这样一个问题，我还从来没认真总结过，自我感觉答得不算好，回来百度了网上的资料，在这里就简单总结下。1、hive存储的数据量比较大，适合海量数据，适合存储轨迹类历

2018-01-20 16:12:07 3429

原创阿里云mapreduce Pipeline举例

在切入正题之前首先介绍下阿里云扩展的mapreduce。传统的MapReduce模型要求每一轮MapReduce操作之后，数据必须落地到分布式文件系统上（比如HDFS或ODPS表）。而一般的MapReduce应用通常由多个MapReduce作业组成，每个作业结束之后需要写入磁盘，接下去的Map任务很多情况下只是读一遍数据，为后续的Shuffle阶段做准备，这样其实造成了冗余的IO操

2018-01-16 20:04:19 939

原创阿里云MapReduce多路输入输出例子

mapreduce的原理、框架以及hadoop MR与阿里云MR的异同这里不做讨论，这里主要介绍的是如何运用阿里云的mapreduce框架来实现多路输入输出。大数据场景下的数据挖掘和数据计算中一般用mapreduce做单路输入的计算，但是多路输入输出在现实中也是有比较多的使用场景，比如两张表的join操作等等，最近我就遇到一个需要多路输入的需求。借着这个需求来解析一下这种mapreduce应用

2018-01-12 16:29:48 1223

原创流动人口白名单

流动人口白名单需求是我写的第一个发布使用mapreduce算子，也是第一个在阿里云上开发的需求，这里简单讲下这个需求的实现和运用到的技术。日期版本修订审批修订说明2017.07.032.0章鑫需求变更

2018-01-12 14:04:22 1040

原创 kafka运维

Kafka 运维手册编制架构设计部伍超审核批准 1.编写说明以下是LinkedIn在生产中使用kafka集群的一些经验和信息，基于kafka0.9.0版本官方文档翻译。；2.基本运维这个章节将说明在运维

2017-12-15 11:04:07 1309

原创 kafka技术白皮书

Kafka技术白皮书浙江大华软件研发中心-系统架构部伍超编制一、 Kafka基本介绍Kafka是一个基于分布式的消息发布-订阅系统，它被设计成快速、可扩展的、持久的。

2017-12-15 10:00:51 907

空空如也

空空如也