自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (3)
  • 收藏
  • 关注

原创 XX学校毕业生就业情况分析

2018届通信学院毕业生就业情况分析今天拿到了上一届师兄们的就业情况表,就想着做个关于就业的统计分析。花了3个小时做整个分析的构思、设计和实现,也算是费尽心思了吧!如果本文章有任何设计到侵犯个人隐私的情况,请立即联系本人[email protected],本人承诺马上删除。读取文件import pandas as pdimport matplotlib.pyplot as p...

2018-08-24 22:57:25 2458 6

原创 用户留存模型

– 数据准备(这里应该是分区表,每个分区存放当天活跃用户id,为图方便放在了一个表里)– 创建hive表CREATE TABLE `active`( `id` string, `ds` string)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'WITH SERDEPROPERTIES ( 'field.delim'='\t')STORED AS INPUTFORMAT 'org.ap

2020-11-23 21:14:29 630 1

原创 docker与k8s

一、docker入门命令docker基本命令:安装:apt-get update && apt-get install docker.io将当前用户增加到docker分组,不用每次都输sudosudo usermod -a -G docker $USER 重登该用户后生效拉取和管理离线镜像docker search imagename # 查找镜像...

2019-10-29 11:59:40 502

原创 scala基本语法速查手册

val 不可变 var可变val myStr=“hello world!”val myStr1:String=“hello world!”val myStr2:java.lang.String=“hello world!”import java.lang._ //java lang包里所有东西Scala数据类型(都是类,scala.Int)特殊:String java.lan...

2019-10-21 10:09:28 425

原创 hive UTC时间转中国时间

在hive中处理UTC时间将 2019-09-28T15:59:50.534944805Z 时区为0的时间 -> 转为东8区时间 2019-09-29 00:01:30from_unixtime(unix_timestamp(regexp_replace(regexp_replace(get_json_object(content,'$.time'),'T',' '),'Z',' ')...

2019-09-29 20:35:36 3156

原创 Linux命令集合

Hadoop集群的高频命令查看共享文件在linux下的哪个地方cd /mnt/hgfs/在Linux下解压压缩包tar xvzf启动hadoop集群./start-all.sh 先进入cd /usr/local/src目录再启动hadoop从hdfs上把文件down下来./hadoop fs -get /1.data /usr/local/src/ 后面路径是文件down下来的存...

2019-08-20 13:26:07 259

转载 Hive中利用正则表达式过滤列名

Hive中利用正则表达式过滤列名Hive 0.13.0之后,select列表支持正则表达式了,如果想要查询除了某个列以外的其他字段的内容,可以使用以下方式,而不是把字段名全部敲出来了。select `(col_name1|col_name2|col_name3)?+.+` from table;其中col_name* 是指不要查询的列名。...

2019-07-26 13:19:04 2658 1

转载 c语言常用知识点梳理

c语言常用知识点:知识点1:交换两个变量值的方法采用第三方变量(最容易想到的方法)采用加减法进行值得交换(面试时常用**)代码如下:b = a - b;a = a - b;b = a + b;采用按位异或的位方式代码如下:a = a^b;b = a^b;a = a^b;知识点2:(*p)[3]与*p[3]的区别因为[]的优先级高于*,所以结合顺序不一样,所表示的...

2019-06-10 16:47:54 653

原创 动态规划之矩阵连乘

思考:  三个矩阵A,B,C的阶分别是 a0∗a1,a1∗a2,a2∗a3a_0*a_1,a_1*a_2,a_2*a_3a0​∗a1​,a1​∗a2​,a2​∗a3​ ,从而(AxB)xC和Ax(BxC)的乘法次数是 a0∗a1∗a2+a0∗a2∗a3,a1∗a2∗a3+a0∗a1∗a3a_0*a_1*a_2+a_0*a_2*a_3,a_1*a_2*a_3+a_0*a_1*a_3a0​∗a1​∗...

2019-06-10 16:44:26 227

原创 批量转换word为pdf

自己写的一个小工具,用于批量转换word为pdf,使用方式:将完整代码拷贝到文档中,并修改名称为words2pdfs.py将该文件拷贝到需要转换的文档目录下在终端中输入python words2pdfs.py终端会列出来是否需要转换以下文档,输入yes即可。注意:运行后会在当前目录下生成一个pdfs的文件夹,里面就是转换后的所有文件import os,shutilfrom w...

2019-05-22 21:47:53 4613 2

原创 记录pyspark中的sortBykey和sortBy的问题

当我在复习pyspark中的sortByKey时,我试图使用sortByKey对键值对的值进行排序,并设置了keyfunc为键值对的值。但是排序出来的结果和ascending的设置正好相反。我用sortBy方法再次进行操作,能够得到正确结果。我尝试查看了一下源码,但还没有解决问题,因此记录一下问题,以待后续解决和更新。具体运行情况如下:...

2019-05-14 13:50:00 4601 3

转载 无线定位技术概述

FROM http://labs.chinamobile.com/mblog/712208_82886阎啸天于蓉蓉武威(中国移动通信有限公司研究院业务所) 摘  要介绍了位置信息和定位性能分析指标等基本概念,根据定位原理与策略的差异对各种定位方法进行分类,概要阐述和比较说明了蜂窝网络、无线局域网络(WLAN)拓扑...

2018-12-03 20:23:50 24800

原创 不需要输入密码进行数据库备份

问题:在使用mysqldump进行数据库备份的时候,老是让我手动输入密码解决:在-u 和-p的字段后面不需要使用空格,直接连写例子mysqldump -uroot -proot databaseName > databaseName_$(date +%Y%m%d_%H%M%S).sql...

2018-10-09 21:34:13 1629 2

原创 java面试,看这一篇就够了

Java基础知识Java的hashmap的原理,Hashmap中jdk1.8之后做了哪些优化 通过hash的方法,通过put和get存储和获取对象。存储对象时,我们将K/V传给put方法时,它调用hashCode计算hash从而得到bucket位置,进一步存储,HashMap会根据当前bucket的占用情况自动调整容量(超过Load_Facotr则resize为原来的2倍)。获取对...

2018-08-25 16:57:16 1982

原创 公交站点信息爬虫

任务介绍  无论是工作的需要,还是业余时间想对网上数据进行分析,爬虫都是我们必须过的一个基本关。本次任务就是在工作需要的基础上,需要我们对整个XX市的公交站点进行爬取,获取其经纬度信息,便于后续数据的OD分析。按理说这个数据应该是公交公司有的,但是历史数据信息涵盖量不全,便寄希望于百度地图能给我们提供更多的一点信息吧。话不多说,开始今天的简易爬虫教程。工具准备  本次爬虫需要用到的工具...

2018-08-25 13:37:57 2551

原创 数据库速查手册

基本语法就不详细描述了,该文档主要记录复习sql语句时写的所有语句(以前总结的)简单查找 select * from table;查找不重复的项select distinct * from table;where语句查找select * from table where name ='jack';and or 语句select * from table whe...

2018-08-25 13:25:08 269

原创 Spring原理以及流程

Spring IOC、DI、MVC核心原理配置阶段web.xml –> DispatcherServletinit-param–> contextConfigLocation classpath:application.xmlurl-pattern–> /*初始化阶段init –>加载配置文件IOC容器初始化–>Map运行阶段...

2018-08-25 13:23:18 5173

原创 Python讲解MapReduce过程

用Python讲解MapReduce使用python写map.py和reduce.py两个脚本,详细讲解mapreduce整个流程。(本地运行、hadoop集群上利用hadoop-streaming.jar运行)map.py代码import sysfor line in sys.stdin: word_list=line.strip().split(" ") for...

2018-08-25 13:20:27 5350

原创 RDD基本命令

sc.master'local[*]'create RDD demointRDD=sc.parallelize([3,1,2,5,6])intRDD.collect()[3, 1, 2, 5, 6]stringRDD=sc.parallelize(["Apple","Orange","Banana","Grape","Apple"])stringRDD.co...

2018-08-25 13:17:51 680

原创 基于Spark-ALS的协同过滤算法推荐系统

最简单的推荐系统,起到抛砖引玉的作用,各位看官见谅!使用的是MovieLens里面的ml-100k的范例数据集。path="hdfs://localhost:9000/user/fantastic_liar/"rawUserData=sc.textFile(path+"data/u.data")rawUserData.count()100000# 用户id,项目id,评价,日期时...

2018-08-25 13:15:05 1603

转载 CSDN-markdown编辑器使用方式

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-08-18 14:28:41 159

apache-atlas-2.1.0-hive-hook.tar.gz

atlas hive hook 已编译版本apache-atlas-2.1.0-hive-hook.tar.gz 可用于hive中进行数据抓取 和元数据信息管理

2020-12-13

atlas 血缘管理编译包

包版本 hadoop.version 3.0.0 hbase.version 2.1.0 solr.version 7.4.0 hive.version 3.1.0 kafka.version 2.2.1 zookeeper.version 3.4.5

2020-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除