自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 推荐系统开发实战学习笔记(1)——第一个推荐系统:搭建电影推荐系统

数据集:用的是NetFlix数据集文件解压包含一下几个文件:1、README描述性内容2、movie_titles.txt该文件表示电影相关信息本实例依赖的是training_set.tar下的文件,因数据量比较大,因此随意选取1000个用户来进行实例开发。# -*- encoding: utf-8 -*-import osimport jsonimport randomimport mathclass FirstRec: """初始化函数 filep

2022-03-23 16:42:37 2497

原创 hive中explode和 lateral view的使用

explode的作用是将hive一行中复杂的array或者map结构拆分成多行:写一个简单的例子:这里想将1007对应的tag拆成两行输出:select explode(split(tag,'\\|')) from channel_info;结果:但是前面还有id需要一起输出,这里就要使用到lateral view了。lateral view用于和split, explode等UDTF一起使用,它能够在此基础上对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,

2021-05-21 16:21:00 358

原创 hive中解析url的parse_url函数解析url

在工作中,有一个需要解析url的工作,需要截取url里的path(文件目录)和url的参数,这里在hive中有一个内置的函数,使用起来比较简单,所以做个记录,有需要的可以用到。Hive的parse_url函数功能:解析URL字符串,语法:parse_url(url, partToExtract[, key]) (这里要大写)partToExtract的选项包含 【host,path,query,ref,protocol,file,authority,userinfo】下面我们编一个网址来介绍URL

2021-03-31 11:21:42 831

原创 python的urllib模块学习笔记及网页爬取下载图片例子

urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据,在python3中urllib模块导入不能直接import urllib 而要import urllib .request。##1、基本方法

2021-03-31 11:15:07 261 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除