自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(263)
  • 问答 (1)
  • 收藏
  • 关注

原创 大数据开发面试的总结-第五篇

目录1、transformation和action的区别1.1、transaction常见算子:1.2、action常见算子:1.3、transformation和action原理剖析图2、Hive中如何查看执行日志3、参考1、transformation和action的区别操作共同点不同点transformation支持RDD操作,主要是实现从一个RDD到另一个RDD,transaction操作是不会触发spark程序的执行的,,只是记录了对RDD所作的操作,但是不会自发的执

2020-07-08 17:28:36 427

原创 大数据开发面试的总结-第四篇

1、hdfs读写文件的机制(1) HDFS集群角色:NameNode、DataNodeHDFS集群分为两大角色:NameNode、DataNodeNameNode负责管理整个文件系统的元数据DataNode 负责管理用户的文件数据块文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本,并存放在不同的datanode上Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本

2020-06-17 17:55:03 610

原创 大数据开发面试的总结-第三篇

大数据开发面试的总结-第三篇sql常考题型(1)、sql 分组取每组的前n条或每组的n%(百分之n)的数据(2)、sql 分组取每组的前n条或每组的n%(百分之n~百分之m,例如取20%至30%)的数据(3)、算出用户购买时间的平均间隔、最长间隔及最长间隔对应的时间(1)、sql 分组取每组的前n条或每组的n%(百分之n)的数据1)按UserID分组查询出每组条数,rn从1递增;SELECT * ,ROW_NUMBER() OVER(partition by b.UserID order by b.U

2020-06-16 19:15:11 318

原创 大数据开发面试的总结-第二篇

(1)反转二叉树的实现;可用递归实现,代码包含递归,根节点作为遍历条件,左右子节点分别进行兑换。class Node(object): #定义树的结点 def __init__(self, data=-1, lchild=None, rchild=None): self.data = data self.lchild = lchild self.rchild = rchildclass Binsearchtree(o

2020-06-12 22:22:41 354

原创 大数据开发面试的总结-第一篇

大数据开发面试前言基于面大数据开发的遇到的一些问题,以及围绕这些问题展开的一些知识点的准备,对大数据开发岗的面试做了一个梳理。努力做一个知识开源的互联网民工,现在阶段还是一个被别人挑选的人,向前进吧。sql/hql/spark sql/数据仓库 方向1. spark sql 数据优化中,需要注意哪些方面?1.使用临时视图减少落到磁盘, 不落到磁盘盘是spark的一个优势,中间步骤 全部用 temporary view 代替临时table ,减少读写hdfs的操作2.spark下建表 文件格式选择

2020-06-12 21:14:17 1985

原创 天池二手车价格预测--建模与调参

这里写目录标题模型选型模型调参1 模型选型2 模型调参结果模型选型模型调参1 模型选型采用了xgboost和lightGBM以及它俩的加权模型2 模型调参主要对叶子节点数,学习率以及估计器参数进行调整 def xgb_model_fit(self, X_train, X_test, y_train, y_test,alg, use...

2020-04-01 21:52:16 544

原创 天池二手车价格预测-特征工程

天池二手车价格预测-特征工程特征工程(1)删除分布严重不平衡的特征(2)对预测值进行对数正态转化(3)针对日期特征进行分桶(按年、月)统计(4)针对两个日期字段进行间隔天数计算(5)构造品牌-价格的量化特征(最大、最小、平均值、方差)(6)对功率字段进行异常值检测(7)构造功率与价格的量化特征(8)针对地区编码进行处理(9)代码实现(10)结果特征工程(1)删除分布严重不平衡的特征(2)对预...

2020-03-28 16:24:12 441

原创 天池二手车价格预测-EDA-数据探索性分析

EDA-数据探索性分析1、加载数据2、枚举特征分类统计3、数字特征可视化4、特征扩充5、数字特征异常值检测6、正态分布检测7、对数转化图形对比8、对数正态转化9、数字特征异常值检测(正态变换后)10、特征选择(根据数据分布)11、特征选择(l岭回归)12、特征选择(逐步回归)13、特征选择(xgboost)EDA-数据探索性分析实现思路,按目录步骤实现如下:步骤1,...

2020-03-26 16:48:43 449

原创 零基础入门数据挖掘 - 二手车交易价格预测-数据探索

零基础入门数据挖掘 - 二手车交易价格预测-part1赛题理解赛题以二手车市场为背景,要求根据所给的二手车预测二手汽车的交易价格,这是一个典型的回归问题熟悉数据及评价标准一 、赛题数据该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同...

2020-03-21 18:21:21 708

原创 centos7 安装python3.8运行导入ssl报错,亲测验证有效版

centos7 安装python3.8运行导入ssl报错,亲测验证有效版

2024-02-29 14:37:50 608

原创 docker搭建git服务器

docker搭建git服务器

2024-02-29 09:14:15 732

原创 python3.8.8源码安装,import ssl报错

2、删除原有目录删除安装目录;----删除包之后还不行,因为此时执行python3还是可以的,证明没有删除成功,需要把bin目录下的删除掉;删除命令rm -rf /usr/bin/pip3rm -rf /usr/bin/python3rm -rf /usr/bin/python3.8验证源码安装命令178 cd Python-3.8.8.tgz179 tar -xvf Python-3.8.8.tgz180 cd Python-3.8.8181 ls182 vim ./Mo

2022-05-08 14:13:24 2081

原创 centos7下源码编译安装python3.8

0.简介centos7下源码编译安装python3.8(3.7+版本均可),3.6可通过yum安装(yum install python36)略。。。Centos安装Python3.8centos7下源码编译安装python3.8(3.7+版本均可),3.6可通过yum安装(yum install python36)略。。。1.安装编译相关工具准备工作,每台机器运行过一次即可yum -y groupinstall “Development tools”yum -y install zlib-d

2022-05-08 10:02:27 2900

原创 成年人正确学英语的方式

成年人正确学英语的方式本人女,毕业两年,2020年3月份开始准备考试商务英语bec的考试,到2020年5月29号考试,期间准备了3个月,最终以165分的成绩通过商务英语bec中级考试,本着以热爱学习乐于分享的精神,给大家开源下我的bec的考试经历;首先,大家可能还不知道bec的一些重要的证书长啥样,别急,我先带领大家看看我目前在我手上的:1)准考证;2)成绩单;下方图就是bec准考证,本人报考的是2020年上海海事大学外国语学院考区的考试:其次,下方是2020年7月13日成绩查询日查到的bec成绩

2021-08-03 00:06:18 326

原创 HDFS关联到hive外部表,并实现查询返回结果

背景现在已知有hdfs的分区文件,想创建一个hive外部表查询数据;解决方式解决方式1(亲测有效,推荐)1)首先创建hive外部表;CREATE TABLE dw.tab_a ( `id` bigint, `created_dt` string, `CRE_DATE` date, `UPD_DATE` TIMESTAMP, `CRE_USER` string, `UPD_USER` string)PARTITIONED BY (`dt` str

2021-05-20 14:53:44 727

原创 datawhale-web-task02

Step1:在model.py 里面编辑corefrom django.db import modelsfrom django.contrib.auth.models import PermissionsMixinfrom django.contrib.auth.base_user import AbstractBaseUserfrom django.utils import timezonefrom django.core.mail import send_mailfrom django.co

2021-05-16 22:40:29 394 2

原创 python并行调度spark任务

背景将实现某业务逻辑的pyspark代码翻译成sparksql,基于sparksql补充过去半年的历史数据(按天跑);核心点1)将pyspark翻译成sparksql;2)基于sparksql,补充过去半年的历史数据(按天跑);实现1)首先,pyspark翻译成spark sql,大部分直接翻译;基于原来共同的地方,可以缓冲一个cache表,后续不用多次计算;2)其次,翻译完sparksql之后,需要补充跑过去半年的数据;通常有几种方式:方式1,一天一天的轮询循环跑;方式2,并行跑;我尝试选

2021-05-16 12:50:21 918

原创 insert into table 的时候spark sql与hive sql的区别

背景今天用spark sql运行一个insert into 一张分区表table的语句,发现运行完之后hdfs路径没有体现出来分区的特点,而是显示像这样:hdfs:/xxx/part-02000-ed511ebe-b44e-4531-ae6d-18a170b30451-c000.snappy.parquet而如果用hive sql插入分区表的话,其路径是这样的:hdfs:/xxx/dt=20210427查表显示虽然spark sql和hive sql写入表之后的hdfs文件路径形式不一样,但

2021-05-16 11:42:53 718

原创 hive中表与数据的关系

目录1、问题背景2、Hive表与内部数据的映射关系3、内部表与外部表的关系4、参考1、问题背景下面的hive sql语句实现了什么功能?alter table test1 location '/xxx/xxx/xxx/file.txt'修改表?创建表?修改文件?hive中表与文件是什么关系?不要被alter table这个名称所误导,在hive中,表与文件是存在映射关系的,也就是说,刚开始我们创建表的时候,表里面并不会存在任何数据,只是我们通过location将表与文件进行映射关联起来后才有数据

2020-08-08 15:22:07 841 2

原创 豆瓣8.0高分电影~渣男人格之《剧场》追剧后感

《剧场》追剧后感1、简介这是一部豆瓣评分8.0的高分文艺爱情电影。看电影简介感觉很普通,没什么亮点;我主要是看了豆瓣上对它的评论,产生兴趣后去看的。这些评论是:(1)“很喜欢的调调,结尾舒适不做作。沙希的温柔与脆弱,永田的自卑与妒心都是那么血淋淋的,恨不得给山贤一拳(下不去手)。很久不看院线了,感谢日亚。”;(2)沙希:你能不能出点电费? 永田:但是这是你家,我想不出帮别人家付电费的理由。 吃女友的、住女友的、用女友的,居然还说这样的话,试问哪位观众不想爆锤男主一顿!我从未见过如此厚颜无耻之人;(

2020-07-26 00:15:17 1305

原创 html、css和javascript协作实现前端相片走廊的效果

目录1、前端实现项目效果2、html、css和javascript协作实现2.1、html2.2 、css2.3 、javascript3、javascript知识点涉及3.1 e.target4、参考1、前端实现项目效果javascript实现的效果:循环浏览所有图像,并为每个图像插入一个元素thumb-bar ,将图像嵌入页面中。将onclick处理程序附加到每个内部,thumb-bar <div>以便在单击它们时在displayed-img <img>元素中显示相应

2020-07-22 23:47:29 483

原创 css实践-part2

目录1、CSS基础知识1.1、CSS的工作机制1.2、什么是DOM?1.3、一些CSS的样式2、CSS的高级技巧2.1、层叠、优先级和继承2.2、层叠、优先级和继承的协同2.2.1、继承2.2.2、层叠2.2.3、优先级3、CSS选择器3.1、标签类型、类、ID选择器3.1.1、**类型选择器**3.1.2、类选择器3.1.3、**ID选择器**3.2、标签属性选择器3.2.1、存否和值选择器3.2.2、子字符串匹配选择器3.2.3、大小写敏感3.3、伪类与伪元素3.3.1、伪类是什么?3.3.2、用户行为

2020-07-22 00:33:36 249

原创 javascript的实践

目录1、前言2、javascript概念理解3、web页面4、实践代码注释理解5、参考1、前言学习编程,语法本身并不难,真正困难的是如何应用它来解决现实世界的问题。 你要开始像程序员那样思考。一般来讲,这种思考包括了解你程序运行的目的,为达到该目的应选定的代码类型,以及如何使这些代码协同运行。为达成这一点,我们需要努力编程,获取语法经验,注重实践,再加一点创造力,几项缺一不可。代码写的越多,就会完成的越优秀。虽然我们不能保证你在5分钟内拥有“程序员大脑”,但是整个课程中你将得到大量机会来训练程序员思维

2020-07-15 22:36:49 281

原创 CSS基础

这里写目录标题1、CSS是用来做什么的?2、CSS的写法3、css与html的链接4、CSS规则集详解4.1、多元素选择4.2 、不同类型的选择器4.3、字体和文本4.4、一切皆盒子4.5、更改页面颜色4.6、文档体格式设置4.7、定位页面主标题并添加样式4.8、图像居中4.9 实践代码4.10、疑问5 参考1、CSS是用来做什么的?层叠样式表(Cascading Style Sheet,简称:CSS)是为网页添加样式的代码。想要解答类似问题:怎样将文本设置为黑色或红色?怎样将内容显示在屏幕的特定位置?

2020-07-14 22:04:40 195

原创 Visual Code编辑html并预览html效果

目录1、Visual Code新建文件2、编辑html及预览html效果图2.1、步骤1—新建 HTML 文件2.2、步骤2—另存为 HTML 文件2.3、步骤3—在浏览器中运行这个 HTML 文件3、附html基础知识3.1、html元素示意图3.2、HTML 属性3.3、嵌套元素3.4、空元素3.5、图像3.6、标记文本3.7、段落(Paragraph)3.8、列表(List)3.9、链接4、参考1、Visual Code新建文件emmmm…,一定是我的Visual Code打开方式不正确,在“”文

2020-07-14 20:36:44 3466

原创 台大教授张文亮-台湾大学公开课-《人生的意义-爱情的意义》课程听后感

目录1、张文亮个人简介1.1、 从问题学生成为台大教授1.2、 问题学生在传统学校机制下的遭遇1.3、 问题学生认识和提升自我的机遇2、《人生的意义》-爱情的意义节选2.1、为爱而生2.2、爱分享2.3、爱至委身2.4、恋爱修炼男生女生3、参考1、张文亮个人简介1.1、 从问题学生成为台大教授小五就放火烧了全班考卷,中学因为太爱问问题,被校长痛打、被学校开除,大学重考才勉强考上。从小到大在教育体制里跌跌撞撞、受伤不断的张文亮,如今却是台大最受学生肯定的教授之一。他不仅获得台大优良导师奖,他所开的课程,

2020-07-12 00:04:53 1620

原创 庄子内篇《逍遥游第一》-经典哲理部分

目录内篇—逍遥游第一~战国·庄周第一部分原文译文第二部分原文译文内篇—逍遥游第一~战国·庄周第一部分原文汤之问棘也是已。穷发之北有冥海者,天池也。有鱼焉,其广数千里,未有知其修者,其名为鲲。有鸟焉,其名为鹏,背若太山,翼若垂天之雲,抟扶摇羊角而上者九万里,绝雲气,负青天,然後图南,且适南冥也。斥鷃笑之曰:“彼且奚适也?我腾跃而上,不过数仞而下,翱翔蓬蒿之间,此亦飞之至也。而彼且奚适也?”此小大之辩也。国学故夫知效一官,行比一乡,德合一君,而徵一国者,其自视也亦若此矣。而宋荣子犹然笑之。且举世而誉之

2020-07-09 23:56:16 1275

原创 什么是JavaScript

目录1、广义的定义2、JavaScript是做什么用的?3、JavaScript在页面上做了什么?4、浏览器安全5、JavaScript 运行次序6、解释代码 vs 编译代码7、服务器端代码 vs 客户端代码8、动态代码 vs 静态代码9、怎样向页面添加 JavaScript?9.1、内部 JavaScript9.2、外部 JavaScript9.3、内联 JavaScript 处理器10、脚本调用策略11、参考1、广义的定义JavaScript 是一种脚本,一门编程语言,它可以在网页上实现复杂的功能,

2020-07-07 21:38:18 559

原创 前端之css层叠样式表

1、什么是css?层叠样式表 (Cascading Style Sheets,缩写为 CSS),是一种 样式表 语言,CSS(层叠样式表)用于设置网页的样式及布局——比如,可以更改内容的字体、颜色、大小以及间距,或是将其分列,或是添加动画及赋予内容其它装饰性的特征。2、基本原理3、语法示例(1)样式化 HTML 元素用逗号将不同选择器隔开,即可一次使用多个选择器。p, li { color: green; }(2)改变元素的默认行为只要一个 HTML 文档标记正确,即使

2020-07-06 23:28:02 394

原创 前端入门之~html,css,java script,浏览器工作原理

目录前端学习1、html是什么?2、css是什么?3、css文件怎么影响html?4、MDN是什么?5、nodejs是什么?5.1、广义定义5.2、狭义定义一种脚本语言6 浏览器的工作原理6.1 浏览器的主要功能6.2 浏览器的高层结构7 参考前端学习最近打算学习下前后端的东西,跟着cto学院的前后端课程,发现对前端有些基础知识还不够了解,特地查资料梳理了前端的相关知识,主要分为:html,css,javascript,同时也需要了解浏览器的工作原理。1、html是什么?超文本标记语言(HTML,H

2020-07-05 23:40:31 640

原创 windows10安装node-v10.16.0注意的问题

wins10安装选择msi包,而不是zip包刚开始下载zip包,在wins10下面的环境变量进行设置,管理员模式开启cmd,输入node -v之后,提示没有安装成功,最后还是去下载了msi的版本:https://nodejs.org/download/release/v10.16.0/安装好之后,执行npm i -g @vue/cli报错报错内容:npm ERR! code EINTEGRITYnpm ERR! sha512-Pspx3oKAPJtjNwE92YS05HQoY7z2SFyOpH

2020-07-02 23:42:10 1849

原创 hive sql的优化

目录1. 将大表放后头2. 使用相同的连接键3. 尽量尽早地过滤数据4. 尽量原子化操作5. 并行执行6. 调整mapper和reducer的个数6.1 Map阶段优化6.2 Reduce阶段优化7.严格模式8.数据倾斜9 参考1. 将大表放后头Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最后那个表。因此通常需要将小表放前面,或者标记哪张表是大表:/*streamtable(table_name) */2. 使用相同的连接键当对3个或者更多个表进行join连接时,如果每个o

2020-06-28 23:46:28 289

转载 递归与while循环的区别

1、引入说起循环,我们大多会想到“递归、迭代、遍历”等几个词,具体的含义请看本文附录。今天只结合具体例子说一说递归和while循环的比较。两者的代码比较问:求1+2+3+…+n的和,请用两种方法写出代码?答:递归代码: public static int Fun(int n){ if(n == 1){ return 1; } else { return n + Fun(n-1); } }

2020-06-22 23:07:43 1666

原创 少有的追剧时光~《传闻中的陈芊芊》追剧后感

追剧动机本人平时很少追剧,特别是中国的电视剧,老觉得剧情拖沓,明明一个很短的情节,老是被拉得好长,要好几集才演完的那种,太浪费时间了。趁休闲之余恰巧刷微博的时候看到了这部剧评:反传统思维的,男女地位的反差演绎;觉得很有意思,于是就索性点开看了几集,结果发现女主陈芊芊演绎的真是活灵活现,一会投入在剧中自己的角色中,一会又跳出戏捋捋自己作为编剧的剧情逻辑,于是就此,平时抽时间看个1-2集当做对自己的奖励…故事梗概该故事是这样开始的,现实世界中,担任编剧的陈小千正在为了生活的稿费拼命写稿,跟甲方商量交稿日期

2020-06-21 00:20:37 383

原创 从外部数据源接入到kafka及kafka存储数据的原理机制

1、外部数据是怎样的接入到kafka的?外部数据接入到kafka的流程示意图:(1)接入数据流程(1)producer先从broker-list的节点中找到该partition的leader;(2)然后producer将消息发送给作为leader的partition;(3)leader收到消息后,将消息写入本地log;(4)followers从leader中pull消息,实现replication的副本备份机制,同样写入本地log;(5)replication写入本地log后向leader发

2020-06-19 22:33:34 2112 1

原创 时间复杂度与空间复杂度

目录问题背景算法效率(1)时间复杂度常数阶O(1)线性阶O(n)对数阶O(logN)线性对数阶O(nlogN)平方阶O(n²)(2)空间复杂度空间复杂度 O(1)空间复杂度 O(n)参考问题背景两个问题,假设都是最笨的循环方式:(1)单个字符比较(比如:“a”与“b”比较的时间复杂度是多少?(2)字符串比较 (比如:“abd”与“cdh”比较的时间复杂度是多少?目的:我想知道他俩的区别,去估算我代码的时间复杂度;测试了一下:在1000000次循环里面:大小为100000的单个字符串比较耗时:

2020-06-18 22:10:35 174

原创 hive架构介绍、SQL引擎与NoSQL引擎的对比

hive架构介绍、SQL引擎与NoSQL引擎的对比什么是hive?什么是数据仓库?数据仓库的构建过程OLTP应用和OLAP应用数据仓库中的数据模型什么是hiveHIVE的体系结构hive的体系结构之元数据hive的体系结构之HQL的执行过程hive的体系结构什么是sql引擎?hive onHive on Spark和Spark on Hive之间的SQL和计算引擎是一模一样的,如果区分?Spark-SQL、Hive on Spark、Spark on Hive使用场景Hive参考什么是hive?hive

2020-06-16 21:47:44 1507

原创 XGBOOST集成树模型的原理梳理

0 前言xgboost本身是集成树模型,在了解其原理之前,先对树模型的机器学习基础知识做一定介绍。监督学习元素(1)学习模型(即已知x,求出y的模型表达式)比如:线性模型;逻辑回归模型;(2)参数从数据当中学习得到模型参数。(3)目标函数包含两部分:损失函数+正则项损失函数是衡量模型拟合训练数据的能力。在训练数据上的损失函数,有多种形式:比如平方损失、逻辑回归损失;正则项是衡量模型复杂度,有L1正则项,L2正则项;目标函数包含两部分的原因就是:保证至少在训练数据上,该模型能较好地接

2020-06-15 00:39:43 1291

原创 企业风险预测开发复盘总结

企业风险预测开发复盘总结一、背景介绍在企业信用领域,每个企业每天都在发生着改变,这些改变有可能使得企业越来越好,也有可能使得企业面临各种风险。面对企业的百万级运营数据,从中分析出企业的风险信息对企业运营的决策和投资者都是比较好的参考。为了给客户提供一个比较精确企业风险信息,我们可以根据企业的历史数据和后面的表现情况,结合数据挖掘的理论知识,采用树模型分类算法模型来预测企业发生风险概率。二、简介结合实际,我们主要围绕两方面工作,第一是数据准备工作,主要是因子体系的梳理和加工,第二是实现评分卡模型。

2020-06-14 23:18:09 563

原创 树模型算法

目录一级目录一、决策树算法二、随机森林模型三、梯度提升树一级目录一、决策树算法构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。“最好” 的定义是使得子节点中的训练集尽量的纯(信息增益最小,其中信息增益=未用该属性的上一层即分裂前的类别的熵值-用了该属性即这一层本类别的熵值)。不同的算法使用不同的指标来定义"最好"。一个描述泰坦尼克号上乘客生存的决策树 ("sibsp"指甲板上的兄妹和配偶)。每个决策叶下标识该类乘客的生存几率和观察到的比率;下面介绍几个常用的指标。基尼不纯

2020-06-12 23:43:21 926

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除