一只勤奋爱思考的猪-CSDN博客

原创大数据开发面试的总结-第五篇

目录1、transformation和action的区别1.1、transaction常见算子：1.2、action常见算子：1.3、transformation和action原理剖析图2、Hive中如何查看执行日志3、参考1、transformation和action的区别操作共同点不同点transformation支持RDD操作，主要是实现从一个RDD到另一个RDD，transaction操作是不会触发spark程序的执行的，，只是记录了对RDD所作的操作，但是不会自发的执

2020-07-08 17:28:36 427

原创大数据开发面试的总结-第四篇

1、hdfs读写文件的机制（1） HDFS集群角色：NameNode、DataNodeHDFS集群分为两大角色：NameNode、DataNodeNameNode负责管理整个文件系统的元数据DataNode 负责管理用户的文件数据块文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本，并存放在不同的datanode上Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本

2020-06-17 17:55:03 610

原创大数据开发面试的总结-第三篇

大数据开发面试的总结-第三篇sql常考题型(1)、sql 分组取每组的前n条或每组的n%（百分之n)的数据(2)、sql 分组取每组的前n条或每组的n%（百分之n~百分之m,例如取20%至30%)的数据(3)、算出用户购买时间的平均间隔、最长间隔及最长间隔对应的时间(1)、sql 分组取每组的前n条或每组的n%（百分之n)的数据1）按UserID分组查询出每组条数，rn从1递增；SELECT * ,ROW_NUMBER() OVER(partition by b.UserID order by b.U

2020-06-16 19:15:11 318

原创大数据开发面试的总结-第二篇

（1）反转二叉树的实现；可用递归实现，代码包含递归，根节点作为遍历条件，左右子节点分别进行兑换。class Node(object): #定义树的结点 def __init__(self, data=-1, lchild=None, rchild=None): self.data = data self.lchild = lchild self.rchild = rchildclass Binsearchtree(o

2020-06-12 22:22:41 354

原创大数据开发面试的总结-第一篇

大数据开发面试前言基于面大数据开发的遇到的一些问题，以及围绕这些问题展开的一些知识点的准备，对大数据开发岗的面试做了一个梳理。努力做一个知识开源的互联网民工，现在阶段还是一个被别人挑选的人，向前进吧。sql/hql/spark sql/数据仓库方向1. spark sql 数据优化中，需要注意哪些方面？1.使用临时视图减少落到磁盘，不落到磁盘盘是spark的一个优势，中间步骤全部用 temporary view 代替临时table ，减少读写hdfs的操作2.spark下建表文件格式选择

2020-06-12 21:14:17 1985

原创天池二手车价格预测--建模与调参

这里写目录标题模型选型模型调参1 模型选型2 模型调参结果模型选型模型调参1 模型选型采用了xgboost和lightGBM以及它俩的加权模型2 模型调参主要对叶子节点数，学习率以及估计器参数进行调整 def xgb_model_fit(self, X_train, X_test, y_train, y_test,alg, use...

2020-04-01 21:52:16 544

原创天池二手车价格预测-特征工程

天池二手车价格预测-特征工程特征工程（1）删除分布严重不平衡的特征（2）对预测值进行对数正态转化（3）针对日期特征进行分桶（按年、月）统计（4）针对两个日期字段进行间隔天数计算（5）构造品牌-价格的量化特征(最大、最小、平均值、方差)（6）对功率字段进行异常值检测（7）构造功率与价格的量化特征（8）针对地区编码进行处理（9）代码实现（10）结果特征工程（1）删除分布严重不平衡的特征（2）对预...

2020-03-28 16:24:12 441

原创天池二手车价格预测-EDA-数据探索性分析

EDA-数据探索性分析1、加载数据2、枚举特征分类统计3、数字特征可视化4、特征扩充5、数字特征异常值检测6、正态分布检测7、对数转化图形对比8、对数正态转化9、数字特征异常值检测(正态变换后)10、特征选择(根据数据分布)11、特征选择(l岭回归)12、特征选择(逐步回归)13、特征选择(xgboost)EDA-数据探索性分析实现思路，按目录步骤实现如下：步骤1，...

2020-03-26 16:48:43 449

原创零基础入门数据挖掘 - 二手车交易价格预测-数据探索

零基础入门数据挖掘 - 二手车交易价格预测-part1赛题理解赛题以二手车市场为背景，要求根据所给的二手车预测二手汽车的交易价格，这是一个典型的回归问题熟悉数据及评价标准一、赛题数据该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同...

2020-03-21 18:21:21 708

原创 centos7 安装python3.8运行导入ssl报错，亲测验证有效版

centos7 安装python3.8运行导入ssl报错，亲测验证有效版

2024-02-29 14:37:50 608

原创 docker搭建git服务器

docker搭建git服务器

2024-02-29 09:14:15 732

原创 python3.8.8源码安装，import ssl报错

2、删除原有目录删除安装目录；----删除包之后还不行，因为此时执行python3还是可以的，证明没有删除成功，需要把bin目录下的删除掉；删除命令rm -rf /usr/bin/pip3rm -rf /usr/bin/python3rm -rf /usr/bin/python3.8验证源码安装命令178 cd Python-3.8.8.tgz179 tar -xvf Python-3.8.8.tgz180 cd Python-3.8.8181 ls182 vim ./Mo

2022-05-08 14:13:24 2081

原创 centos7下源码编译安装python3.8

0.简介centos7下源码编译安装python3.8（3.7+版本均可），3.6可通过yum安装（yum install python36）略。。。Centos安装Python3.8centos7下源码编译安装python3.8（3.7+版本均可），3.6可通过yum安装（yum install python36）略。。。1.安装编译相关工具准备工作，每台机器运行过一次即可yum -y groupinstall “Development tools”yum -y install zlib-d

2022-05-08 10:02:27 2900

原创成年人正确学英语的方式

成年人正确学英语的方式本人女，毕业两年，2020年3月份开始准备考试商务英语bec的考试，到2020年5月29号考试，期间准备了3个月，最终以165分的成绩通过商务英语bec中级考试，本着以热爱学习乐于分享的精神，给大家开源下我的bec的考试经历；首先，大家可能还不知道bec的一些重要的证书长啥样，别急，我先带领大家看看我目前在我手上的：1）准考证；2）成绩单；下方图就是bec准考证，本人报考的是2020年上海海事大学外国语学院考区的考试：其次，下方是2020年7月13日成绩查询日查到的bec成绩

2021-08-03 00:06:18 326

原创 HDFS关联到hive外部表，并实现查询返回结果

背景现在已知有hdfs的分区文件，想创建一个hive外部表查询数据；解决方式解决方式1（亲测有效，推荐）1）首先创建hive外部表；CREATE TABLE dw.tab_a ( `id` bigint, `created_dt` string, `CRE_DATE` date, `UPD_DATE` TIMESTAMP, `CRE_USER` string, `UPD_USER` string)PARTITIONED BY (`dt` str

2021-05-20 14:53:44 727

原创 datawhale-web-task02

Step1:在model.py 里面编辑corefrom django.db import modelsfrom django.contrib.auth.models import PermissionsMixinfrom django.contrib.auth.base_user import AbstractBaseUserfrom django.utils import timezonefrom django.core.mail import send_mailfrom django.co

2021-05-16 22:40:29 394 2

原创 python并行调度spark任务

背景将实现某业务逻辑的pyspark代码翻译成sparksql，基于sparksql补充过去半年的历史数据（按天跑）；核心点1）将pyspark翻译成sparksql；2）基于sparksql，补充过去半年的历史数据（按天跑）；实现1）首先，pyspark翻译成spark sql，大部分直接翻译；基于原来共同的地方，可以缓冲一个cache表，后续不用多次计算；2）其次，翻译完sparksql之后，需要补充跑过去半年的数据；通常有几种方式：方式1，一天一天的轮询循环跑；方式2，并行跑；我尝试选

2021-05-16 12:50:21 918

原创 insert into table 的时候spark sql与hive sql的区别

背景今天用spark sql运行一个insert into 一张分区表table的语句，发现运行完之后hdfs路径没有体现出来分区的特点,而是显示像这样：hdfs:/xxx/part-02000-ed511ebe-b44e-4531-ae6d-18a170b30451-c000.snappy.parquet而如果用hive sql插入分区表的话，其路径是这样的：hdfs:/xxx/dt=20210427查表显示虽然spark sql和hive sql写入表之后的hdfs文件路径形式不一样，但

2021-05-16 11:42:53 718

原创 hive中表与数据的关系

目录1、问题背景2、Hive表与内部数据的映射关系3、内部表与外部表的关系4、参考1、问题背景下面的hive sql语句实现了什么功能？alter table test1 location '/xxx/xxx/xxx/file.txt'修改表？创建表？修改文件？hive中表与文件是什么关系？不要被alter table这个名称所误导，在hive中，表与文件是存在映射关系的，也就是说，刚开始我们创建表的时候，表里面并不会存在任何数据，只是我们通过location将表与文件进行映射关联起来后才有数据

2020-08-08 15:22:07 841 2

原创豆瓣8.0高分电影~渣男人格之《剧场》追剧后感

《剧场》追剧后感1、简介这是一部豆瓣评分8.0的高分文艺爱情电影。看电影简介感觉很普通，没什么亮点；我主要是看了豆瓣上对它的评论，产生兴趣后去看的。这些评论是：（1）“很喜欢的调调，结尾舒适不做作。沙希的温柔与脆弱，永田的自卑与妒心都是那么血淋淋的，恨不得给山贤一拳(下不去手)。很久不看院线了，感谢日亚。”；（2）沙希：你能不能出点电费？永田：但是这是你家，我想不出帮别人家付电费的理由。吃女友的、住女友的、用女友的，居然还说这样的话，试问哪位观众不想爆锤男主一顿！我从未见过如此厚颜无耻之人；（

2020-07-26 00:15:17 1305

原创 html、css和javascript协作实现前端相片走廊的效果

目录1、前端实现项目效果2、html、css和javascript协作实现2.1、html2.2 、css2.3 、javascript3、javascript知识点涉及3.1 e.target4、参考1、前端实现项目效果javascript实现的效果：循环浏览所有图像，并为每个图像插入一个元素thumb-bar ，将图像嵌入页面中。将onclick处理程序附加到每个内部，thumb-bar <div>以便在单击它们时在displayed-img <img>元素中显示相应

2020-07-22 23:47:29 483

原创 css实践-part2

目录1、CSS基础知识1.1、CSS的工作机制1.2、什么是DOM？1.3、一些CSS的样式2、CSS的高级技巧2.1、层叠、优先级和继承2.2、层叠、优先级和继承的协同2.2.1、继承2.2.2、层叠2.2.3、优先级3、CSS选择器3.1、标签类型、类、ID选择器3.1.1、**类型选择器**3.1.2、类选择器3.1.3、**ID选择器**3.2、标签属性选择器3.2.1、存否和值选择器3.2.2、子字符串匹配选择器3.2.3、大小写敏感3.3、伪类与伪元素3.3.1、伪类是什么？3.3.2、用户行为

2020-07-22 00:33:36 249

原创 javascript的实践

目录1、前言2、javascript概念理解3、web页面4、实践代码注释理解5、参考1、前言学习编程，语法本身并不难，真正困难的是如何应用它来解决现实世界的问题。你要开始像程序员那样思考。一般来讲，这种思考包括了解你程序运行的目的，为达到该目的应选定的代码类型，以及如何使这些代码协同运行。为达成这一点，我们需要努力编程，获取语法经验，注重实践，再加一点创造力，几项缺一不可。代码写的越多，就会完成的越优秀。虽然我们不能保证你在5分钟内拥有“程序员大脑”，但是整个课程中你将得到大量机会来训练程序员思维

2020-07-15 22:36:49 281

原创 CSS基础

这里写目录标题1、CSS是用来做什么的？2、CSS的写法3、css与html的链接4、CSS规则集详解4.1、多元素选择4.2 、不同类型的选择器4.3、字体和文本4.4、一切皆盒子4.5、更改页面颜色4.6、文档体格式设置4.7、定位页面主标题并添加样式4.8、图像居中4.9 实践代码4.10、疑问5 参考1、CSS是用来做什么的？层叠样式表（Cascading Style Sheet，简称：CSS）是为网页添加样式的代码。想要解答类似问题：怎样将文本设置为黑色或红色？怎样将内容显示在屏幕的特定位置？

2020-07-14 22:04:40 195

原创 Visual Code编辑html并预览html效果

目录1、Visual Code新建文件2、编辑html及预览html效果图2.1、步骤1—新建 HTML 文件2.2、步骤2—另存为 HTML 文件2.3、步骤3—在浏览器中运行这个 HTML 文件3、附html基础知识3.1、html元素示意图3.2、HTML 属性3.3、嵌套元素3.4、空元素3.5、图像3.6、标记文本3.7、段落（Paragraph）3.8、列表（List）3.9、链接4、参考1、Visual Code新建文件emmmm…，一定是我的Visual Code打开方式不正确，在“”文

2020-07-14 20:36:44 3466

原创台大教授张文亮-台湾大学公开课-《人生的意义-爱情的意义》课程听后感

目录1、张文亮个人简介1.1、从问题学生成为台大教授1.2、问题学生在传统学校机制下的遭遇1.3、问题学生认识和提升自我的机遇2、《人生的意义》-爱情的意义节选2.1、为爱而生2.2、爱分享2.3、爱至委身2.4、恋爱修炼男生女生3、参考1、张文亮个人简介1.1、从问题学生成为台大教授小五就放火烧了全班考卷，中学因为太爱问问题，被校长痛打、被学校开除，大学重考才勉强考上。从小到大在教育体制里跌跌撞撞、受伤不断的张文亮，如今却是台大最受学生肯定的教授之一。他不仅获得台大优良导师奖，他所开的课程，

2020-07-12 00:04:53 1620

原创庄子内篇《逍遥游第一》-经典哲理部分

目录内篇—逍遥游第一~战国·庄周第一部分原文译文第二部分原文译文内篇—逍遥游第一~战国·庄周第一部分原文汤之问棘也是已。穷发之北有冥海者，天池也。有鱼焉，其广数千里，未有知其修者，其名为鲲。有鸟焉，其名为鹏，背若太山，翼若垂天之雲，抟扶摇羊角而上者九万里，绝雲气，负青天，然後图南，且适南冥也。斥鷃笑之曰：“彼且奚适也？我腾跃而上，不过数仞而下，翱翔蓬蒿之间，此亦飞之至也。而彼且奚适也？”此小大之辩也。国学故夫知效一官，行比一乡，德合一君，而徵一国者，其自视也亦若此矣。而宋荣子犹然笑之。且举世而誉之

2020-07-09 23:56:16 1275

原创什么是JavaScript

目录1、广义的定义2、JavaScript是做什么用的？3、JavaScript在页面上做了什么？4、浏览器安全5、JavaScript 运行次序6、解释代码 vs 编译代码7、服务器端代码 vs 客户端代码8、动态代码 vs 静态代码9、怎样向页面添加 JavaScript？9.1、内部 JavaScript9.2、外部 JavaScript9.3、内联 JavaScript 处理器10、脚本调用策略11、参考1、广义的定义JavaScript 是一种脚本，一门编程语言，它可以在网页上实现复杂的功能，

2020-07-07 21:38:18 559

原创前端之css层叠样式表

1、什么是css?层叠样式表 (Cascading Style Sheets，缩写为 CSS），是一种样式表语言，CSS（层叠样式表）用于设置网页的样式及布局——比如，可以更改内容的字体、颜色、大小以及间距，或是将其分列，或是添加动画及赋予内容其它装饰性的特征。2、基本原理3、语法示例（1）样式化 HTML 元素用逗号将不同选择器隔开，即可一次使用多个选择器。p, li { color: green; }（2）改变元素的默认行为只要一个 HTML 文档标记正确，即使

2020-07-06 23:28:02 394

原创前端入门之~html,css,java script，浏览器工作原理

目录前端学习1、html是什么？2、css是什么？3、css文件怎么影响html？4、MDN是什么？5、nodejs是什么？5.1、广义定义5.2、狭义定义一种脚本语言6 浏览器的工作原理6.1 浏览器的主要功能6.2 浏览器的高层结构7 参考前端学习最近打算学习下前后端的东西，跟着cto学院的前后端课程，发现对前端有些基础知识还不够了解，特地查资料梳理了前端的相关知识，主要分为：html,css,javascript,同时也需要了解浏览器的工作原理。1、html是什么？超文本标记语言（HTML，H

2020-07-05 23:40:31 640

原创 windows10安装node-v10.16.0注意的问题

wins10安装选择msi包，而不是zip包刚开始下载zip包，在wins10下面的环境变量进行设置，管理员模式开启cmd,输入node -v之后，提示没有安装成功，最后还是去下载了msi的版本：https://nodejs.org/download/release/v10.16.0/安装好之后，执行npm i -g @vue/cli报错报错内容：npm ERR! code EINTEGRITYnpm ERR! sha512-Pspx3oKAPJtjNwE92YS05HQoY7z2SFyOpH

2020-07-02 23:42:10 1849

原创 hive sql的优化

目录1. 将大表放后头2. 使用相同的连接键3. 尽量尽早地过滤数据4. 尽量原子化操作5. 并行执行6. 调整mapper和reducer的个数6.1 Map阶段优化6.2 Reduce阶段优化7.严格模式8.数据倾斜9 参考1. 将大表放后头Hive假定查询中最后的一个表是大表。它会将其它表缓存起来，然后扫描最后那个表。因此通常需要将小表放前面，或者标记哪张表是大表：/*streamtable(table_name) */2. 使用相同的连接键当对3个或者更多个表进行join连接时，如果每个o

2020-06-28 23:46:28 289

转载递归与while循环的区别

1、引入说起循环，我们大多会想到“递归、迭代、遍历”等几个词，具体的含义请看本文附录。今天只结合具体例子说一说递归和while循环的比较。两者的代码比较问：求1+2+3+…+n的和，请用两种方法写出代码？答：递归代码： public static int Fun(int n){ if(n == 1){ return 1; } else { return n + Fun(n-1); } }

2020-06-22 23:07:43 1666

原创少有的追剧时光~《传闻中的陈芊芊》追剧后感

追剧动机本人平时很少追剧，特别是中国的电视剧，老觉得剧情拖沓，明明一个很短的情节，老是被拉得好长，要好几集才演完的那种，太浪费时间了。趁休闲之余恰巧刷微博的时候看到了这部剧评：反传统思维的，男女地位的反差演绎；觉得很有意思，于是就索性点开看了几集，结果发现女主陈芊芊演绎的真是活灵活现，一会投入在剧中自己的角色中，一会又跳出戏捋捋自己作为编剧的剧情逻辑，于是就此，平时抽时间看个1-2集当做对自己的奖励…故事梗概该故事是这样开始的，现实世界中，担任编剧的陈小千正在为了生活的稿费拼命写稿，跟甲方商量交稿日期

2020-06-21 00:20:37 383

原创从外部数据源接入到kafka及kafka存储数据的原理机制

1、外部数据是怎样的接入到kafka的？外部数据接入到kafka的流程示意图：（1）接入数据流程（1）producer先从broker-list的节点中找到该partition的leader；（2）然后producer将消息发送给作为leader的partition；（3）leader收到消息后，将消息写入本地log；（4）followers从leader中pull消息，实现replication的副本备份机制，同样写入本地log；（5）replication写入本地log后向leader发

2020-06-19 22:33:34 2112 1

原创时间复杂度与空间复杂度

目录问题背景算法效率（1）时间复杂度常数阶O(1)线性阶O(n)对数阶O(logN)线性对数阶O(nlogN)平方阶O(n²)（2）空间复杂度空间复杂度 O(1)空间复杂度 O(n)参考问题背景两个问题，假设都是最笨的循环方式：（1）单个字符比较(比如：“a”与“b”比较的时间复杂度是多少？（2）字符串比较（比如：“abd”与“cdh”比较的时间复杂度是多少？目的：我想知道他俩的区别，去估算我代码的时间复杂度；测试了一下：在1000000次循环里面：大小为100000的单个字符串比较耗时：

2020-06-18 22:10:35 174

原创 hive架构介绍、SQL引擎与NoSQL引擎的对比

hive架构介绍、SQL引擎与NoSQL引擎的对比什么是hive？什么是数据仓库？数据仓库的构建过程OLTP应用和OLAP应用数据仓库中的数据模型什么是hiveHIVE的体系结构hive的体系结构之元数据hive的体系结构之HQL的执行过程hive的体系结构什么是sql引擎？hive onHive on Spark和Spark on Hive之间的SQL和计算引擎是一模一样的，如果区分？Spark-SQL、Hive on Spark、Spark on Hive使用场景Hive参考什么是hive？hive

2020-06-16 21:47:44 1507

空空如也

ubuntu1604用cv2.imread(),报错：GLib-GIO-Message: