自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Nickkun的博客

昨日不比今日,今日不比明日。

  • 博客(25)
  • 问答 (1)
  • 收藏
  • 关注

原创 拍拍贷数据分析-逾期情况分析

数据背景所提供数据来自拍拍贷真实业务数据,从2015-01-01到2017-01-30的所有信用标的10%sample样本。数据集包含LC.csv(标的特征表数据)和LP.csv(标的还款计划和还款记录表)数据。详情如下:数据字典1.LC.csv 数据大小:50.7MBLC (Loan Characteristics) 表为标的特征表,每支标一条记录。共有21个字段,包括一个主键(listingid)、7个标的特征和13个成交当时的借款人信息,全部为成交当时可以获得的信息。2.LP.csv 数

2024-01-10 10:14:53 595

原创 linux学习笔记

Ubuntu 18.0.4修改静态ipsudo vi /etc/netplan/xxxx.ymalnetwork: ethernets: ens33: addresses: - 192.168.1.70/24 dhcp4: false gateway4: 192.168.1.1 nameservers: addresses:

2024-01-09 17:13:56 957 1

转载 squid设置密码

squid 代理配置基本认证

2022-06-25 14:52:01 1275

转载 spark job提交执行流程

standalone集群启动后worker向master注册信息,通过spark-submit提交任务时,在任务提交节点或Client启动driver,在driver创建并初始化sparkContext对象,包含DAGScheduler和TaskScheduler,TaskScheduler与Master节点通讯申请注册Application,Master节点接收到Application的注册请求后,通过资源调度算法,在自己的集群的worker上启动Executor进程;启动的Executor也会反向

2021-12-05 16:26:40 525

原创 SQL面试常问总结

结合几次面试经历,对sql考察很多,自己这方面也薄弱很多,做一个总结,然后重点练习。JOIN有时为了得到完整的结果,我们需要从两个或更多的表中获取结果。我们就需要执行 join。Person表Order表INNER JOIN == JOIN列出所有人的定购INNER JOIN 关键字在表中存在至少一个匹配时返回行。如果 “Persons” 中的行在 “Orders” 中没有匹配,就不会列出这些行。SELECT Persons.LastName, Persons.FirstName, Or

2021-12-01 15:23:04 1367

原创 大数据开发面试知识点总结

hadoop job执行流程input split map (combine sort)dataInput–>split–>Mapper–>Combine–>(产出临时数据–>Partition–>Sort–>Reducer–>最终数据。spark和hadoop区别spark跟mapreducespark基于内存,mapreducehive外部表和内部表区别外部表是hdfs文件的映射不储存数据,删除外部表数据部分不会删除,内部表储存数据,删除内

2021-11-30 22:49:01 181

原创 spark将数据加载到hbase--bulkload方式

通过bulkload方式加载数据优点:与put方式相比1.导入过程不占用Region资源2.能快速导入海量的数据3.节省内存应该是业界将数据载入hbase常用方式之一,因此有必要学习掌握实现步骤步骤一 读取数据生成rdd读入数据是面向行的表,一行有多个字段,需要转换成面向列的数据,构造keyValue对象,一定要注意key们要排序,比如user:age列要在user:gender列之前需要设计行键保证行键唯一和避免数据都涌入一个region,如我的是按时间设计的,好几个月的数据,因此将数据

2021-11-22 21:30:25 2035

原创 本地IDEA、spark程序远程读取hive数据

描述问题数据在linux系统服务器上,在自己windows上用IDEA编写spark程序,需要远程访问hive数据。先说成功步骤,再说配置过程出现的的问题和解决办法步骤1 下载winutilsgithub-winutils各个版本集合下载里面和自己服务器版本对应的,配置HADOOP_HOME将下载的文件添加到系统环境变量,配置完最好重启系统。2 添加hive-site.xml文件下载服务器端的hive-site.xml文件配置添加到src/main/resources目录下hi

2021-11-21 12:08:01 3649

原创 spark on yarn配置

在安装好spark后修改spark-env.sh 若没有 将模板文件改名为此名称在spark安装目录下的conf找到spark-env.sh添加HADOOP_HOME和HADOOP_CONF_DIR让其加载yarn-site.xml文件配置修改spark-defaults.conf同在conf文件夹下找到spark-defaults.conf.template文件改名spark-defaults.conf添加如下然后将spark安装目录下的jars中的文件 put到hdfs上图所指

2021-11-19 21:26:02 1730

转载 什么是结构化数据?非结构化数据?半结构化数据?

结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。如mysql数据库中的数据、csv文件非结构化数据非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。非结构化数据一般指大家文字型数据,但是数据中有很多诸如时间,数字等的信息。相对于传统的在数据库中或者标记好的文件,由于他们的非特征性和歧义性,会更难理解。包括所有格式的办公文档、文本、图片、XML、HTM

2021-11-19 14:51:15 26268 2

原创 大数据集群一些启动脚本-shell---会更新

批量启动zookeeper#!/bin/bash# hostserver array iparray=(ha001 ha002 ha003)#zookeeper install path#path="/export/servers/zookeeper-3.6.2/bin"# get parameters start | status | stopcase $@ in start)#---------start-zookeeper----------- for ip in ${ipa

2021-11-18 21:30:48 837

原创 hive学习笔记

安装配置安装hive下载hive解压重命名添加环境变量Vi /etc/proflie使环境变量生效Source /etc/profile修改配置文件cp hive-env.sh.template hive-env.shHive Metastore配置将自带的derby数据库替换为mysql数据库参考文章https://my.oschina.net/u/4292373/blog/3497563登录mysql创建新用户授权刷新权限新增hive-site.xml文件

2021-11-13 22:24:07 3552

原创 基于新浪微博的⽇志数据分析

[{"beCommentWeiboId":"","beForwardWeiboId":"","catchTime":"1387159495","co mmentCount":"1419","content":"分享图片","createTime":"1386981067","info1":"","info2":"","info3":"","mlevel":"" ,"musicurl":[],"pic_list": ["http://ww3.sinaimg.cn/thumbnail/40d61044jw1e

2021-11-11 23:22:20 1104 1

原创 随机森林算法的Python实现

环境 python3.8数据集 鸢尾花数据集 def dataset(self): iris = load_iris() feature = pd.DataFrame(data=iris.data, columns=iris.feature_names) target = pd.DataFrame(data=map(lambda item: iris.target_names[item],

2021-11-05 20:43:38 2539 1

原创 hadoop学习记录

Hadoop学习虚拟机安装linux网络配置SSH服务配置 免密登录防火墙配置Jdk安装配置环境变量Hadoop安装和集群配置配置环境变量主节点配置将主节点内容分发到子节点zookeeper安装并配置配置环境变量 17配置zoo.cfg添加myid文件Hadoop集群测试启动各个节点的zookeeper服务启动集群监控namenode的管理日志journalNode在node-01上格式化namenode,并分发到node-02在node-01上格式化ZKFC在no

2021-09-20 14:19:17 338

原创 spark作业--实时分析springboot日志

在云服务器上做的,由于白嫖的云服务器性能比较差,就设计了如下架构。功能与设计(大数据集群+架构设计+功能分析与设计)总体架构图功能:订单成交量统计分析历史成交总金额热门分类的实时和离线统计分析热门商品的实时和离线统计分析活跃用户统计分析项目实现SpringBoot tmall商城部署在服务器git拉取tmall springboot项目到本地,配置mysql,创建对应数据库,运行sql文件,复制数据库,运行springboot项目,生成日志文件到/root/log/info/下f

2021-06-13 19:08:23 1386 3

原创 学习笔记--HIVE网站日志统计分析

1.概述本次实践的目的是结合之前所学flume和hadoop两个主要技术,完成一个小案例。1.1.日志收集以及上传HDFS配置两台产生日志的服务器作为数据源,第三台服务器做收集汇总,三台服务器共同组成hadoop集群储存日志  使用flume进行数据处理;1.2.数据清洗使用MapReduce对HDFS中的原始数据进行清洗,以便后续进行统计分析;1.3.统计分析使用Hive对清洗后的数据进行统计分析;1.4.分析结果导入MySQL使用Sqoop把Hive产生的统计结果导出到mysql中;

2021-04-26 22:12:06 1215

原创 东方财富股吧标题爬取分析

共45个贴吧,日期从2018-03-01至2021-03-01共36个月的股吧帖子,爬取股吧名称、阅读、评论、标题、作者和发帖时间,并分析总体情绪亮点回顾时间问题获取的时间未加年份,解决方法,观察发现发帖日期月份逐级递减,按获取顺序下一个时间月份在同一年内小于等于上一个月份,设一个全局变量m储存月份,因为当前为3月份,将其初始值设为12,与获取的最新月份new_m比较,若new_m>m,使当前年份减一,数据去重问题有时候爬取会因各自问题中断,当你再次续爬时数据会重复,于是我加了一个用于.

2021-03-26 01:46:21 3124 6

原创 练习一个从数据采集分析到展示的过程

暂且称为一个项目吧寒假期间写的一个初衷是关于舆论监测的project先上效果图首页数据总览趋势观察词云展示lda话题分析简单分为三部分:数据采集、数据分析、数据展示信息来源都是面向公众的媒体平台,像微博、贴吧、知乎、微信这些,主要搜集关于某个主题文本信息。爬下来的信息做了些初步的统计信息,和一些简单分析如上图。剖析项目结构第一部分 数据采集(就是爬虫)用python写的爬虫爬虫结构用到的库各平台的反扒很多文章都有方法介绍,我是各个击破,综合到一起来着。downl

2021-03-14 15:50:52 1178

原创 termux之jupyter安装libzmq安装失败

按网上的教程安装出现了问题,如图一个模块pyzmq安装出错了接着找了很多解决方案,是pip install 单独安装pyzmq是让apt install libcrypt-dev都不行看了官方文档,https://github.com/zeromq/pyzmq建议是apt 或yum单独安装libzmqtermux环境就执行 apt-get install libzmq 就行不要加-dev然后再执行一次 pip install jupyter 的时候pyzmq会尝试将

2021-01-22 02:05:20 1513 1

原创 记一次杀毒工作--kdevtmpfsi挖矿病毒

起因:redis配置不安全导致参考文章:https://help.aliyun.com/knowledge_detail/37447.html?spm=a2c4g.11186631.2.2.828c1848kuRv6p1.漏洞描述Redis 因配置不当存在未授权访问漏洞,可以被攻击者恶意利用。在特定条件下,如果 Redis 以 root 身份运行,黑客可以给 root 账号写入 SSH 公钥文件,直接通过 SSH 登录受害服务器,从而获取服务器权限和数据。一旦入侵成功,攻击者可直接添加账号用于 S

2020-12-28 04:57:50 570

转载 centos7默认mariadb与mysql官网下载安装问题解决

1、mysql官网下载安装包,官网地址:www.mysql.com[root@seiang software]# lltotal 580020-rw-r–r--. 1 root root 593940480 Mar 25 18:57 mysql-5.7.21-1.el7.x86_64.rpm-bundle.tar2、解压[root@seiang software]# tar xvf mysql-5.7.21-1.el7.x86_64.rpm-bundle.tarmysql-community-e

2020-07-08 15:48:30 1326

原创 记一次centos7.6 rpm包安装mysql的坑

官网下包点击直达网址rpm命令安装时 报错warning: mysql-community-libs-8.0.20-1.el7.aarch64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEY如下图查了一下 原因说是:从 RPM 版本 4.1 开始,在安装或升级软件包时会检查软件包的签名,报错是由于yum安装了旧版本的GPG keys造成的解决办法:在安装命令后加上 –force --nodeps如 :rpm

2020-07-04 22:43:05 749

原创 个人小破网站从无到有的过程python-flask-mysql

先看下效果,UI有些简陋,内容有些low,不过网站是从无到有了,功能目的会以后学习再修改!开发我就不介绍了,我也是才开始学flask建站的,就简单记录下过程。域名解析就是将域名指向服务器IP,我是在阿里云买的服务器,万网买的域名。在阿里云控制台直接可操作。登录域名控制台,找到购买域名解析。这个是我的,已经不是第一次解析了,第一次解析底下没有记录,不过不影响,添加记录。把搭建好网站的...

2020-05-08 18:29:02 5022 10

原创 python-flask公众号开发-对语音消息、图片消息实现翻译-使用百度翻译API、腾讯图片翻译API

服务器申请和端口配置第一步申请服务器 图一这里我选择的是阿里的服务器,如果后面需用到申请域名方便申请证书其他也方便管理,学生机也很便宜,三个月不到30块钱!选择安装系统(小白我选windows,跟用自己电脑差不多)我选择的是windows方便远程桌面连接,如图2拍下自己的服务器后,到控制台,查看一下自己的实例(即服务器)如图3,我的服务器是华北二区北京的,系统是Windows201...

2020-04-24 01:53:01 1142

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除