一加六-CSDN博客

原创拍拍贷数据分析-逾期情况分析

数据背景所提供数据来自拍拍贷真实业务数据，从2015-01-01到2017-01-30的所有信用标的10%sample样本。数据集包含LC.csv（标的特征表数据）和LP.csv（标的还款计划和还款记录表）数据。详情如下：数据字典1.LC.csv 数据大小：50.7MBLC (Loan Characteristics) 表为标的特征表，每支标一条记录。共有21个字段，包括一个主键（listingid）、7个标的特征和13个成交当时的借款人信息，全部为成交当时可以获得的信息。2.LP.csv 数

2024-01-10 10:14:53 595

原创 linux学习笔记

Ubuntu 18.0.4修改静态ipsudo vi /etc/netplan/xxxx.ymalnetwork: ethernets: ens33: addresses: - 192.168.1.70/24 dhcp4: false gateway4: 192.168.1.1 nameservers: addresses:

2024-01-09 17:13:56 957 1

转载 squid设置密码

squid 代理配置基本认证

2022-06-25 14:52:01 1275

转载 spark job提交执行流程

standalone集群启动后worker向master注册信息，通过spark-submit提交任务时，在任务提交节点或Client启动driver，在driver创建并初始化sparkContext对象，包含DAGScheduler和TaskScheduler，TaskScheduler与Master节点通讯申请注册Application，Master节点接收到Application的注册请求后，通过资源调度算法，在自己的集群的worker上启动Executor进程；启动的Executor也会反向

2021-12-05 16:26:40 525

原创 SQL面试常问总结

结合几次面试经历，对sql考察很多，自己这方面也薄弱很多，做一个总结，然后重点练习。JOIN有时为了得到完整的结果，我们需要从两个或更多的表中获取结果。我们就需要执行 join。Person表Order表INNER JOIN == JOIN列出所有人的定购INNER JOIN 关键字在表中存在至少一个匹配时返回行。如果 “Persons” 中的行在 “Orders” 中没有匹配，就不会列出这些行。SELECT Persons.LastName, Persons.FirstName, Or

2021-12-01 15:23:04 1367

原创大数据开发面试知识点总结

hadoop job执行流程input split map （combine sort）dataInput–>split–>Mapper–>Combine–>(产出临时数据–>Partition–>Sort–>Reducer–>最终数据。spark和hadoop区别spark跟mapreducespark基于内存，mapreducehive外部表和内部表区别外部表是hdfs文件的映射不储存数据，删除外部表数据部分不会删除，内部表储存数据，删除内

2021-11-30 22:49:01 181

原创 spark将数据加载到hbase--bulkload方式

通过bulkload方式加载数据优点：与put方式相比1.导入过程不占用Region资源2.能快速导入海量的数据3.节省内存应该是业界将数据载入hbase常用方式之一，因此有必要学习掌握实现步骤步骤一读取数据生成rdd读入数据是面向行的表，一行有多个字段，需要转换成面向列的数据，构造keyValue对象，一定要注意key们要排序，比如user:age列要在user:gender列之前需要设计行键保证行键唯一和避免数据都涌入一个region，如我的是按时间设计的，好几个月的数据，因此将数据

2021-11-22 21:30:25 2035

原创本地IDEA、spark程序远程读取hive数据

描述问题数据在linux系统服务器上，在自己windows上用IDEA编写spark程序，需要远程访问hive数据。先说成功步骤，再说配置过程出现的的问题和解决办法步骤1 下载winutilsgithub-winutils各个版本集合下载里面和自己服务器版本对应的，配置HADOOP_HOME将下载的文件添加到系统环境变量，配置完最好重启系统。2 添加hive-site.xml文件下载服务器端的hive-site.xml文件配置添加到src/main/resources目录下hi

2021-11-21 12:08:01 3649

原创 spark on yarn配置

在安装好spark后修改spark-env.sh 若没有将模板文件改名为此名称在spark安装目录下的conf找到spark-env.sh添加HADOOP_HOME和HADOOP_CONF_DIR让其加载yarn-site.xml文件配置修改spark-defaults.conf同在conf文件夹下找到spark-defaults.conf.template文件改名spark-defaults.conf添加如下然后将spark安装目录下的jars中的文件 put到hdfs上图所指

2021-11-19 21:26:02 1730

转载什么是结构化数据？非结构化数据？半结构化数据？

结构化数据结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。如mysql数据库中的数据、csv文件非结构化数据非结构化数据是指信息没有一个预先定义好的数据模型或者没有以一个预先定义的方式来组织。非结构化数据一般指大家文字型数据，但是数据中有很多诸如时间，数字等的信息。相对于传统的在数据库中或者标记好的文件，由于他们的非特征性和歧义性，会更难理解。包括所有格式的办公文档、文本、图片、XML、HTM

2021-11-19 14:51:15 26268 2

原创大数据集群一些启动脚本-shell---会更新

批量启动zookeeper#!/bin/bash# hostserver array iparray=(ha001 ha002 ha003)#zookeeper install path#path="/export/servers/zookeeper-3.6.2/bin"# get parameters start | status | stopcase $@ in start)#---------start-zookeeper----------- for ip in ${ipa

2021-11-18 21:30:48 837

原创 hive学习笔记

安装配置安装hive下载hive解压重命名添加环境变量Vi /etc/proflie使环境变量生效Source /etc/profile修改配置文件cp hive-env.sh.template hive-env.shHive Metastore配置将自带的derby数据库替换为mysql数据库参考文章https://my.oschina.net/u/4292373/blog/3497563登录mysql创建新用户授权刷新权限新增hive-site.xml文件

2021-11-13 22:24:07 3552

原创基于新浪微博的⽇志数据分析

[{"beCommentWeiboId":"","beForwardWeiboId":"","catchTime":"1387159495","co mmentCount":"1419","content":"分享图片","createTime":"1386981067","info1":"","info2":"","info3":"","mlevel":"" ,"musicurl":[],"pic_list": ["http://ww3.sinaimg.cn/thumbnail/40d61044jw1e

2021-11-11 23:22:20 1104 1

原创随机森林算法的Python实现

环境 python3.8数据集鸢尾花数据集 def dataset(self): iris = load_iris() feature = pd.DataFrame(data=iris.data, columns=iris.feature_names) target = pd.DataFrame(data=map(lambda item: iris.target_names[item],

2021-11-05 20:43:38 2539 1

原创 hadoop学习记录

Hadoop学习虚拟机安装linux网络配置SSH服务配置免密登录防火墙配置Jdk安装配置环境变量Hadoop安装和集群配置配置环境变量主节点配置将主节点内容分发到子节点zookeeper安装并配置配置环境变量 17配置zoo.cfg添加myid文件Hadoop集群测试启动各个节点的zookeeper服务启动集群监控namenode的管理日志journalNode在node-01上格式化namenode，并分发到node-02在node-01上格式化ZKFC在no

2021-09-20 14:19:17 338

原创 spark作业--实时分析springboot日志

在云服务器上做的，由于白嫖的云服务器性能比较差，就设计了如下架构。功能与设计(大数据集群+架构设计+功能分析与设计)总体架构图功能：订单成交量统计分析历史成交总金额热门分类的实时和离线统计分析热门商品的实时和离线统计分析活跃用户统计分析项目实现SpringBoot tmall商城部署在服务器git拉取tmall springboot项目到本地，配置mysql，创建对应数据库，运行sql文件，复制数据库，运行springboot项目，生成日志文件到/root/log/info/下f

2021-06-13 19:08:23 1386 3

原创学习笔记--HIVE网站日志统计分析

1.概述本次实践的目的是结合之前所学flume和hadoop两个主要技术，完成一个小案例。1.1.日志收集以及上传HDFS配置两台产生日志的服务器作为数据源，第三台服务器做收集汇总，三台服务器共同组成hadoop集群储存日志　　使用flume进行数据处理；1.2.数据清洗使用MapReduce对HDFS中的原始数据进行清洗，以便后续进行统计分析；1.3.统计分析使用Hive对清洗后的数据进行统计分析；1.4.分析结果导入MySQL使用Sqoop把Hive产生的统计结果导出到mysql中；

2021-04-26 22:12:06 1215

原创东方财富股吧标题爬取分析

共45个贴吧，日期从2018-03-01至2021-03-01共36个月的股吧帖子，爬取股吧名称、阅读、评论、标题、作者和发帖时间，并分析总体情绪亮点回顾时间问题获取的时间未加年份，解决方法，观察发现发帖日期月份逐级递减，按获取顺序下一个时间月份在同一年内小于等于上一个月份，设一个全局变量m储存月份，因为当前为3月份，将其初始值设为12，与获取的最新月份new_m比较，若new_m>m，使当前年份减一，数据去重问题有时候爬取会因各自问题中断，当你再次续爬时数据会重复，于是我加了一个用于.

2021-03-26 01:46:21 3124 6

原创练习一个从数据采集分析到展示的过程

暂且称为一个项目吧寒假期间写的一个初衷是关于舆论监测的project先上效果图首页数据总览趋势观察词云展示lda话题分析简单分为三部分：数据采集、数据分析、数据展示信息来源都是面向公众的媒体平台，像微博、贴吧、知乎、微信这些，主要搜集关于某个主题文本信息。爬下来的信息做了些初步的统计信息，和一些简单分析如上图。剖析项目结构第一部分数据采集（就是爬虫）用python写的爬虫爬虫结构用到的库各平台的反扒很多文章都有方法介绍，我是各个击破，综合到一起来着。downl

2021-03-14 15:50:52 1178

原创 termux之jupyter安装libzmq安装失败

按网上的教程安装出现了问题，如图一个模块pyzmq安装出错了接着找了很多解决方案，是pip install 单独安装pyzmq是让apt install libcrypt-dev都不行看了官方文档，https://github.com/zeromq/pyzmq建议是apt 或yum单独安装libzmqtermux环境就执行 apt-get install libzmq 就行不要加-dev然后再执行一次 pip install jupyter 的时候pyzmq会尝试将

2021-01-22 02:05:20 1513 1

原创记一次杀毒工作--kdevtmpfsi挖矿病毒

起因：redis配置不安全导致参考文章：https://help.aliyun.com/knowledge_detail/37447.html?spm=a2c4g.11186631.2.2.828c1848kuRv6p1.漏洞描述Redis 因配置不当存在未授权访问漏洞，可以被攻击者恶意利用。在特定条件下，如果 Redis 以 root 身份运行，黑客可以给 root 账号写入 SSH 公钥文件，直接通过 SSH 登录受害服务器，从而获取服务器权限和数据。一旦入侵成功，攻击者可直接添加账号用于 S

2020-12-28 04:57:50 570

Nickkun的博客