Jaeger1024-CSDN博客

原创大数据平台Linux基础环境配置

大数据平台Linux基础环境配置公司的大数据平台是在基于Apache开源版本自研发的，用的组件很多，包括但不限于Apache Hadoop，HBase，Hive，Spark，Kafka，Flume，Storm，Druid，ElasticSearch ，多种不同版本的组件组合在一起用于数据量庞大的生产环境，首先需要的就是在Linux基础环境上做一些必要的调整，下面就来说一说，做了哪些基础性的性能

2017-11-09 17:40:43 3517

但是，它是有一些限制的。原来，LGPL 所做的工作是，它保证了库的使用者能够有这样一种能力：修改你使用 LGPL 库函数的方式（那些封装器就是你使用 LGPL库的方式，现在已经开源了），重新编译这些代码，然后重新对程序进行连接（连接所需要的目标文件也是包含了的，这是第四条规定的），就可以得到一个新的可执行程序。既然我们已经对其定性，那么我们直接进入主题：使用 LGPL 协议开发闭源程序，如果你使用动态链接的形式，那么，你可以以任何形式（商业的、非商业的、开源的、非开源的等等）发布你的应用程序。

2024-04-21 21:24:25 11

原创【云原生】如何在Windows的WSL中挂载U盘

其中，是你想要挂载到的目录名（可以自定义），是你在第三步中选择的盘符，注意要把盘符后面的冒号也加上。需要注意的是，在WSL中访问Windows文件系统时，文件的权限控制可能会有所不同，因此你可能需要在WSL中使用sudo命令以管理员权限访问文件。在WSL中使用U盘，需要先将U盘挂载到Windows系统中，然后在WSL中访问Windows文件系统。现在，你可以在WSL中通过/mnt/访问U盘中的文件了。如果你有多个WSL 示例。

2023-03-15 15:54:17 1977

原创【云原生】解决在Windows上在docker内启动docker报Operation not permitted

然后我们进入到该容器内，用 docker-compose 命令启动所有其他容器。现在我们用一个命令先启动 all-in-one 容器，该容器挂载了。docker-compose.yml 部分配置如下。容器，在容器内将项目所有其他容器启动。postgresql 也有类似的报错。位于all-in-one容器内。例如启动redis 的报错。这样挂载后，就都可以起来了。

2023-03-10 11:01:48 3223 1

原创【云原生】Docker设置国内镜像源

经常遇到docker pull image 下载很慢或者直接下载失败的情况。这时可以尝试添加国内镜像源来加速。看到如下输出就代表修改成功。

2023-03-02 13:49:21 586

原创【Go】解决字符集编码问题

解决一个字符集乱码问题

2022-11-16 21:23:47 570 1

转载【大数据】HBase常见问题及解决方案总结(一)

hbase常见问题及解决方案总结

2022-01-24 16:46:30 3813

原创【Golang】项目接入 sentry 错误日志追踪

背景Golang 1.16Gin 1.7.4Sentry-go 0.12由于项目需要，准备将项目的报错信息接入sentry，以方便错误追踪，排查问题，以及后续跟进。Sentry简介Sentry接入Sentry使用参考资料

2022-01-24 16:09:29 1511

原创【云原生】docker中连接挂载usb存储

docker中连接挂载usb设备

2022-01-24 11:16:55 5965

原创【大数据】Namenode HA 宕机处理

怎么样尽快处理恢复

2022-01-24 10:56:52 2567

原创 localhost与127.0.0.1的区别是什么

localhost与127.0.0.1的区别是什么？相信有人会说是本地ip，曾有人说，用127.0.0.1比localhost好，可以减少一次解析。看来这个入门问题还有人不清楚，其实这两者是有区别的。1、localhost也叫local ，正确的解释是:本地服务器127.0.0.1在windows等系统的正确解释是:本机地址(本机服务器)他们的解析通过本机的host文件，windo...

2018-06-11 11:40:31 8505 1

转载 tps和qps的区别

一、TPS：Transactions Per Second（每秒传输的事物处理个数），即服务器每秒处理的事务数。TPS包括一条消息入和一条消息出，加上一次用户数据库访问。（业务TPS = CAPS × 每个呼叫平均TPS）TPS是软件测试结果的测量单位。一个事务是指一个客户机向服务器发送请求然后服务器做出反应的过程。客户机在发送请求时开始计时，收到服务器响应后结束计时，以此来计算使用的时间和完...

2018-05-04 15:28:54 253

原创【大数据】Apache Hadoop进行版本升级的操作

3月份，公司最大的集群要从Hadoop2.4升级到Hadoop2.8 ，是一个大版本跨度的升级操作，所以前期对Hadoop2.8版本进行了很多功能和性能方面的验证和测试。同时也拟定了几个升级和回滚方案。由于集群的离线任务一般在夜间，所以夜间的HDFS压力很大，RPC延迟很高，导致集群性能下降，最终升级是在这种集群快要支撑不住的情况下进行的。当然，升级过程还算比较平稳，没有出现什么惊心动魄的事情。我...

2018-04-30 11:38:13 9787 1

原创统一认证管理系统（单点登录系统）sso 浅谈

我所在的公司比较大，内部的各种管理系统和业务系统比较多，然而所有的系统都可以用公司的OA的员工工号和密码直接进行登录（当然登录界面都是一个就是内部OA门户）。从进入公司以来我就一直有个问题，这是怎么做到的？毕竟假如每个系统一套数据库，那么所有的系统都得同步OA系统的员工账户表，这是比较繁琐的工程，也容易出错，比如人员的入职离职等等。后来请教了一下某个老员工，才知道单点登录这样的好...

2018-04-30 10:16:46 12528

原创 python系统监控常用第三方模块之psutil

最近在github上发现一个DevOps的开源项目叫 Adminset ，是基于Django框架开发的一个自动化运维管理平台。其中用到了一个名为psutil的模块。上网找了一些资料看了一下。下面就整理一下该模块的一些用法，比较简单：首先安装该模块，可以用pip直接安装pip install psutil如果有yum源的话，也可以用yum安装。因为我公司机器无法连接外网，所以我选择的是用公司的yum...

2018-04-30 10:11:39 3262

翻译【大数据】spark 提交任务

提交任务时常用的选项如下：--class: 程序入口，主类--master: 集群主节点（master）地址(e.g.spark://23.195.26.187:7077)--deploy-mode: 部署方式，在worker上(cluster) 或者是在客户端上 (client) (default:client)†--conf: 配置选项application-jar: 程序以及依赖的...

2018-04-19 11:23:23 785

原创【大数据】查找并优化参数设置不合理，导致产生大量小文件的Hive任务

背景公司的数据开发平台上提交了数万个定时任务，有Mapreduce，也有Spark，mapreduce业务大多是基于Hive的定时任务。（我们公司没有用oozie，数据开发平台集成了oozie的任务流功能。）定时任务是由业务方自己提交，并且自己设置相关参数的。所有经常会出现参数设置不合理，导致map数和reduce数都非常大，过程中产生大量小文件，影响了HDFS的性能。所以前段时间安排了针...

2018-02-24 20:40:47 779

转载使用dnsmasq快速搭建内网DNS

背景介绍公司有一批测试服务器，之间希望通过自定义的域名进行访问，这样比较方便，但每个人每台机器都维护一个hosts的话会非常麻烦，于是想搭建一个内部的DNS服务器，对自定义的域名进行解析，同时缓存公网的域名。首先，向导的DNS服务器肯定是bind9，但所谓杀鸡焉用牛刀，并且bind9的配置和后期维护都是比较麻烦的，而内网这种测试环境又经常需要更新配置。于是，我们采用了dnsmasq，它简直太简单了...

2018-02-24 20:12:58 6242

转载 hadoop2.0的datanode多目录数据副本存放策略

在hadoop2.0中，datanode数据副本存放磁盘选择策略有两种方式：第一种是沿用hadoop1.0的磁盘目录轮询方式，实现类：RoundRobinVolumeChoosingPolicy.java第二种是选择可用空间足够多的磁盘方式存储，实现类：AvailableSpaceVolumeChoosingPolicy.java选择策略对应的配置项是：[plain] view plain cop...

2018-02-24 08:56:56 584

原创 Hadoop 环境配置文件hadoop-env.sh 详解

有时间稍微看了一下JAVA虚拟机的相关知识，稍微整理了一下生产环境中的hadoop-env配置。不怎么专业，将就看一下吧。以后有时间再把JAVA虚拟机的知识整理一下。环境参数参数设置参数说明备注HADOOP_OPTS-Djava.net.preferIPv4Stack=true优先使用IPV4，禁用IPV6 HADOOP_NAMENODE_OPTSXms140G初始堆内存大小 Xmx140G最大...

2018-02-23 20:24:25 26865 3

转载【Java学习】关于JAVA 的OOM

最近查找了很多关于OOM，甚至于Java内存管理以及JVM的相关资料，发现这方面的东西太多了，竟有一种眼花缭乱的感觉，要想了解全面的话，恐非一篇文章能说清的，因此按照自己的理解整理了一篇，剩下的还需要继续学习。1.什么是OOM？OOM，全称“Out Of Memory”，翻译成中文就是“内存用完了”，来源于java.lang.OutOfMemoryError。看下关于的官方说明： Thrown w

2017-12-28 21:45:49 157

转载【Hbase学习】Hbase和Hive的区别

hbase 的特点是什么(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储，zookeeper进行管理。 (2) Hbase适合存储半结构化或非结构化数据，对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 (3) Hbase为null的记录不会被存储. (4)基于的表包含rowkey，时间戳，和列族。新写入数据时，时间戳更新，同时可以查询到以前的

2017-12-28 21:40:24 384

翻译【Hbase学习】snapshot 简介

一.简介Hbase snapshot功能让你对表进行快照而不对 regionserver 产生太多影。快照，克隆和恢复操作不涉及数据拷贝。而且，将快照导出到其他集群也不会对regionserver有影响。0.94之前的版本，备份或克隆的唯一方法就是利用 Copytable/ExportTable ，或在禁用表后复制HDFS中的所有hfiles。这些方法的缺点是你会降低regionserver的性

2017-12-28 14:35:15 1284

转载【Hbase学习】regionserver分裂策略

regionserver分裂策略默认的是： org.apache.hadoop.hbase.regionserver.SteppingSplitPolicy其他常用的还有 BusyRegionSplitPolicyConstantSizeRegionSplitPolicy, 公司用的按固定长度分割region，固定长度取值优先获取table的“MAX_FILESIZE” 值，若没有设定该属

2017-12-28 09:47:47 1207

原创 Grafana连接 ntop 数据源

最近公司在推进运维大数据平台的建设，其中前期有一个服务器流量分析的需求。这个服务器流量分析，并不是像 zabbix 这类监控软件可以完成的，虽然我们也在用 zabbix 作为一个基础的监控告警平台，但是这个流量分析需求比较细，需求方想知道：哪台物理机的流量在何时出现高峰（zabbix能做）这台物理机的流量是由哪台虚拟机产生的（zabbix能做）这台虚拟机隶属于哪个业务系统这台虚拟机上哪个程序导

2017-12-26 20:19:50 4173 1

转载 Git 常用命令大全

Git 是一个很强大的分布式版本控制系统。它不但适用于管理大型开源软件的源代码，管理私人的文档和源代码也有很多优势。Git常用操作命令：1) 远程仓库相关命令检出仓库：$ git clone git://github.com/jquery/jquery.git查看远程仓库：$ git remote -v添加远程仓库：$ git remote add [name] [url]删除远程仓库：$ git

2017-12-26 09:40:36 202

原创生产环境下的大数据组件版本升级

生产环境下的组件，版本升级有什么需要注意的地方？公司所用的大数据平台是基于原生Hadoop，并且在这之上做了些微调和二次开发。所以在这里写版本号其实意义不太大。但我还是记录一下： Hadoop 2.4.0.xHbase 0.98.xZookeeper 3.4.6.xHive 0.13.xFlume 1.6.0.xKafka 未知Phoenix 未知Spark

2017-09-04 09:21:08 1040

原创开始写博客

这是我的第一篇博客，这些年也从网络博客中学习了不少，实际也解决了很多问题。想想自己也该对知识做一个梳理和记录，同时也用自己有限的能力回报给那些辛勤写博客的前辈们。

2017-08-20 16:06:51 178

蚂蚁金服大数据分析产品的架构演进

蚂蚁金服大数据分析产品的架构演进大数据技术架构分享 DeepInsight

2018-04-30

Apache Hadoop 最新进展（阿里云）

云栖大会上阿里云大数据团队解析关于Hadoop未来的趋势

2018-04-30

FusionInsight华为大数据认证教材

华为的认证教材！！！华为FusionInsight大数据平台，能够帮助企业快速构建海量数据信息处理系统，通过对企业内部和外部的巨量信息数据实时与非实时的分析挖掘，发现全新价值点和企业商机。FusionInsight是完全开放的大数据平台，可运行在开放的x86架构服务器上，它以海量数据处理引擎和实时数据处理引擎为核心，并针对金融、运营商等数据密集型行业的运行维护、应用开发等需求，打造了敏捷、智慧、可信的平台软件、建模中间件及OM系统，让企业可以更快、更准、更稳地从各类繁杂无序的海量数据中发现价值。

2018-04-25

Openwhisk第一讲微服务

IBM的微服务课程第一讲：Apache OpenWhisk是一个开源FaaS平台。现在，AWS Lambda是FaaS最流行的实现。在开源组件的选择中，OpenWhisk是最好的选择。OpenWhisk是一个健壮的、可扩展的平台，支持数千并发触发器和调用。这篇文章将探索OpenWhisk设计和架构，识别各种组件及其作用，可以帮助我们更好的了解分布式系统和serverless平台。

2018-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

zxln007的博客

原创大数据平台Linux基础环境配置

转载【开源】LGPL许可证详解，以Qt为例

原创【云原生】如何在Windows的WSL中挂载U盘

原创【云原生】解决在Windows上在docker内启动docker报Operation not permitted

原创【云原生】Docker设置国内镜像源

原创【Go】解决字符集编码问题

转载【大数据】HBase常见问题及解决方案总结(一)

原创【Golang】项目接入 sentry 错误日志追踪

原创【云原生】docker中连接挂载usb存储

原创【大数据】Namenode HA 宕机处理

原创 localhost与127.0.0.1的区别是什么

转载 tps和qps的区别

原创【大数据】Apache Hadoop进行版本升级的操作

原创统一认证管理系统（单点登录系统）sso 浅谈

原创 python系统监控常用第三方模块之psutil

翻译【大数据】spark 提交任务

原创【大数据】查找并优化参数设置不合理，导致产生大量小文件的Hive任务

转载使用dnsmasq快速搭建内网DNS

转载 hadoop2.0的datanode多目录数据副本存放策略

原创 Hadoop 环境配置文件hadoop-env.sh 详解

转载【Java学习】关于JAVA 的OOM

转载【Hbase学习】Hbase和Hive的区别

翻译【Hbase学习】snapshot 简介

转载【Hbase学习】regionserver分裂策略

原创 Grafana连接 ntop 数据源

转载 Git 常用命令大全

原创生产环境下的大数据组件版本升级

原创开始写博客

蚂蚁金服大数据分析产品的架构演进

Apache Hadoop 最新进展（阿里云）

FusionInsight华为大数据认证教材

Openwhisk第一讲微服务

空空如也

蚂蚁金服大数据分析产品的架构演进

Apache Hadoop 最新进展（阿里云）

FusionInsight华为大数据认证教材

Openwhisk第一讲 微服务

空空如也

Openwhisk第一讲微服务