陈尘辰-CSDN博客

原创解决root用户对HDFS文件系统没有权限的问题

HDFS文件系统的目录基本都属于 supergroup 超级用户组，所以就把用户添加到该用户组，即可解决很多权限问题。在Linux执行如下命令增加 supergroup 用户组groupadd supergroup如将用户root增加到supergroup用户组中usermod -a -G supergroup root同步系统的权限信息到HDFS文件系统sudo -u hdfs hdfs dfsadmin -refreshUserToGroupsMappings查看属于supe

2020-10-20 12:20:28 3037 2

原创 Alibaba Nacos配置中心初体验

官方文档：https://nacos.io/en-us/docs/use-nacos-with-kubernetes.html安装部署依赖64bit OS: Linux/Unix/Mac/Windows supported, Linux/Unix/Mac recommended. 64bit JDK 1.8+: downloads, JAVA_HOME settings. Maven 3.2.x+: downloads, settings.下载软件包下载地址 https...

2020-10-20 12:17:02 1149

原创 IP转Country和City

目录需求描述变更说明各语言使用文档GeoLite2数据库使用第一种（推荐）：下载数据库文件到本地，再定时两周更新一次数据库文件第二种：通过web service访问GeoLite2数据库需求描述需要根据ip得知该ip所在的国家和城市。变更说明2019年12月30号MaxMind公司发布声明，使用免费的GeoLite2数据库的方式发生改变。变化为Sign up for a MaxMind account (no purchase required) Set y

2020-10-20 12:04:49 465

原创 Kafka集群新增节点后数据重分配的步骤

kafka版本2.2.1新增节点的步骤将其他节点的server.properties配置文件拷贝后修改以下参数broker.idlog.dirszookeeper.connect数据迁移原理只有新增的Topic才会将数据分布在新节点上，如果要将现有数据也分配到新节点，需要将Topic中的数据迁移到新节点上。数据迁移过程是手动启动的，但是是完全自动化的。Kafka会将新节点添加为要迁移的分区的追随者，并允许其完全复制该分区中的现有数据。新节点完全复制此分区的内容并加入同步副本后

2020-10-20 11:53:45 1146 1

原创 Python python3.8与pip安装

Python是一个脚本语言，简单易学，有丰富的第三方库，可以做数据分析，机器学习，数据处理，网站开发等等下面教大家如何安装Python3.8以及如何使用pip安装第三方库（软件包）Python官方网站：https://www.python.org/下载保存，点击exe文件可以选择自定义安装，Next(下一步)到如下界面，将安装目录修改为指定目录不然会默认安装到C盘哦！点击Install安装即可！...

2020-07-29 18:57:39 14061

原创 Python 如何解决使用pip install 下载包很慢甚至超时的问题

我们经常会使用pip 来安装各种软件包，但是有时候下载速度会很慢，那是因为使用的是国外的镜像站我们将数据源改成国内的就好啦，给大家推荐几个值得拥有的国内镜像站个人推荐清华大学pypi镜像站(https://mirrors.tuna.tsinghua.edu.cn/help/pypi/)，每五分钟同步一次，资源丰富，下载速度很快清华大学：https://pypi.tuna.tsinghua.edu.cn/simple 阿里云：http://mirrors.aliyun.com/pypi/simp

2020-07-29 18:30:09 405

原创 Kafka Producer 发送大消息该如何配置以及如何提高吞吐量

kafka版本今天有个同事要往kafka发送一个单条4M大小的数据，但是报错了，说消息过大，那么看一下有哪些参数是控制单条消息大小的首先看Broker级别的配置message.max.bytes官方文档翻译：Kafka允许的最大记录批大小(如果启用压缩，则在压缩之后)。如果增加这个值，并且有超过0.10.2的使用者，那么使用者的获取大小也必须增加，以便他们能够获取这么大的记录批。在最新的消息格式版本中，为了提高效率，记录总是分组成批。在以前的消息格式版本中，未压缩的记录不会分组成批，在这种

2020-07-29 18:01:31 2278 1

原创 Python 【Litte Tips】如何优雅地跳出双层循环

今天有个内层循环出现异常时跳出外层循环的需求一般会使用一个标记来判断，但是这样看着有点low...Like thisdef lower(): flag = False for i in range(1, 10): print("i={}".format(i)) for j in range(1, 5): print("j={}".format(j)) try: pri

2020-07-28 14:52:37 187

原创 filebeat 负载均衡到多个logstash配置

logstash配置文件input { beats { port => 5044 client_inactivity_timeout => 36000 # 如果不设置，会出现Failed to publish events: write tcp 192.168.12.141:53310->192.168.12.139:5044: write: ...

2019-04-17 18:09:04 4412

原创 centos7.3中python2.7升级到python3.6问题

升级后yum无法使用，报错如下 File "/bin/yum", line 30 except KeyboardInterrupt, e: ^SyntaxError: invalid syntax File "/usr/libexec/urlgrabber-ext-down", line 28 except OSError, e...

2018-04-24 10:28:24 439

原创 centos7.3 安装elasticsearch 遇到的问题小记

问题1：无法以root用户登录解决方法：创建一个单独的用户用来运行ElasticSearchgroupadd elsearchuseradd elsearch -g elsearch -p elasticsearch更改elasticsearch文件夹及内部文件的所属用户及组为elsearch:elsearchcd /optchown -R elsearch:elsearch elasticse...

2018-04-24 10:24:49 360

转载 Spark Streaming 中使用kafka低级api+zookeeper 保存 offset 并重用以及相关代码整合

在 Spark Streaming 中消费 Kafka 数据的时候，有两种方式分别是 1）基于 Receiver-based 的 createStream 方法和 2）Direct Approach (No Receivers) 方式的 createDirectStream 方法，详细的可以参考 Spark Streaming + Kafka Integration Guide，但是第二种...

2018-04-13 11:49:22 490

转载 Spark & Kafka - Achieving zero data-loss (未翻译版)

转自github上的文章，英文不太好，日后有空再翻译Kafka and Spark Streaming are two technologies that fit well together. Both are distributed systems so as to handle heavy loads of data. Making sure you don’t lose data does ...

2018-04-13 11:43:59 183

原创位运算符异或^记忆方法

对于位运算符异或^，我记性比较差，容易记混相同为0不同为1 相同为0不同为1相同为0不同为1重要的事情说三遍........不好记忆。想到一个好办法，就是位相加，相同的就是0+0=0 或 1+1=2，二进制里面2需要向前进位，原位置为0不同的就是1+0=1 或 0+1=1...

2018-04-13 11:40:29 1551 1

转载 Spark踩坑记——Spark Streaming+Kafka

前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己在Spa...

2018-04-13 11:31:56 309

转载 Qunar 高速发展下数据库的创新与发展 - TiDB 篇

作者介绍：蒲聪，平台事业部 DBA，拥有近 6 年的 MySQL 和 HBase 数据库运维管理经验，2014 年 6 月加入去哪儿网，工作期间负责支付平台事业部的 MySQL 和 HBase 整体运维工作，从无到有建立去哪儿网 HBase 运维体系，在 MySQL 和 Hbase 数据库上有丰富的架构、调优和故障处理等经验。目前专注于分布式数据库领域的研究和实践工作，平时的兴趣爱好是运动，篮...

2018-04-13 11:23:45 158

cql252283126的博客