hust_mse-CSDN博客

原创 Spark streaming + kafka 运行时报 Too many open files错误的解决方法

什么改limits.conf这些方法我都试过，不管用，错误照常出现，需要修改的是kafka的一个参数叫做num.replica.fetchers，默认为1，改为2或者3就可以了。

2017-07-12 15:12:51 2132 1

原创 spark streaming统计kafka数据计数不准的问题

我的spark应用需要统计每秒钟kafka发送过来的条数，一开始用的是zk方式，使用reduceByKey来实现，然后把数据丢到redis中保存，最后再统计一个小时内，总共收到的数量。后来改用直连模式实现，即createDirectStream实现，但后来在对数据的时候发现数据不准，即一个小时内收到的总数和kafka一小时内发送的总数对不上，但之前在zk模式下是没有问题的呀！所以我想这应该是集群的问

2017-06-13 10:52:56 608

原创给redis设置一个整数kv对(int)

我想给redis设置一个int型的kv对，但它只有set(string,string)的方法，我不符合我的要求，因为我还需要用到它的incr方法，找了半天结果如下jr.set("PointToClock".getBytes, "0".getBytes)然后再用incr方法就没问题了jr.incr("PointToClock");

2017-03-27 10:01:04 1738

原创 python解析hbase访问结果(TRowResult)的方式

首先拿到idid = client.scannerOpenWithScan(tableName, TScan(), None)如果是拿多行数据//拿30行数据result = self.client.scannerGetList(id, 30)如果是拿单行数据result = self.client.scannerGet(id)这两种方式都会返回一个TRowResult的对象结果集，大概是这个样子

2017-03-03 15:14:04 2440

原创 centos7下python连接 hive2

参考的基础是官方文档： https://cwiki.apache.org/confluence/display/Hive/Setting+up+HiveServer2#SettingUpHiveServer2-WebUIforHiveServer2 我的环境：python2.7hive2.3.4centos7 64 根据官网，首先要安装pyh2>pip install pyhs2装到一

2017-03-01 17:52:57 919

原创在windows7上，使用python通过thrift访问hbase

先说一下我的环境: - pycharm 2016.3.2 - python 2.7 64位 - thrift-0.10.0 (http://thrift.apache.org/) - hbase-1.1.2-src.tar.gz (http://archive.apache.org/dist/hbase/) - windows 7 旗舰版 - centos 7 64位所需

2017-02-28 18:17:00 2427

原创 Centos7下Flask+uwsgi+Nginx部署实践

先介绍一下我的环境：uwsgi-2.0.14nginx-1.11.9Flask-0.12

2017-02-27 12:59:20 646

[email protected]