- 博客(7)
- 收藏
- 关注
原创 Spark streaming + kafka 运行时报 Too many open files错误的解决方法
什么改limits.conf这些方法我都试过,不管用,错误照常出现,需要修改的是kafka的一个参数叫做num.replica.fetchers,默认为1,改为2或者3就可以了。
2017-07-12 15:12:51 2132 1
原创 spark streaming统计kafka数据计数不准的问题
我的spark应用需要统计每秒钟kafka发送过来的条数,一开始用的是zk方式,使用reduceByKey来实现,然后把数据丢到redis中保存,最后再统计一个小时内,总共收到的数量。后来改用直连模式实现,即createDirectStream实现,但后来在对数据的时候发现数据不准,即一个小时内收到的总数和kafka一小时内发送的总数对不上,但之前在zk模式下是没有问题的呀!所以我想这应该是集群的问
2017-06-13 10:52:56 608
原创 给redis设置一个整数kv对(int)
我想给redis设置一个int型的kv对,但它只有set(string,string)的方法,我不符合我的要求,因为我还需要用到它的incr方法,找了半天结果如下jr.set("PointToClock".getBytes, "0".getBytes)然后再用incr方法就没问题了jr.incr("PointToClock");
2017-03-27 10:01:04 1738
原创 python解析hbase访问结果(TRowResult)的方式
首先拿到idid = client.scannerOpenWithScan(tableName, TScan(), None)如果是拿多行数据//拿30行数据result = self.client.scannerGetList(id, 30)如果是拿单行数据result = self.client.scannerGet(id)这两种方式都会返回一个TRowResult的对象结果集,大概是这个样子
2017-03-03 15:14:04 2440
原创 centos7下python连接 hive2
参考的基础是官方文档: https://cwiki.apache.org/confluence/display/Hive/Setting+up+HiveServer2#SettingUpHiveServer2-WebUIforHiveServer2 我的环境:python2.7hive2.3.4centos7 64 根据官网,首先要安装pyh2>pip install pyhs2装到一
2017-03-01 17:52:57 919
原创 在windows7上,使用python通过thrift访问hbase
先说一下我的环境: - pycharm 2016.3.2 - python 2.7 64位 - thrift-0.10.0 (http://thrift.apache.org/) - hbase-1.1.2-src.tar.gz (http://archive.apache.org/dist/hbase/) - windows 7 旗舰版 - centos 7 64位所需
2017-02-28 18:17:00 2427
原创 Centos7下Flask+uwsgi+Nginx部署实践
先介绍一下我的环境:uwsgi-2.0.14nginx-1.11.9Flask-0.12
2017-02-27 12:59:20 646
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人