willyan2007-CSDN博客

原创 Spark Streaming状态管理函数

Spark Streaming状态管理函数引用

2022-09-07 15:26:29 711 1

原创以写Hbase表的方式更新Phoenix索引

索引的主键是原表的字段组合而成的，索引表会把所有索引字段+rowkey拼接起来写进Hbase ,做索引的主键为索引表的RowKey。并且组合的时候还要加上\x00这样的字符串。在插入数据的时候直接以byte[] 的形式往hbase表插。

2022-09-07 13:55:32 798

import baostock as bsimport pandas as pdimport numpy as npdef get_all_stocks_codes(): rs = bs.query_stock_basic() bank_stocks = [] while (rs.error_code == '0') & rs.next(): # 获取一条记录，将记录合并在一起 bank_stocks.append(rs.get_ro.

2021-05-28 15:59:18 283

原创 shszAmount沪深两市总成交量

import baostock as bsimport pandas as pd# 沪深两市，总成交金额统计# 沪深两市，总成交金额统计# 沪深两市，总成交金额统计# 登陆系统lg = bs.login()# 显示登陆返回信息print('login respond error_code:'+lg.error_code)print('login respond error_msg:'+lg.error_msg)# 获取指数(综合指数、规模指数、一级行业指数、二级行业指数、策略指.

2021-05-28 15:52:34 169

原创 ApacheKylin-3.1.0-Windows本地开发环境测试

排查yarn详细日志yarn logs -applicationId application_1590551653017_0033准备数据准备hive表Load hive table 操作创建Model和CubeCube Build构建Build操作问题列表基于MR Build Cube六大步骤，第一个大步骤“Create Intermediate Flat Hive Table”时就报错了。第一个问题bash: hive: comman.

2021-05-17 17:54:51 380 1

原创 ApacheKylin-3.1.0-Windows本地开发环境搭建

官网地址搭建开发环境http://kylin.apache.org/cn/development/dev_env.html准备源码下载Kylin源码上到github官网，找到kylin-3.1.0的源码，下载。导入eclipse新建立好eclipse的workspace，再以导入maven工程的方式，将源码导入进来。初始导入时，eclipse Package Explorer目录下会有很多异常。异常修改方案一：修改父工程pom...

2021-05-17 17:01:38 637 2

原创 Apache Kylin IDEA远程调试

前言咱们通用的IDE工具是eclipse，eclipse远程连接tomcat实现本地代码调试也是比较常见，但KYLIN的部署与一般JAVA WEB服务部署存在较大差异，eclipse远程连接KYLIN没有成功，暂时用IDEA连接远程KYLIN实现本地代码DEBUG调试的目的。前提条件1.远程服务器上的KYLIN已经安装成功，随时可以启动。见下图，可以查看远程KYLIN服务。2.本地安装IntelliJ IDEA工具，并引入了KYLIN的源码。用idea引入maven工程.

2021-05-17 16:14:19 306

原创 Apache Kylin-3.0.1-安装启动

版本Apache独立版本，kylin-3.0.1，下载包apache-kylin-3.0.1-bin-hadoop3.tar.gz安装准备如下部分要预先对配置进行修改、或者准备好spark等部件，因为Kylin启动依赖的部件较多，最好预先准备，否则在启动时，会陆续报错。修改Hbase的“hbase”脚本cd $HBASE_HOME/binvim hbase在CLASSPATH=${CLASSPATH}:$JAVA_HOME/lib/tools.jar后面添加:/$HBASE_HO

2021-05-17 16:05:42 876 1

原创 Livy调度Spark任务

安装配置LIVY下载首页：https://livy.incubator.apache.org/下载：https://livy.incubator.apache.org/download/下载文件apache-livy-0.7.0-incubating-bin.zip配置解压后的目录结构配置文件在conf目录下先用mv 命令生成红框中两个文件livy.conf改如下三个地方Spark master配置yarn，表示执行SparkOnYarn模式。

2021-05-14 15:06:14 495

原创 Spark2.3.2-单节点伪分布式OnYarn测试

下载spark-2.3.2-bin-hadoop2.7.tgz设置环境变量修改配置cd $SPARK_HOME/confcp spark-env.sh.template spark-env.shvim spark-env.sh注意：由于是On Yarn的配置，无需配置worker、slaves这些启动spark-shell根据启动日志，spark-shell启动的本地模式，不是OnYarn的模式。我们查看Hadoop ResoureManager的界面，没

2021-05-14 14:53:49 327

原创 Presto340 Connector 配置手册

前提条件Presto340版本需要安装在jdk11的环境下，请预先进行安装。

2021-05-13 17:47:44 277

原创 Jenkins Blueocean 版本安装与配置

为什么要安装 Jenkins 海洋版？普通的 Jenkins 在部署的时候，插件下不下来，但是在海洋版没有这个问题； blueocean 的页面更加人性化，流程的监控上看着让人舒服。拉镜像docker pull jenkinsci/blueocean创建自定义的jenkinsci/blueocean镜像，以便后续自定义JDK、Maven等工具。dockerfile_blueocean文件内容启动镜像注意：“\”后不要用空格，也可以不加--rm..

2021-05-13 16:16:54 2796

原创 Docker 搭建 Harbor 仓库

搭建 harbor 仓库docker 官方提供的私有仓库 registry，用起来虽然简单，但在管理的功能上存在不足。Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器，harbor使用的是官方的docker registry(v2命名是distribution)服务去完成。harbor在docker distribution的基础上增加了一些安全、访问控制、管理的功能以满足企业对于镜像仓库的需求。接下来，咱们安装harbor。安装docker-compose.

2021-05-13 15:51:27 1125 1

原创 Docker入门

Docker概述Docker是什么？为什么会出现Docker？跟openstack、vmware workstation有啥区别？问题一Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。虚拟化应用与依赖包隔离机制问题二传统开发模式：多个环境开发、测试、生成环境流程...

2021-02-07 14:21:13 204

原创 Flink三：EventTime与WaterMark生成记录

import java.text.SimpleDateFormatimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarksimport org.apache.flink.stre...

2020-01-15 11:30:38 510

原创 Flink二：IngestionTime与ProcessingTime

IngestionTime进入Flink系统的时间；ProcessingTime Flink算子操作的时间。有个程序描述下它们的差异：//订单对象(userid、消费总额total)case class Order(userid: Long, total: Long)case class OrderSummary(startTime: String, endTime: Strin...

2020-01-13 23:53:15 2486 2

原创 Flink一：初识Flinlk，并与Spark做对比！

初识Flink，flink stream是无边界的数据，咱们用一个例子，对比下Flink与Spark的差异。Flink是基于的，且Event是独立的，操作、算子都是基于当个的Event的；Spark是基于RDD的，操作、算子都是基于集合实现的，这是Spark与Flink最本质的差别。1：Spark WordCount例子import org.apache.spark.{Spark...

2020-01-13 22:25:01 386

原创 Confluent完全分布式框架搭建

服务、端口说明 kafka zookeeper control-center schema-registry kafka-reset connector ksql-server 192.168.1.34 kafka...

2019-08-01 09:49:04 4547

原创 ES_kibana客户端_操作

http://localhost:5601 --查看setting--GET index_user/_settings--mapping--GET index_user/_mapping--查询全部--GET index_user/_search{ "query": { "match_all": {} }}--根据id查询--GET inde...

2019-04-25 11:21:26 667

原创 ElasticSearch常用命令

1.检测集群是否健康curl 'es1:9200/_cat/health?v'绿色表示一切正常, 黄色表示所有的数据可用但是部分副本还没有分配,红色表示部分数据因为某些原因不可用2.通过如下语句，我们可以获取集群的节点列表：curl 'es1:9200/_cat/nodes?v'3.通过如下语句，列出所有索引：curl 'es1:9200/_cat/in...

2019-04-25 11:11:32 185

原创 kafka基本操作

一、topic1.查看全部topickafka-topics.sh --zookeeper localhost:2181 --list2.创建topic，指定分区数目和备份因子kafka-topics.sh --zookeeper localhost:2181 --create --topic topic_name --partitions 3 --replication-factor...

2019-04-25 10:27:56 164

原创 Idea引入Spark源码

1. 下载spark版本对应的源码程序包，官网下载见下图：下载的是1.6.1版本的，soucecode是源码包类型。下载得到spark-1.6.1.tgz的文件。2. 在idea中开某个spark程序。见右上角有个“attachsouces”的按钮 3. 将1中下载的包解压，点击2中的“attach souces”，引入下载的源码即可。点击ok 完成。...

2018-02-12 16:08:45 1915

原创 Idea打包Saprk程序

一、入口程序说明：Spark程序入口，是一个object型scala程序，Main方法是程序入口。SparkConf、SparkContext、SparkContext等对象，都要在main方法的作用域内。二、Idea配置打包信息Idea菜单，File => Project Structure => Artifacts => 绿色“+” => jar => Empt...

2018-02-12 16:03:21 372

原创 CombineBykey实现distinct和groupby

//combineBykey既能实现distinct，也能实现groupby，原因见下：val rdd2: RDD[(String, Set[String])] = rdd1. map(x => (x.phone_no + x.wifi, x.lat + split + x.lng)). partitionBy(wifi_part). combineByKey( (it: S

2018-01-30 12:26:48 275

原创 Spark笛卡尔积实现方案描述

//val pairs = sc.parallelize(Array(("a", Vectors.dense(1)), ("b", Vectors.dense(2)), ("c", Vectors.dense(3)) ))val pairs = sc.parallelize(List("a", "b", "c"))//1.默认算子，性能尚可，但简易可用val cartesian_rdd =

2018-01-22 19:43:25 4931

原创 Python地址解析示例

import urllib.requestimport urllib.parseimport jsonimport pandas as pdimport csv# 输入URL，抓取http接口返回的内容def htmlfile(url): response = urllib.request.urlopen(url) html = response.read()

2018-01-05 17:43:09 3123

原创 Python保存DF至本地

import pandas as pdimport csvif __name__=='__main__': ScriptPath = "D:/tmp/py_tst" # 预先建好输出路径 outputpath = ScriptPath + "/OutputDir/" i = 0 OneSearch_Json = [] # csv_rea

2018-01-05 17:38:33 3824

原创 Python中文字符转码

import urllib.requestimport urllib.parsetags = ['美食','酒店','购物','生活服务','丽人','旅游景点','休闲娱乐']## 中文字符串处理方法def check_contain_chinese(check_str): list_str=list(check_str) for k in range(len(li

2018-01-05 17:33:52 1738

原创 Spark广播变量的使用

//landscape_zb变量格式：mutable.HashMap[String, ArrayBuffer[Any]]//单个landscape对象的格式 (new_key,(ls_id, lat, lon)),用ArrayBuffer将多组lat, lon组合起来var bc_landscape_zb = sc.broadcast(landscape_zb)val bc_landsca

2018-01-02 15:42:31 2148

原创 Scala获取连续两次上报的LBS

//应用场景，用时间排序，获取连续两次上报的LBS的时间间隔、距离//一次循环，实现获取当前对象、当前对象下一个对象的遍历//在Rdd内部，map操作时，用while获取两次上报的LBSval array = Array("a","b","c","d","e")var i = 0var length = array.lengthimport scala.collection.m

2017-12-28 13:53:36 170

原创 Spark程序模块化的处理

import org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.Rowimport org.apache.spark.sql.types.{DoubleType, StringType, StructField, StructType}import org.apache.spark.{SparkConf, Sp...

2017-12-28 13:48:21 311

原创 key-value型Rdd转广播变量时注意

当将一个(key,value)型Rdd转成广播变量时，需要将该Rdd转成Map类型，但是若一个key对应多个value，直接使用collectAsMap()方法时，key值相同的value会被覆盖，所以不能直接使用collectAsMap()方法。那怎么办了？应该使用collect() + foldLeft()的方式，组成mutable.HashMap对象。collect()将Rdd转成A

2017-12-27 19:55:22 540

原创 GeoPartition算法Scala代码

package algo/** * Created by yanfenghua on 2017/09/26. */object GeoHash { //经纬度单独编码长度 val numbits = 6 * 5 //32位编码对应字符 final val digits = Array('0', '1', '2', '3', '4', '5', '6', '7', '

2017-12-27 16:43:20 363

原创 Python解决中文乱码问题

如果你从HDFS上导出csv文件，可能存在中文乱码问题。用多个编辑器、工具都不能解决，可以用如下python代码轻松搞定。导出语句：hive -e "select * from xx.table" >> /data/tmp/abc.csvpython代码：import pandas as pddata = pd.read_table("D:/LBS/yuan_m

2017-12-26 13:51:04 329

原创 Spark优化操作_自定义groupby

groupby或者groupbyKey算子效率太低，自己重写了一下。//用combineByKey替代groupByval home_data_combine: RDD[(String, List[home_info])] = phone_date_key_data. map(home => (home.phone_date, home)). partitionBy(new or

2017-12-22 17:30:22 2997

原创 Spark优化操作_自定义distinct

因为默认的distinct算子操作效率太低，自己改写一下。def mydistinct(iter: Iterator[(String, Int)]): Iterator[String] = { iter.foldLeft(Set[String]())((CurS, item) => CurS + item._1).toIterator}

2017-12-22 17:06:47 2915 3

原创 Python列表或字典排序

1.列表排序s = [‘Chr1-10.txt’,’Chr1-1.txt’,’Chr1-2.txt’,’Chr1-14.txt’,’Chr1-3.txt’,’Chr1-20.txt’,’Chr1-5.txt’]s_1 = sorted(s, key=lambda d : int(d.split(‘-‘)[-1].split(‘.’)[0]))print (s_1)sort三种方式

2017-11-13 22:30:59 206

willyan2007的博客