ZL小屁孩-CSDN博客

原创 SQL SERVER Inregration Services-OLE DB、Oracle和ODBC操作

主要时添加ORACLE_HOME、TNS_ADMIN和PATH的值，这三个值都是Oracle Instant Client的安装目录(也就是解压目录) C:\software\instantclient_21_9。在“提供程序”的下拉框中，选中“Microsoft OLE DB Driver for SQL Server”，这个也就是解决上面的警告信息。在点击“新建”时，会弹出警告信息“不支持指定的提供程序，请在连接管理器中另选一个提供程序”，这个警告信息不用管他，直接点击“确定”即可；

2023-11-08 17:56:50 614

原创 SQL Server SSIS ETL job执行相关操作

SQL Server SSIS(SQL SERVER Integration Services) ETL 的job执行全流程

2023-11-08 17:43:27 727

原创 SQL Server SSIS的安装

SQL Server、Visual Studio、SSIS工具的安装

2023-11-08 17:25:57 910

原创 hive的多维度分析函数with cube和grouping__id的理解

hive的多维度分析函数with cube和grouping__id的理解

2022-04-15 17:20:54 2491

原创 Flink的窗口计算案例

Flink的关于窗口算子的一般应用

2022-04-15 15:45:40 3175

原创关于kafka数据实时落地至hdfs

关于kafka数据实时落地至hdfs好久没有写博客了！关于如何使用spark streaming +kafka工具实现实时数据落地至hdfs目录import java.time.ZonedDateTimeimport java.time.format.DateTimeFormatterimport com.alibaba.fastjson.{JSON, JSONArray}import com.ipinyou.cdp.common.SparkBaseimport com.ipinyo

2021-05-18 21:15:03 1140

原创 win系统执行spark-sql报错：java.io.IOException: (null) entry in command string: null ls -F C:\tmp\hive

在IDEA中运行Spark SQL读取hdfs文件时报java.io.IOException: (null) entry in command string: null ls -F C:\tmp\hive的错，或者是报 Exception in thread "main" org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir:

2020-09-01 22:57:52 894

原创 windows10使用git上传项目到gitlab

下载、安装git：https://git-scm.com/downloads下载后默认安装即可，git不需要其他额外的配置在gitlab上创建工程，设置visibility level为private，如：创建密匙：右击桌面：出现界面：在此界面上执行一下命令：git config --global user.name "注册gitlab的名字"git config --global user.email "注册gitlab的邮箱"ssh-keygen -t r

2020-09-01 22:57:10 517

原创 maven systemPath方式加载和打包

在开发工程中，有些jar是自己开发的，当被引用到其他工程或项目中时，需要把自己开发的jar添加到其他工程中。在此记录以下，使用IntelliJ IDEA 2019.2.3和apache-maven-3.3.9实现加载jar和使用maven打包时，把自己开发的jar打进去：在pom.xml文件中配置如下：在依赖中添加：<dependency> <groupId>com.scopa.graph</groupId> <artifactId>deep

2020-08-12 18:25:16 21533 1

原创 sparksql两种方式的执行效率

方式一： /**使用spark-sql实现的*/ def rhVisitor(ss: SparkSession,dt: String,per_hour: String,merchant: String): Unit ={ val startTime = System.currentTimeMillis() import org.apache.spark.sql.fun...

2020-07-26 19:36:10 981

原创 Gremlin中匿名函数的应用

1、在TinkerPop3中使用命令或使用java等语言进行操作时，当使用"——"调用其他函数时，表示匿名调用，如out()、in()、count()等；也可使用"P"关键字来调用常用的比较函数，如比较函数neq()、gt()等2、使用"T"调用常用的图标签操作，如label。...

2020-07-26 19:26:28 271

原创 scala的breakOut的应用

问题：在scala中，List或Set等集合如何转换为Map集合？由List/Set转换Map集合时，一般情况下，需要对其元素以元组的形式，再通过toMap等函数实现。利用collections.breakOut的方式可直接由List/Set转换为Map集合，如：val breakOut: Map[Int, String] = List("china", "usa", "russia...

2020-03-30 21:22:56 483

原创强连通体的GraphX的实现和解析

/**连通体*/object ConnectComponents { /**在图中若从某个顶点Vp出发，沿着一些边经过顶点V1，V2，。。。Vm到达Vg则称顶点序列(Vp,V1,V2....Vm，Vg)为从Vp到Vg的路径，其中Vp是路径的起始点，Vg为路径终点。 * 路径上的边的数目成为该路径的长度 * 连通：在无向图中，若从顶点Vi到顶点Vj之间有路径称为这两个顶点是连通...

2020-03-10 21:05:48 779

原创 TigerGraph算法库

把相应的算法实现加载到相应的Graph Schema上。从相应的地址把TigerGraph图数据库实现的算法库下载下来，最新下载目录：https://github.com/tigergraph/gsql-graph-algorithms在此，我把算法库，放在tigergraph的安装目录下，其目录如下：在tigergraph的用户（TigerGraph所设定的用户）下执行ins...

2020-03-10 20:57:44 799 3

原创 TigerGraph图数据库的数据加载_GraphStudio方式

Graph Schema创建成功后需要把数据映射到schema中。下面是使用可视化界面GraphStudio将数据映射到Graph Schema中。点击左边的“Map Data To Graph”的“Add data file”：注意事项：上传单个文件大小限制500M，还可以通过下面方法绕过该限制：若您的TigerGraph在本地部署的话,直接将文件或该文件的快捷方式放置到Tige...

2020-03-10 20:41:50 1087

原创 TigerGraph图数据库的数据加载_gsql方式

首先使用gsql把数据映射到Graph Schema上：在gsql shell情况下执行：USE GRAPH SocialBEGINCREATE LOADING JOB load_social FOR GRAPH Social { DEFINE FILENAME file1="/opt/tigergraph/document/examples/gsql_ref/social...

2020-03-10 20:30:42 674

原创 TigerGraph图数据库创建一个图Schema

以开发版的TigerGraph图数据库为例。若没有多图权限的话，若TigerGraph中已经有其他图数据，则会执行Drop ALL命令。以下是在gsql环境下执行。第一步：创建Vertex命令如下：CREATE VERTEX Person(PRIMARY_ID name STRING, name STRING, gender STRING) CREATE VERTEX关键字用...

2020-03-10 20:08:02 977

原创 spark的broadcast理解

Broadcast（使用BroadcastManager管理）一般用于处理共享配置文件、常用的数据结构等；但Broadcast不适合存放太大数据，Broadcast不会内存溢出，因为数据保存级别StoreageLevel是MEMORY_AND_DISK模式。数据量大会造成网络I/O和单点压力大，因此，当数据量较大时不要使用broadcast，网络成本较大，会适得其反。广播变量：实际上就是Dri...

2019-08-05 22:16:27 858

原创 spark使用insertInto存入hive分区表中

把spark的处理结果存入hive分区表中，可以直接在sql中设定分区即可，可以使用withColumn算子执行 ss.sql("SELECT merchant_id,platform," + "case when trim(first_channel_id) = '' or first_channel_id is null then '-1' else first_cha...

2019-08-01 18:53:07 5816

原创使用foreachPartition将结果写入外部存储

好久没有写了！！！记录一下：最近有个小伙伴问我，使用spark处理的数据存入mysql中老是导致mysql链接超时或中断，我看了一下他的代码，想揍人，其代码如下：dstream.foreachRDD {rdd => rdd.foreachPartition{ partitionRecords => val connection = createNewConnec...

2019-08-01 18:34:02 1639 1

转载事实表设计

1、事实表事实表一般至保存了大量业务事件的可度量的数据集合，从最低的粒度级别来看，事实表行对应一个度量事件。2、事务事实表3、周期快照事实表4、累计快照事实表5、三种事实表的区别...

2019-07-13 18:08:13 1090 1

原创主题分析模型LDA的spark实现

主体分析模型主要有PLSA（Probabilistic Latent Semantic Anlysis，概率引语义分析）和LDA（Latent Dirichlet Allocation，隐含狄利克雷分布），在此暂时介绍LDA的spark实现。 * 主题分析模型自动分析每个文档，统计文档内的词语，根据统计的信息来判断当前文档含有 * 哪些主题，以及每个主题所占的比例格式多少。 ...

2018-12-14 22:26:20 1202 1

原创 spark之TF-IDF浅谈

所用或所学知识，忘了搜，搜了忘，还不如在此记下，还能让其他同志获知。在使用spark实现机器学习相关算法过程中，档语料或者数据集是中文文本时，使用spark实现机器学习相关的算法需要把中文文本转换成Vector或LabeledPoint等格式的数据，需要用到TF-IDF工具。何为TF-IDFTF(Term Frequency)：表示某个单词或短语在某个文档中出现的频率，说白了就是词频，其...

2018-12-12 21:04:44 1110

原创 scala之闭包函数浅知

object Closure { /**scala闭包是一种函数：函数内部的变量不在其作用于时，仍然可以从外部进行访问。 * 定义闭包函数的过程是将函数外部的自由变量捕获并构成一个封闭的函数。 * 当函数外部的变量发生变化时，scala的闭包能捕获到变量的变化， * scala闭包捕获的事变量的本身而非变量的值*/ //闭包函数的应用，依赖于变量y，引用到函数c...

2018-12-08 21:50:38 293

翻译高可用性的ResourceManager

YARN的架构图有图可知，ResourceManager（RM）对整个集群的重要就不言而喻了吧。但是由于多种原因可能会造成ResourceManager出现问题，由于单位的集群ResourceManager也出现问题，今天我分析一下ResourceManager的High Availability（高可用性）。ResourceManager的作用：负责协调集群上计算资源的分配，与Nod...

2018-12-08 21:49:08 991

原创 Spark Streaming-Receiver启动和数据接收

养成一个记笔记的习惯！！！小案例：def fromsocket(ssc: StreamingContext): Unit ={ /**使用updateStateByKey前必须要设置checkpoint*/ ssc.checkpoint("hdfs://zhumaster:8020/data/checkpoint") /** 如使用socket网络嵌套字作为输入模式，使用命令...

2018-12-05 16:08:37 625

原创 Spark Streaming checkpoint的问题与恢复

/**虽然checkpoint是对Spark Streaming运行过程中的元数据和每次RDD的数据状态 * 保存到一个持久化系统中，实现高可用性。 * 即使 * /**当程序修改后打包成新程序后，可能会报错，若删除checkpoint的开头文件，只保留数据文件： * hadoop dfs -rmr /checkpoint/checkpoint* * 但是新程序虽然能重...

2018-11-29 17:21:59 2203

原创图计算Hama-BSP模型的运行流程

Hama-architecture：Apache-hama集群是以BSP为框架为基础由一个BSPMaster、（多个）互不关联的GroomServer计算结点、可独立运行的Zookpeer集群组成。BSPMaster采用“先进先出”原则对GroomServer进行监控、job的提交处理、任务的分配和记录整个的运行动态，BSPMaster调用BSP类的setup方法、bsp方法和cleanu...

2018-11-28 16:03:57 728

原创 spark Executor执行结果的处理源码

从1.6后，Driver的BlockManagerMaster与BlockManager之间的通信不再使用AkkaUtil而是RpcEndpointSpark集群中有很多执行程序执行，需要很多Executor，CoarseGrainedExecutorBackend是Executor所在的进程，Executor需要CoarseGrainedExecutorBackend进行维护和管理。Coar...

2018-11-26 17:20:53 258

原创从Application提交角度审视Executor

从Application提交的角度审视Executor，解密Executor到底是什么时候启动的以及Executor如何把结果交给Application。Executor何时启动SparkContext启动后，直接实例化createTaskScheduler方法，createTaskScheduler完成后，调用TaskScheduler的start方法，实际调用的是TaskSchedul...

2018-11-26 17:16:17 234

原创 zookeeper的伪分布式安装

我要养成记录的习惯！！！首先下载（版本zookeeper-3.4.12）-解压zookeeper伪分布式安装就是在同一台机器上安装多个zookeeper（即在同一台机器上有多个QuorumPeerMain进程）。我在同一台机器上安装了3个zookeeper。把解压完成的zookeeper-3.4.12重新命名为zookeeper01 ： mv zookeeper-...

2018-11-08 16:19:24 452

原创 scala的相等性

在scala中一切都是对象！！！java中比较两个对象/属性是否相等：/**在java中，== 只会对java对象引用进行比较，对象引用的地址相同（内存中同一个位置）则返回true ； * 而equals是比较两个字段的值是否相等，若值相等则返回true * * 不过当比较Array或者Seq时，使用sameElements方法*/class EqualEq { ...

2018-10-26 10:54:41 711

原创 scala-for的基本应用

scala-for的应用：直接上代码。 def testfor01: Unit ={ val nieces = List("emily", "hananh", "mercedes", "porsche") /* 关键字yield：for循环中的yield会把当前的元素记录下来，保存到集合中，循环结束后将返回该集合。 ...

2018-10-26 10:47:48 211

原创 scala-for推导：能够在for表达式中的最初部分定义值，并在（外面）后面的表达式中使用该值

在scala的for循环中，如何在不适用容器的情况下，在for循环（外面）后面调用其for中定义的属性。对象中包含None属性在for中如何剔除？？？两种情况写在同一个函数里面： /**for推导：能够在for表达式中的最初部分定义值，病在后面的表达式中使用该值 * 如upcaseBreed在println中使用*/ def roundingFor: Unit ={ ...

2018-10-26 10:23:12 195

原创 spark-cache的源码分析

private def persist(newLevel: StorageLevel, allowOverride: Boolean): this.type = { 。。。。。。 if (storageLevel == StorageLevel.NONE) { sc.cleaner.foreach(_.registerRDDForCleanup(this)) //清理缓存 s...

2018-10-26 09:46:59 293

转载 Spark性能调优之道——解决Spark数据倾斜（Data Skew）的N种姿势

看到一篇很不错的文章，关于解决spark计算过程中数据倾斜的解决方案：一位大牛的创作，谢谢http://www.infoq.com/cn/articles/the-road-of-spark-performance-tuning感谢作者...

2018-10-25 11:06:14 208

原创 spark与mysql：Did not find registered driver with class com.mysql.jdbc.Driver

CDH-5.8.3集群上spark-submit --master yarn。。。提交任务时，当使用mysql-connector-java-5.1.40-bin.jar等jar包时可能会出现以下问题：Did not find registered driver with class com.mysql.jdbc.Driver解决方案：每个节点（master节点和slave节点）把my...

2018-10-22 11:52:42 379

原创 spark关于数据倾斜问题

spark的数据倾斜调优方案归纳总结：不来虚的，直接上解决方法。数据倾斜产生原因：在运算过程中把数据分配给不同的Task，一般需要Shuffle过程，同一个Key都会交给Task处理，但是有时同一个Key的values数据量太多造成数据堆积等。判断是否发生数据倾斜：通过Web UI查看Task的metrics某些Task相当于其他大多数Task来说所消耗相当长的时间。数据倾斜解决方...

2018-10-16 09:53:49 310

原创空值字段的hive处理

当遇到某个字段的属性值为空时，可以使用IF、ISNULL函数进行处理。hive的IF函数：IF(expr1,expr2,expr3) - If expr1 is TRUE (expr1 <> 0 and expr1 <> NULL) then IF() returns expr2; otherwise it returns expr3. IF() returns a...

2018-10-16 09:41:48 2914

原创 spark常用算子小总结

import org.apache.spark.rdd.RDDimport org.apache.spark.{HashPartitioner, SparkConf, SparkContext}class RDDSuanzi { private[this] def rddBasics: Unit = { val sparkConf: SparkConf = new Spar...

2018-09-26 09:36:31 236

Delta Lake数据湖 English Version

Delta Lake - The Definitive Guide 基于Delta Lake的湖仓一体的现代数据架构，主要包括常规的基本代码用例，历史审计和时间旅行管理，流批一体等原理讲解和使用代码样例讲解和分析

2023-01-03

DataStage_V7.5_学习总结.doc

DataStage 可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。其中每步都可以在图形化工具里完成，同样可以灵活的被外部系统调度，提供专门的设计工具来设计转换规则和清洗规则等，实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现，复杂转换可以通过编写脚本或结合其他语言的扩展来实现，并且 DataStage 提供调试环境，可以极大提高开发和调试抽取、转换程序的效率

2021-01-05

TA关注的人

Delta Lake数据湖 English Version

DataStage_V7.5_学习总结.doc

TigerGraph图数据库应用.docx

scala语言pdf_带目录标签

svm的详细介绍

python基础教程

hadoop海量数据处理详解与项目实战

eclipse-svn包

hbase权威指南-带目录有标签

hive编程指南-带书签有目录

某平台java爬虫代码

打包jar的运行

sfntly-master

java基础思维导图结构

网页抓取jar包

json-simple-1.1.1.jar

mongodb数据库

hadoop-eclipse-lpugin

mongodbDB帮助文档

XMLConvertToJSON.jar

MongoDB安装配置MongoVUE

数据格式的转换

hadoop-common-2.7.0.jar

在VirtualBox上安装CentOS6.5

矢量数据分析

在维基百科上下载50G的xml导入mysql