JNSimba-CSDN博客

原创 Maven模块打包后拷贝Jar到其他模块

需求是先将agent打包，然后拷贝到server的resource目录下，随着用户的请求操作，将agent相关的安装包分发到相应服务器上。<build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-depend.

2021-08-04 14:32:22 722

原创 The file LOG/STDOUT is not available on the TaskExecutor

yarn集群模式提交Flink任务时，无法查看日志，数据传输都正常，taskManager的日志无法显示，找不到方法。F12查看接口报错，具体报错如下：Exception on server side:org.apache.flink.util.FlinkException: The file LOG is not available on the TaskExecutor. at org.apache.flink.runtime.taskexecutor.TaskExecutor.r

2021-04-22 14:38:12 6257 7

转载 Flink使用广播实现配置动态更新

本着开源的精神将学习成果分享，转载请注明出处。问题复现场景对每条流数据进行关键字检测，对符合条件的消息进行拦截。例如关键字是 java，则消息 java是世界上最优秀的语言就会被拦截。需求拦截的关键字不一定是 java，可能需要变更拦截关键词，例如： php。因此关键字必须做到是可配置的。问题我们首先想到的是存在数据库或外部传入参数。但又因为该关键词是在算子中作为一个变量，一旦作业启动，想修改关键字不得不停掉作业，然后再重新启动作业。繁琐且不友好，有没有什么可以动态的修改算子.

2021-04-06 17:14:05 2579

转载 Flink内部精确一次exactly-once

flink 中的一个大的特性就是exactly-once的特性，我们在一般的流处理程序中，会有三种处理语义at most once : 至多一次，表示一条消息不管后续处理成功与否只会被消费处理一次，那么就存在数据丢失可能 exactly once : 精确一次，表示一条消息从其消费到后续的处理成功，只会发生一次 at least once ：至少一次，表示一条消息从消费到后续的处理成功，可能会发生多次我们在程序处理中，通常要求程序满足exactly-once,就是确保数据的准确性，不丢失，不重复，

2021-01-14 17:29:58 1407

转载【译】Flink + Kafka 0.11端到端精确一次处理语义的实现

本文是翻译作品，作者是Piotr Nowojski和Michael Winters。前者是该方案的实现者。原文地址是https://data-artisans.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka2017年12月Apache Flink社区发布了1.4版本。该版本正式引入了一个里程碑式的功能：两阶段提交Sink，即TwoPhaseCommitSinkFunction。该SinkFunction提取并

2021-01-14 17:28:25 214

转载 Phoenix入门到精通

简介：此Phoenix系列文章将会从Phoenix的语法和功能特性、相关工具、实践经验以及应用案例多方面从浅入深的阐述。希望对Phoenix入门、在做架构设计和技术选型的同学能有一些帮助。概述Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBASE client API创建表，插入和查询HBASE，也支持二级索引、事物以及多种SQL层优化。此系列文章将会从Phoenix的语法和功能特性、相关工具、实践经验以及应用案例多方面从浅入深的阐述。希望对Phoe.

2020-09-16 09:58:59 280

原创 selenium+phantomjs截长图踩坑

目录需求背景：调研phantomjsselenium服务器部署需求背景BI上的报表需要设置定时任务截图发邮件到订阅人的邮箱中。刚开始以为截图的活是前端的，后来发现使自己的锅。调研截图的研究了一下，主流应该是 selenium 和 phantomjs。参考了各大开源BI软件，Cboard的邮件发送是基于phantomjs。phantomjsphantomjs主要原理也就是基于一个无头浏览器，然后执行相应JS代码，进行截图。public class JsT.

2020-08-23 20:13:37 1642 3

转载体系化认识 RPC

RPC（Remote Procedure Call），即远程过程调用，是一个分布式系统间通信的必备技术，本文体系性地介绍了 RPC 包含的核心概念和技术，希望读者读完文章，一提到 RPC，脑中不是零碎的知识，而是具体的一个脑图般的体系。本文并不会深入到每一个主题剖析，只做提纲挈领的介绍。RPC 最核心要解决的问题就是在分布式系统间，如何执行另外一个地址空间上的函数、方法，就仿佛在本地调用一样，个人总结的 RPC 最核心的概念和技术包括如下，如图所示：(点击放大图像)下面依次展开每个部分。

2020-06-08 21:28:41 455

原创【0】Spark源码编译

一直说阅读Spark源码，工作太忙，搁置了很久，今天献上Spark源码编译步骤，是为Spark源码系列的序。环境准备源码下载在Github上https://github.com/apache/spark下载想要的版本，我下载的是https://github.com/apache/spark/releases/tag/v2.4.3修改POM需要将根目录下的pom.xml文件里面的 maven版本设置程与本地一致的...

2020-05-09 17:46:40 242

原创机器学习~决策树

决策树是什么？决策树是一种常见的机器学习算法，它的思想十分朴素，类似于我们平时利用选择做决策的过程。类似流程图的结构，每个节点都可以进行判断，然后进入不同得决策子树中，直至到达叶子节点。比如在相亲中，我们要判断是否要见对方，通常会根据几个衡量标准来做出决策，生成的决策树图如下所示：通过上面例子，我们可以得出两个比较核心的问题：1. 我们应该选择什么作为划分特征，即年龄、长相、收...

2020-04-18 15:26:21 596

原创机器学习入门系列之PCA降维

目录前言PCA降维原理PCA如何降维Sklearn实现总结前言今天来说说机器学习中一个比较重要的概念——主成分分析(Principal Component Analysis)，简称PCA。根据字面意思强行解释一波，就是对主要的成分分析。专业一点就是：在减少样本维数的同时尽可能的保留原样本的信息，仅保留样本中所存在的主要特性，从而可以大大节省空间和数据量。...

2020-04-12 22:12:08 795

转载 Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

Apache Flink 应用程序中的 Exactly-Once 语义 Flink 应用程序端到端的 Exactly-Once 语义示例 Flink 应用程序启动预提交阶段在 Flink 中实现两阶段提交 Operator 总结Apache Flink自2017年12月发布的1.4.0版本开始，为流计算引入了一个重要的里程碑特性：TwoPhaseCommitSinkFunction...

2020-04-03 14:27:40 341

转载一文搞懂Flink内部的Exactly Once和At Least Once

看完本文，你能get到以下知识介绍CheckPoint如何保障Flink任务的高可用 CheckPoint中的状态简介如何实现全域一致的分布式快照？什么是barrier？什么是barrier对齐？证明了：为什么barrier对齐就是Exactly Once？为什么barrier不对齐就是 At Least Once？ Flink简介Apache Flink® - ...

2020-04-03 14:24:44 3521

转载时间维度表-数仓中最重要的维度之日期维度

日期维度是我们最常用的维度，平台初始，最先初始化的可能就是日期维度，这里我们就简单介绍下日期维度。什么是日期维度我们日常生活，数据的产生都和日期有关，每一分、每一秒都会产生数据，数据分析也离不开日期。日期维度就是一张固化的日历，一年365天，每一天都有，我们打开电脑中的日历：日历这里面有的，我们都可以固化下来，像周几、农历、年、月、日、节假日，我们都可以固化下来，方面我们分析...

2020-03-16 14:41:18 4084

转载如何实现简单的请求鉴权

如何利用对称加密实现简单的请求鉴权。前期沟通服务端与客户端需要在前期敲定以下内容：秘钥对（apiKey和secretKey），由服务端通过安全的途径交给客户端，如邮件、IM等内部渠道。头部名称，包括APIKey、时间戳、签名及业务相关的头部。加签算法，即根据业务参数及secretKey如何生成加密签名，客户端与服务端需保持一致。由客户端加密后的内容，在服务端用同样的秘钥加密...

2020-02-19 16:23:34 1802

转载【论文】Structured Streaming：Apache Spark中处理实时数据的声明式API

引言随着实时数据的日渐普及，企业需要流式计算系统满足可扩展、易用以及易整合进业务系统。Structured Streaming是一个高度抽象的API基于Spark Streaming的经验。Structured Streaming在两点上不同于其他的Streaming API比如Google DataFlow。第一，不同于要求用户构造物理执行计划的API，Structured Streami...

2020-02-18 16:05:34 858

原创 Kaggle入门-泰坦尼克号之灾

跟着饼干大神磕磕绊绊的走完了机器学习小组的第一期之旅，接下来的任务就是巩固一下以前的诸多知识点，有时候太忙都没有学习完；再就是参与一下实战，打打kaggle比赛，也算是应用吧，毕竟公司短期内还暂时用不到机器学习。英语本来就比较渣，看着kaggle的纯英文，一脸懵逼不知道从何下手，你如果也和我一样，可以参考这篇文章https://www.jiqizhixin.com/articles/2019-...

2020-02-10 11:35:59 1602

原创分分钟让你秒懂区块链！

背景互联网让我们传输信息变得更加快捷，但是它却无法传递货币，所以有了区块链。很多人纳闷了。我们现在所用的支付宝微信支付不就是互联网传输的吗？是，没错。但是互联网只是传递的信息，而并非传递货币。你今天用手机银行转给了小明10块钱，小明收到了这10块钱。看着似乎没毛病，但其实我们只是用互联网传递了转钱的信息，而并非传递了货币。传递货币背后是需要在你的账户上首先减去10块钱，然后再小明的账...

2020-01-13 23:43:51 805

原创机器学习~K-Means

文章目录概述原理示例Sklearn实现参考概述k-means算法是一种聚类算法，所谓聚类，是指在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。聚类算法与分类算法不同，聚类算法属于无监督学习，通俗来讲：分类就是向事物分配标签，聚类就是将相似的事物放在一起。聚类算法通常用来寻找相似的事物，比如：银行寻找优质客户，信用卡诈骗，社交划分社区圈等等。...

2019-12-29 14:59:44 353

原创机器学习~逻辑回归

文章目录概述逻辑回归模型损失函数逻辑回归中的梯度下降决策边界sklearn实现总结参考概述前面说到的线性回归往往我们用来解决回归问题，今天介绍一种解决分类问题的通用算法—逻辑回归。逻辑回归是机器学习算法中出场率很高的一个算法。简单来讲，逻辑回归是将样本发生的概率和样本的特征结合在一起，比如我们可以用病人的信息，可以计算拟合出患肿瘤的概率，我们给这个概率设置一个阈值，当概率大于50%时，我们可...

2019-12-13 22:53:36 208

原创机器学习~梯度下降法

何为梯度下降法概述为什么梯度方向就是函数变化最快的方向模拟实现梯度下降法一般向量化随机梯度下降法Sklearn中的梯度下降法

2019-12-06 12:34:57 373

原创机器学习~线性回归初探

文章目录回归与分类简单线性回归简单线性回归实现向量化多元线性回归多元线性回归实现参考回归与分类在机器学习中，常用到的算法是分类与回归。上篇文章中（机器学习入门系列之KNN）我们讲解了KNN算法，KNN一般用来处理分类问题，但是也可以处理回归问题。那分类和回归有什么区别呢？分类和回归从本质上而言，都是一样的，都属于有监督学习，并且针对一个输入，给出一个答案。不同的是：分类处理的数据一般都是离...

2019-11-28 17:20:09 307

原创机器学习~KNN算法的更多思考

文章目录由KNN算法引出的问题数据归一化缺失数据处理分类特征处理KNN的优缺点参考由KNN算法引出的问题我们最开始举得KNN算法的示例数据归一化缺失数据处理分类特征处理KNN的优缺点参考sklearn中的数据预处理和特征工程机器学习的敲门砖：归一化与KD树...

2019-11-22 08:43:31 498

原创机器学习~评价模型的好坏

文章目录训练数据集与测试数据集评价分类结果评价回归结果训练数据集与测试数据集KNN算法中，我们是直接将真实数据（有特征有分类）灌到模型中，然后用测试数据与真实数据匹配，从而根据特征的距离计算，可以得到测试数据的预测分类。因为测试数据的分类是未知的，所以我们没办法来评估我们预测的精准度，即模型的好坏，也就造成了我们对模型的预测结果的可信度无法估计。因此再实际应用中，我们会将真实数据集按照一定...

2019-11-17 13:36:33 746

原创机器学习~KNN算法

概述KNN邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。它是一个有监督的机器学习算法，但是却没有训练过程，属于懒惰学习（lazy learning），即数据集事先已经有了分类和特征值，待收到新样本后直接进行处理。原理算法描述1）计算...

2019-11-08 21:57:38 225

转载 Streaming System 第一章：Streaming 101

转载自：https://yq.aliyun.com/articles/674448简介Streaming101起源于在O'really上发表的两篇博客，原文如下：https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-101https://www.oreilly.com/ideas/the-world-beyond-ba...

2019-10-31 14:45:23 374

原创统计学~时间序列【第十一周】

概述时间序列四种变动方式：长期趋势：移动平均法（简单，加权），指数平滑法，最小二乘法季节变动：同期平均法，长期趋势剔除法循环变动，不规则变动几大模型...

2019-10-15 23:05:15 1003

原创统计学~方差分析【第十周】

概述通过对数据误差来源的分析检验各总体的均值是否相等来判断分类型的自变量对数值型的因变量是否有显著影响。因素：即因子，所要检验的对象水平：又称处理，即因素的不同表现观测值：每个因子水平下得到的样本数据仅有一个因素的方差分析称为单因素方差分析，包含两个因素的方差分析称为双因素方差分析，两个以上的称为多因素方差分析。例题消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。为了对几个...

2019-10-06 22:25:56 2144

原创统计学~回归分析【第九周】

文章目录一元线性回归相关关系相关关系的分类最小二乘法拟合优度检验显著性检验回归预测残差分析多元线性回归多重共线性变量选择与逐步回归参考一元线性回归相关关系相关关系是值变量的数值之间存在这依存关系，即一个变量的数值会随着另一个变量或几个变量的数值变化而呈现出一定的变化规律。例如：人的身高和体重的关系，居民收入增长率与物价指数的关系等等相关关系的分类根据相关关系的强度分类：分为完全相关，弱...

2019-09-24 23:38:34 1420

原创统计学~假设检验【第八周】

概述假设检验分为假设和检验两个步骤：假设是指对事物总体的参数设立成对假设；检验是指检验设定的假设是否成立。即先提出假设，再验证假设是否合理。基本概念为了方便描述，引入硬币实验：扔100次硬币，有90次正面，10次反面。需要对硬币是否均匀做出假设。原假设硬币是均匀的备择假设备择假设与原假设一般是对立的：硬币不是均匀的显著性水平设定好原假设与备择假设之后，再检验之前，需要设定一个标...

2019-09-07 11:58:37 1678

原创统计学~参数估计【第七周】

文章目录概述点估计矩估计最大似然估计区间估计总体均值的区间估计![在这里插入图片描述](https://img-blog.csdnimg.cn/20190906214755893.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTQz...

2019-09-06 21:56:01 554

原创统计学~港口数据分析【第六周】

概述对上周的抽样分布理论知识进行实践。数据集： https://pan.baidu.com/s/1rvxlWe4LzlHx5td7zYGTTg 提取码: us2a数据集描述：数据包括【ID、年龄、价格、港口】问题1：按照港口分类，使用Python求出各类数据年龄和价格的统计量（方差、均值等）问题2：画出价格的分布图像，验证数据服从何种分布（卡方？正态？T分布？）问题3：按照港口分类，验...

2019-08-25 21:41:13 801

原创统计学~抽样分布【第五周】

概述总体的情况常常是无法预知的，所以通常使用样本来推测总体。三种抽样方式从无限总体中抽样（总体容量N至少是样本容量n的50倍以上）从有限总体中进行有放回抽样从有限总体中进行无放回抽样抽样分布：有容量为无限或有限的总体，从中抽取一个样本容量为n的样本，并对该样本进行测量，可以获得一套样本参数（均值/方差/标准差），如果进行k次样本容量为n的抽样，会得到k套样本参数。例如：k个均值...

2019-08-22 08:31:32 2121

原创统计学~体温是否符合正态分布？【第四周】

数据集数据集来源：http://jse.amstat.org/v4n2/datasets.shoemaker.html，我们取其中的体温测试是否满足正态分布。验证import pandas as pdfrom scipy import statsimport matplotlib.pyplot as pltimport matplotlib as mpl#读取数据df = pd....

2019-08-11 12:07:16 1897

原创统计学~概率分布【第三周】

统计学~概率分布@(示例笔记本)[马克飞象|帮助|Markdown]随机变量随机变量是表示随机现象各种结果的变量。举例来说，掷一枚质地均匀的硬币，可能出现的结果有正面和反面。那么可以定义随机变量 X=正面/反面出现的数量X = 正面/反面出现的数量X=正面/反面出现的数量离散型随机变量如果随机变量的取值是有限的或可数无限的，称为离散型随机变量。比如：投掷硬币或这骰子，出现的结果是有限的...

2019-08-07 23:52:33 437

原创统计学~描述性统计实践【第二周】

统计学~描述性统计实践（第二周）前言上周从理论的方面学习了统计学的基本知识，这周基于Python的pandas、numpy等一系列数据分析的框架利器进行实践操作。实践import numpy as np import pandas as pdfrom scipy import stats as sts#定义10个元素的随机数array = np.random.randint( ...

2019-07-27 17:45:47 279

原创统计学~描述性统计【第一周】

文章目录数据的集中趋势众数中位数平均数算术平均数加权平均数几何平均数分位数数据的离中趋势数值型数据极差平均差方差标准差顺序数据分类数据异众比率相对离散程度离散系数（变异系数）分布形状偏态系数峰态系数（峰度系数）数据的集中趋势众数一组数据中，出现次数最多的数，即一组数据中占比最多的数字中位数对一组有序数据，取中间的数字，若中间数字有两个，求其均值平均数算术平均数平均数一般特指算术平均...

2019-07-18 18:06:24 589

原创 Hive存储过程和自定义函数

之前在Hive中使用自定义函数，是通过udf/udaf来实现，通常是基于Java或Python来实现。最近发现神器Hplsql（http://www.hplsql.org），可兼容mysql等存储过程等语法，并且已经集成到Hive2.0+版本。业务背景：在做数据处理时，Mysql中有大量的存储过程，当数据量特别大的时候，Mysql存储过程执行缓慢，一个存储过程执行耗时数小时。由于需...

2019-03-22 09:31:26 5482

原创 Python制作微信聊天机器人

可以借助图灵机器人和itchat插件来模拟机器人聊天。1.注册图灵机器人账号在官网注册（http://www.tuling123.com），注册完之后可以创建一个机器人，最终需要机器人的apikey，如下图2.编写代码编写代码前需要安装itchat插件，即pip install itchatimport itchatfrom itchat.content impo...

2019-03-11 17:09:26 1434 1

转载 kerberos认证原理---讲的非常细致，易懂

前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候，讲了半天也别把那位老兄讲明白，还差点把自己给绕进去。后来想想原因有以下两点：对于一个没有完全不了解Kerberos的人来说，Kerberos的整个Authentication过程确实不好理解——一会儿以这个Key进行加密、一会儿又要以另一个Key进行加密，确实很容易把人给弄晕；另一方面是我讲解方式有问题...

2018-12-21 15:44:25 499

Apache Kylin 权威指南

Python经典复习题

空空如也