自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(140)
  • 收藏
  • 关注

原创 消费历史数据,flink 设置了event_time之后没有输出

历史数据不支持水印,把水印去掉就有输出了。

2023-08-21 17:51:02 130

原创 flink kafka The transaction timeout is larger than the maximum value

flink kafka The transaction timeout is larger than the maximum value

2023-06-14 11:22:18 187

原创 flink checkpoint 一直失败导致任务失败的一种情况

flink checkpoint 一直失败导致任务失败的一种情况

2023-06-07 11:42:14 693

原创 spark 查询大量数据报java.lang.OutOfMemoryError: Java heap space

spark 查询大量数据报java.lang.OutOfMemoryError: Java heap space

2023-05-24 15:38:31 645

原创 SimpleDateFormat 报错 ava.lang.NumberFormatException: For input string: ““ 但是传参正常 flink 任务

flink 任务调用simpledateformat来解析时间字符串报错,查看对应函数传参正常,但是还是报这个错。这是因为这个对象应该是线程不安全的,需要把这个simpledateformat对象放到方法里面来定义就不报错了。

2023-04-27 21:25:51 222

原创 ClassNotFoundException: org.apache.flink.shaded.guava18.com.google.common.collect.Lists

ClassNotFoundException: org.apache.flink.shaded.guava18.com.google.common.collect.Lists

2023-04-14 11:25:03 2994

原创 flink cdc 同步实时同步mysql 程序不报错,数据不更新

flink cdc 同步实时同步mysql 程序不报错,数据不更新

2023-03-31 18:09:20 905

原创 flink kafka写入hive 程序结果不输出的问题

flink kafka写入hive 程序结果不输出的问题

2023-03-28 11:57:37 110

原创 The main method caused an error: only single statement supported

The main method caused an error: only single statement supported

2023-03-27 10:55:34 617

原创 Flink cdc 同步mysql 初始化同步报错 The slave is connecting using CHANGE MASTER TO MASTER_AUTO_POSITION = 1

flink cdc 同步mysql 报错The slave is connecting using CHANGE MASTER TO MASTER_AUTO_POSITION = 1, but the master has purged binary logs containing GTIDs that the slave requires 解决方法

2023-03-22 16:14:54 908

原创 Flink 程序打印过多日志问题,日志过多解决

比如在flink 消费kafka的程序中,出现多次kafka fetcher,map 2/10类似的日志,是因为在执行的任务的依赖里有log相关的依赖,建议exclue掉当前执行的任务的依赖中所有log4j,sl4j,logback等相关依赖,就可以解决这个问题。

2023-03-17 15:07:22 1011

原创 flink CEP 不输出问题

flink cep 任务不输出

2023-02-24 11:07:15 249 3

原创 flink stop with savepoint 命令 Caused by: java.util.concurrent.TimeoutException

flink stop savepoint 超时 timeout

2023-02-20 16:55:56 528 3

原创 2.Flink DateStream API

分布式流处理模型抄的网图,下图就是典型的flink 分布式流处理模型主要将数据分为三部分,输入,处理,输出三部分。flink 就是一个批流一体的数据处理引擎和工具。其中flink sql ,flink table api ,flink date stream 关系如图:首先类似hadoop wordcount demo,flink 版也来的wordcount,告诉你整体怎么用这个datastreamAPI。执行这个要包含main方法,和MR类似;实际上,数据处理也和离线差不多

2021-10-11 20:15:16 185

原创 1.Flink 核心特性概述

1.统一的数据处理组件栈,处理不同的数据需求,有batch,stream,machinelearning,graph等2.支持事件时间,接入时间,处理时间等时间概念。3.基于轻量级分布式快照实现容错(主动的savepoint和被动的checkpoint)4.支持有状态计算5.支持高度灵活的窗口操作(滑动,滚动,会话窗口)6.带反压的连续流模型(自带反压,进行生产消费监测,当消费能力弱与生产能力,则通过master监控传递并减少生产速度)7.基于JVM实现了自己的内存管理(应用可以超出

2021-10-11 19:49:29 168

原创 mac 连接显示屏无响应/转接口连接显示屏

这个比较玄学,我的是把电源线拔了然后把转接口插入,稳定一下,多插几次就好使了,然后再插电源线。

2020-08-18 10:46:40 829

原创 xgboost 推导 /原理/公式/

首先要知道booster中四个经典模型,gbdt,lightgboost,xgboost,catboost,具体区别自己百度,各有优缺点。公式xgboost 目标函数目标函数就是损失相关,一般模型都是要使目标函数最小化。xgboost 目标函数由训练损失和正则化项两部分组成,目标定义如下: 前半部分为训练损失,后半部分为树的复杂度是损失函数。是真实值,是预测值,i...

2019-11-25 22:30:55 319

原创 关于xgboost gpu版本 linux下安装 各种坑

一般按照官网来安装就行https://xgboost.readthedocs.io/en/latest/build.html如果安装到make -j4出错,那是因为你的驱动版本不对,或者cuda版本和驱动版本冲突的问题实在编译不了了,请将cuda升级到10,并把对应驱动安好,然后直接下载编译好的xgboost1.0版本,亲测好使。而且,其实gpu版本快不了多少,除非你gpu真的多。...

2019-11-20 12:01:51 608

原创 pytorch-1

什么是pytorch这个就是一个框架,是twitter开源的吧,和tensorflow类似,就是把python代码进行封装,还封装了各种库,使得你计算和创建神经网络这些通过它的方式可以更加快速;主要特点和功能混合前端新的混合前端在急切模式和图形模式之间无缝转换,以提供灵活性和速度。分布式培训通过torch.distributed后端实现可扩展的分布式培训和研究与生产中的性...

2019-05-11 17:37:08 122

原创 XGBoost

原理xbt中的目标函数是有个正则项惩罚复杂模型;将树拆分成结构部分q和叶子部分权重w;构建最优模型的一般方法是最小化训练数据的损失函数,我们用字母 L表示,如下式:式(1)称为经验风险最小化,训练得到的模型复杂度较高。当训练数据较小时,模型很容易出现过拟合问题。因此,为了降低模型的复杂度,常采用下式:其中J(f)为模型的复杂度,式(2)称为结构风险最小化,结构风险最小...

2019-04-08 00:20:19 420

原创 GBDT

GBDT创建日期 星期五 05 四月 2019加法模型加法模型 就是求和,也没啥特殊的;这里的求和举个简单的例子就是带权累加求和;其中是权值,是参数前项分布算法我感觉这个就是一个贪心求解的过程,只不过求解的值的和变成了损失函数的值;算法思路就是从前往后异步只学习一个奇函数及其系数,每次取最小值,逐步逼近优化目标函数;负梯度拟合向负梯度方向拟合,在GBD...

2019-04-07 20:10:52 270

原创 集成学习与随机森林

集成学习创建日期 星期二 18 十二月 2018首先有个概念,个体学习器,一般是弱学习器,当然强学习器也是可以的;集成学习就是把个体学习器做一次集成,然后对结果进行一次决策,就叫集成学习,举个简单的例子就是,100个人中来吃一包口味一样的糖,然后其中有98个人说是甜的,做个投票,然后就说这包糖是甜的;然后个体学习器中分为强关联的学习器和弱关联学习器,两个不一样,强关联也叫强依赖,意思是...

2019-04-04 20:42:15 399

原创 debian系列linux 启动后黑屏,只有一个光标

重复的按ctrl+alt+F1 一直到光标消失,如果跳出一个客户端登录的话就再重复按一下上面介绍的组合键,过一会儿就开机了

2019-03-29 10:58:15 12080 3

原创 bert

bert创建日期 星期六 23 三月 2019从模型的创新角度看一般,创新不大,但是实验的效果太好了,基本刷新了很多NLP的任务的最好性能,另外一点是BERT具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。与最近的语言表征模型不同,BERT基于所有层中的左、右语境进行联合调整,来预训练深层双向表征。只需要增加一个输出层,就可以对预训练的BERT表征进...

2019-03-23 15:24:41 912

原创 Hierarchical Attention Networks

Hierarchical Attention Networks创建日期 星期一 18 三月 2019第一: 利用文档原有的层次结构特性(句子是由单词组成,文档是由句子组成),先使用单词的词向量表示句子,再此基础上以句子向量构建文档的信息表示。第二:在文档中,句子对文档的重要性贡献有差异,在句子中单词对句子的重要性贡献也有差异。而单词和句子的重要性依赖于上下文环境。相同的单词,在不同的上下...

2019-03-18 20:09:09 715

原创 基本的Attention原理

基本的Attention原理创建日期 星期一 18 三月 2019注意力机制就是加权求和,将需要重点注意的地方设置大的权重,可以来解决rnn的局限问题;Attention机制最早是在视觉图像领域提出来的,应该是在九几年思想就提出来了,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN...

2019-03-18 20:06:51 538

原创 rnn 循环神经网络

rnn 循环神经网络创建日期 星期四 10 一月 2019rnn为 recurrent natural network, 递归神经网络 是一种基于序列的神经网络,序列可以是时间,文本序列等,和普通的神经网络的不同是rnn不光在层之间有权值,同一个层中每个神经元之间也有权值;但是这个有个缺点是只能有短期记忆,过于长的文本之间的关系可能计算不好,这里就需要lstm;RNN是一种可以预测...

2019-03-17 15:29:28 512

原创 卷积神经网络

卷积神经网络创建日期 星期五 15 三月 2019卷积神经网络的特点在于卷积;通俗的来说卷积就是局部扫描,然后进行训练识别,将一个图像卷积,从原来的n维矩阵进行折叠,进行降维操作,然后对其进行全连接加权,池化层等Layers used to build ConvNets卷积神经网络通常包含以下几种层:卷积层(Convolutional layer),卷积神经网路中每层卷积...

2019-03-15 22:28:39 731

原创 fasttext

fasttext创建日期 星期二 12 三月 2019fasttext 和CBOW模型很像,也是有一层输入层,然后隐藏层然后到输出层;fastText适合与短文本分类;是将所以词语映射成向量,从向量线性变换到特征层,然后从特征层来求最大似然函数;然后从该层映射到标签;FastText= word2vec中 cbow + h-softmax的灵活使用灵活体现在两个方面:模型的输...

2019-03-12 20:58:16 147

原创 深度学习优化

深度学习优化创建日期 星期一 11 三月 2019、学习与纯优化有什么不同2、神经网络优化中的挑战3、基本算法4、自适应学习率算法5 、优化策略与元算法学习与纯优化差别1、机器学习算法的目标是降低泛化误差,即J∗(θ)=E(x,y)→pdataL(f(x;η),y)J∗(θ)=E(x,y)→pdataL(f(x;η),y),但事实上pdata我们不知道,我们只知道训练...

2019-03-11 19:31:15 234

原创 神经网络

神经网络创建日期 星期三 12 十二月 2018神经网络来源于模拟人类的神经元;使用激活函数,来进行阶跃,神经网络的每一层的个数被称为宽度,总层数被称为深度;每一层的激活函数必须一样?一般来说,神经网络由线性函数和非线性函数组成,线性函数用于层与层之间的传递,而非线性函数一般用来作为激活函数;简单来说,可以把这些看做是带权笛卡尔积,这些权值都是未知数,然后从这些开始进行权值的求值,...

2019-03-11 19:10:58 248

原创 LDA和PLSA

pLSA的总结1)pLSA应用于信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主题分布,使用EM算法来学习参数。2) 虽然推导略显复杂,但最终公式简洁清晰,很符合直观理解,需用心琢磨;此外,推导过程使用了EM算法,也是学习EM算法的重要素材。二、LDA(1)共轭先验分布1)由于x为给定样本,P(x)有时被称为“证据”,仅仅是归一化因子,如果不关心P(θ|x)的具体...

2019-03-08 15:13:59 525

原创 svm

svm就是建立超平面,来进行分类,划分,而最优的划分和超平面到分类元素的最近距离;# -*- coding:UTF-8 -*-import matplotlib.pyplot as pltimport numpy as npimport random"""函数说明:读取数据Parameters: fileName - 文件名Returns: dataMat ...

2019-03-08 15:13:14 140

原创 互信息和点互信息

互信息和点互信息创建日期 星期四 07 三月 2019点互信息PMI(Pointwise Mutual Information)点互信息就是很亮两个失误的相关性,在概率论中,我们知道,如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x, y)就相比于p(x)p(y)越大。用后面的式子可能更好理解,在y出现的情况下x出现的条件概率p(x|y)除以x本身出现...

2019-03-07 21:55:49 1478

原创 TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)简单介绍一下就是词出现的频率在特定文章中出现的次数越多,在所有文档中出现的次数越少,越能代表文章;就是特定文档出现的词作为该文档的代表;词频一般都会被归一化,防止长文档中词出现的数量多但是占比不如短文本中的词频;但是不一定词频越高了就越好,有些词对于主题原本就没有什么...

2019-03-05 21:06:22 103

原创 word2vec

word2vec创建日期 星期二 05 三月 2019word2vec,是用来训练词向量来做nlp的;google团队在2013年发表了word2vec工具,主要包含两个模型跳字模型(skip-gram) 连续词袋模型(CBOW)以及两种高效训练方法负抽样(negative sampling)和层序 (softmax)使用word2vec就可以比较好的表达不同次之间的相似和类比...

2019-03-05 21:05:07 209

原创 关于pip打开失败,python版本问题 ModuleNotFoundError: No module named 'distutils.util'

当我改变python3的软连接从3.7改为3.6时发生了以下错误Traceback (most recent call last): File "/usr/local/bin/pip3", line 7, in <module> from pip._internal import main File "/usr/local/lib/python3.6/dist-pa...

2019-03-03 18:41:41 5433

原创 准确率,精确率,召回率

准确率(accuracy),精确率(precision),召回率(recall)准确率,分类正确占所有分类的占比精确率,正确检索占所有实际检索到的占比召回率,预测的样本占该类应该被预测的数量的占比...

2019-03-02 21:02:27 188

原创 文本分类pytorch和tensorflow版探究

pytorch探究采用thucnews数据子集tensorflow使用tensorflow官网例子,数据集下载很慢,需要vpn;cnews那个例子我是用的是rnn模型,gru;#!/usr/bin/python# -*- coding: utf-8 -*-import tensorflow as tfclass TRNNConfig(object): """RNN配...

2019-03-02 21:01:42 371

原创 数据加载(python,spark)

数据加载创建日期 星期五 01 三月 2019这一章写一下数据加载的东西一般就是python加载或者jiava,scala加载java加载都很熟悉,就是流加载inputstream outputstream之类的python加载普通加载f = open(’test.txt','r') # 返回一个文件对象line = f.readline() # 调用文件的 readline...

2019-03-01 21:47:59 184

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除