嘻哈吼嘿呵-CSDN博客

原创 Spark、Flink 、Big Data、Java实用文章

目录一、Spark二、Flink一、SparkApache Spark在海致大数据平台中的优化实践 Spark/Flink广播实现作业配置动态更新 Spark面对OOM问题的解决方法及优化总结 Spark 动态资源分配(Dynamic Resource Allocation) 解析基于SparkStreaming+Kafka+HBase实时点击流案例 H...

2019-12-12 10:27:38 186

原创 Python 经常犯迷糊的用法

一、Python标准函数1、enumerateenumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。>>>seasons = ['Spring', 'Summer', 'Fall', 'Winter']>>> list(enumerate(seaso...

2019-12-04 14:30:12 165

原创 pip、conda改源、Python安装包相关问题

一、临时使用国内源python，修改pip源与conda源为国内清华镜像源pip 后加参数 -ipip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas二、永久使用国内源1、Python（1）Linux下修改 ~/.pip/pip.conf (没有就创建一个)，修改 index-url至tuna，内...

2019-10-24 19:49:30 716

概述数据建模的过程中，会对几百个甚至上千个字段进行命名，特别在一个团队中，经常会遇到这些问题：这时候就需要建立一个标准的、统一的命名平台，每个人不仅可以维护自己的标准命名，还可以和同事之间，企业之间共享标准命名。下面是命名标准管理系统的网址，欢迎注册使用。知了命名：www.zlmingming.cn功能介绍首页在首页可以根据关键字查询标准命名，如果在自己的库里查不到，会查询到翻译后的值。还可以看到本公司其他库里标准命名...

2021-03-25 18:13:10 257

转载数仓可视化，低代码开发平台

概述在数据仓库建设中，特别是在多个开发人员的过程中，经常会遇到以下问题：需要把数仓整个生命周期进行统一管理，基于元数据驱动的自动化、可视化的平台，实现低代码开发。功能模块开发平台主要包括以下模块：需求管理，源系统管理，数据探查，业务总线矩阵，维度建模，ETL管理，作业管理，BI应用管理，数据标准管理，元数据管理。需求管理：统一管理各部门的需求文档，定义需求文档标准格式，管理需...

2021-03-25 18:09:50 443

转载数据仓库(七)之作业调度篇

概述随着数据仓库的开发，ETL作业会越来越多，怎么把这些作业有序的运行起来，就需要一个健壮的调度系统来保证数据能够准确、及时的提供给BI应用程序。调度系统设计目标调度系统架构ETL作业数据仓库的ETL作业可能不至一种，需要把各种作业再次进行封装，建立作业的标准格式，统一作业的输入参数、输出参数和参数格式，达到所有的作业调度方式一致。作业管理提供便捷的...

2021-03-25 18:09:17 567

转载 2021-03-25

概述数据质量的高低代表了该数据满足数据消费者期望的程度，这种程度基于他们对数据的使用预期。数据质量必须是可测量的，把测量的结果转化为可以理解的和可重复的数字，使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动，运用质量管理技术度量、评估、改进和保证数据的恰当使用。数据质量维度数据质量产生的根本原因...

2021-03-25 17:31:12 111

转载数据仓库(五)元数据管理

概述元数据通常定义为”关于数据的数据”,在数据仓库中是定义和描述DW/BI系统的结构，操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期，使用元数据驱动数据仓库的开发，使数据仓库自动化，可视化。元数据类型1.业务元数据业务元数据指从业务角度描述业务领域相关的概念、关系和规则的数据，包括业务术语和业务规则等信息。2.技术元数据技术元数据指描述系统中技术细节相关的概念、...

2021-03-25 17:14:17 215

转载数据仓库(四)之ETL开发

概述ETL是数据仓库的后台，主要包含抽取、清洗、规范化、提交四个步骤，传统数据仓库一般分为四层模型。分层的作用STG层在维度建模阶段已经确定了源系统，而且对源系统进行了数据评估。STG层是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式，如果是根据日志信息实时同步...

2021-03-25 17:10:51 720

转载数据仓库(三)之架构篇

概述架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就是回答怎么做的问题。架构的价值数据仓库架构数据仓库的核心功能从源系统抽取数据，通过清洗、转换、标准化，将数据加载到BI平台，进而满足业务用户的数据分析和决策支持。数据仓库架构包含三个部分：数据架构、应用程序架构、底层设...

2021-03-25 16:58:52 159

转载数据仓库(二)之维度建模篇

概述维度建模是一种将数据结构化的逻辑设计方法，它将客观世界划分为度量和上下文。度量是常常是以数值形式出现，事实周围有上下文包围着，这种上下文被直观地分成独立的逻辑块，称之为维度。它与实体-关系建模有很大的区别，实体-关系建模是面向应用，遵循第三范式，以消除数据冗余为目标的设计技术。维度建模是面向分析，为了提高查询性能可以增加数据冗余，反规范化的设计技术。维度建模优点事实表事实表...

2021-03-25 16:50:24 254

转载数据仓库(一)之需求篇

概述业务需求定义了企业的业务人员为了完成其工作，进而实现企业目标，一定要具备的东西。包括功能性需求和提供的服务。它是数据仓库的核心，从广度和深度上做好需求调研为数据仓库建设建立良好的开端。需求分类需求调研步骤1.确定调研对象由于业务人员不懂技术，它们以为需求都会得到满足。各个项目开发人员不懂业务，不熟悉整个业务场景。数据仓库团...

2021-03-25 16:23:44 243

原创 scala实现各种排序算法

1、冒泡排序object BubblingSort { /** * 比较相邻元素的大小，对于每次循环，按排序的规则把最值移向数组的一端，同时循环次数依次减少 * @param args */ def main(args: Array[String]): Unit = {// val testData = new ArrayBuffer[Int]// testData += 10;testData += 101;testData += 75;testDat

2021-03-15 18:55:26 560

转载一、十大海量数据处理方法总结

一、布隆过滤器(BloomFilter)如果想判断一个元素是不是在一个集合里，一般想到的是将集合中所有元素保存起来，然后通过比较确定。链表、树、散列表（又叫哈希表，Hash table）等等数据结构都是这种思路，存储位置要么是磁盘，要么是内存。很多时候要么是以时间换空间，要么是以空间换时间。在响应时间要求比较严格的情况下，如果我们存在内里，那么随着集合中元素的增加，我们需要的存储空间越来越...

2020-06-30 16:15:31 1286

原创十四、AI学习笔记|人脸识别

1、人脸识别概述人脸验证：给定一个人脸和它对应的ID，让系统来判断这个人是否就是这个ID对应的人。如手机的人脸解锁功能、火车站的进站闸口。人脸识别：就是随便给定一个人，然后给出这个人的相关信息。活体检测：防止别人用你的一张照片来欺骗摄像头，检测摄像头前的是否是活人。 2、差异性验证公司内部的人脸打卡系统和人脸门禁系统如何实现？（1）第一种方案使用公司员工相片作为数据集，训练一个CNN神经网络，当输入相片到CNN时，输出对应数据库中的哪一个人。缺点公

2020-06-14 19:07:47 243

原创十三、AI学习笔记|物体探测（二）

1、YOLO探测法滑动窗口弹测法：计算量大。卷积化的滑动窗口：不够精准，原因：一个物体可能同时存在于多个滑动窗口中。YOLO探测法设100x100的图像如下，划分成3x3的9个小格子在制作数据集时，需要对每个小格子制作对应的y标签，设y标签如下（假设只考虑一个格子中只有一个物体）：每个小格子对应8个元素，则上图最终形成的标签维度为3x3x8注意：在对每个格子打标签时，y标签内的坐标按照以下标准：格子左上角为原点（0,0），右下角为（1,1）点。物体的宽

2020-06-13 20:06:17 217

原创十二、AI学习笔记|物体探测（一）

test

2020-06-13 17:32:34 239

原创十一、AI学习笔记|Inception网络

1、 1x1卷积也称为网中网如下，输入一个 6x6 的矩阵，过滤器是 1x1 的，则相当于每个元素简单的乘以了 2。作用池化层可以改变矩阵的大小，1x1 卷积则可以改变矩阵的深度。有些人虽然使用了 1x1 卷积核，但是却不改变输出矩阵的深度，他们的目的不是为了减少计算量，而是为了增加网络的复杂度，因为增加了一层 1x1 卷积，就相当于多了一层激活函数。2、Inception网络在设计卷积层的时候，经常会犯选择困难症，到底是用 1x1 的卷积核？还是用 3x3 的卷积核.

2020-06-07 19:53:59 188

原创十、AI学习笔记|残差网络ResNet

1、残差网络由于梯度爆炸和梯度消失的问题，导致越深的神经网络越难训练好，所以即使有足够的计算力和数据，也难以得到很深很深的优秀神经网络。残差网络：使用跳跃连接，用它来讲前面的激活值跳过中间的网络层，而直接传递到更后面的网络层去，由此来避免梯度爆炸和梯度消失。使用此种跳跃连接构建出来的网络，称之为残差网络。残差网络由一个个的残差块组成的。（1）残差块：如下两个神经网络层如果发生梯度爆炸（梯度消失），激活值会越来越大（越来越小），为了解决这种问题，可以将的公式变成，将跳到了后面的

2020-06-07 18:57:03 409

原创九、Ai学习笔记|VGG

卷积层VGG的每一个卷积层使用的都是 3x3的卷积层，步长都是1，而且都是 same层（即卷积后，通过padding，使得矩阵的大小不变）池化层每一个池化层步长都是2，并且大小为 2x2[CONV 64]x2 便是两个卷积层，每个卷积层 64 个过滤器AlexNet 被用来识别 1000分类因为有 16 个带参数的神经网络，13个卷积层，3个全连接层，池化层不被计算在内，所欲被叫做 VGG16...

2020-06-06 19:42:25 546

原创八、AI学习笔记|AlexNet

网络的输入数据是彩色图像AlexNet使用的是relu函数

2020-06-06 19:35:22 154

原创七、AI学习笔记|LeNet-5

起初被用于10分类识别

2020-06-06 19:27:49 124

原创六、AI学习笔记|智能视觉|卷积神经网络

目录1、智能视觉2、卷积运算3、边缘检测4、Padding5、卷积运算后的矩阵大小6、3D卷积7、池化层8、卷积的好处1、智能视觉图像识别目标检测风格转换：输入一张图片，输出不同风格的版本问题：神经网络的输入特征会比较大，可能会出现过拟合、对计算力的要求较高2、卷积运算假设有一张6x6x1的图片有一个卷积核（也可以叫过滤器）：过滤器的维度一般都是奇数的：如 1x1、 3x3、 5x5、 7x7用*代表卷积运算，结果将得到一个 .

2020-06-06 19:17:05 275

原创五、AI学习笔记|项目实战优化二

1、手工分析错误若AI系统没有达到人类水平，可以通过人为的对错误分析，知道系统应该朝哪个方向去提升。假如有一种情况：在识别猫的系统中，系统将很像猫的狗识别成了猫。从验证集中取出100张识别错误的图片，任务取识别猫和狗的数量。如果狗的数量=5，则不能识别的图像中狗只占5%，占比不多，即使将所有的狗都识别正确，系统的准确率也只会提高5%。如果狗的数量=50，占比很大，则应该去提升对狗的识别度。可以同时分析多个错误类别。2、错误标签训练集中的错误标签对神经网络的影响微乎其微，因为他们在

2020-05-31 17:21:06 153

原创四、AI学习笔记|项目实战优化一

1、正交化

2020-05-30 19:51:56 140

原创三、AI学习笔记|神经网络调试

1、常调节的超参数学习率动量梯度下降中的 k 每层的神经元个数 n 子训练集 mini-batch 的大小神经网络层数 L 学习率控制衰减超参数 decayRate 2、调节方法网格搜索法：效率很低，不推荐使用随机搜索法：在合理的取值范围之内，随机选取一些点。可以尝试更多不同的超参数值，先寻找到大概适合的值，将参数确定在该点的周围区域，然后进行更精密的搜索3、采样标尺随机搜索可以叫做随机采样，或者随机均匀采样。假如取值

2020-05-30 17:11:13 197

原创二、AI学习笔记|优化算法

1、mini-batch在实际项目中，训练集很庞大，一次性加载不仅硬件无法满足，而且大数据量使得神经网络进行一次梯度下降就需要很长时间。batch梯度下降：使用整个训练集训练模型mini-batch梯度下降：将庞大的训练集拆分成一个个小的训练集，依次使用小的训练集进行训练。随机梯度下降：将一个样本当做一个子训练集mini-batch的合理大小设置：大小需要考虑硬件的承受能力、CPU、GPU、内存等可以承受多少样本，一般来说子集的大小设置成 2 的...

2020-05-30 16:20:25 170

原创一、AI学习笔记|优化基础

1、数据集配置有人将数据集划分成训练集、验证集和测试集，也有人只划分成训练集和测试集。

2020-05-29 19:36:41 257

转载 mysql分组排序取最大、最小、最新、前N条记录

先看一下本示例中需要使用到的数据创建表并插入数据： create table tb(name varchar(10),val int,memo varchar(20)) insert into tb values('a', 2, 'a2') insert into tb values('a', 1, 'a1') insert into tb values('a', 3, 'a3') insert into tb values('b', 1, 'b1.

2020-05-29 11:48:57 901

转载卷积神经网络（Convolutional Neural Network, CNN）

目录一、卷积层1、卷积计算过程2、符号表示3、卷积的参数4、整体计算过程如下（与上图中的数据不同，但是计算过程相同）5、卷积后输出的大小计算公式二、池化层一、卷积层卷积层是卷积神经网络的核心基石。在图像识别里我们提到的卷积是二维卷积，即离散二维滤波器（也称作卷积核）与二维图像做卷积操作，简单的讲是二维滤波器滑动到二维图像上所有位置，并在每个位置上与该像素点及...

2019-12-15 20:19:21 1078

转载十二、从 RGB 到 HSV 的转换详细介绍

从RGB 到 HSV 的转换详细介绍1.RGB &nb...

2019-12-14 19:24:45 458

转载十三、skimage高级滤波

本文提供更多更强大的滤波方法，这些方法放在filters.rank子模块内。这些方法需要用户自己设定滤波器的形状和大小，因此需要导入morphology模块来设定。1、autolevel这个词在photoshop里面翻译成自动色阶，用局部直方图来对图片进行滤波分级。该滤波器局部地拉伸灰度像素值的直方图，以覆盖整个像素值范围。格式：skimage.filters.rank.aut...

2019-12-12 00:27:17 2123

转载十二、skimage基本图形的绘制

对图像进行形态学变换。变换对象一般为灰度图或二值图，功能函数放在morphology子模块内。1、膨胀（dilation)原理：一般对二值图像进行操作。找到像素值为1的点，将它的邻近像素点都设置成这个值。1值表示白，0值表示黑，因此膨胀操作可以扩大白色值范围，压缩黑色值范围。一般用来扩充边缘或填充小的孔洞。功能函数：skimage.morphology.dilation(image,...

2019-12-11 01:56:48 1391

转载十一、skimage基本图形的绘制

图形包括线条、圆形、椭圆形、多边形等。在skimage包中，绘制图形用的是draw模块，不要和绘制图像搞混了。1、画线条函数调用格式为：skimage.draw.line(r1,c1,r2,c2)r1,r2: 开始点的行数和结束点的行数c1,c2: 开始点的列数和结束点的列数返回当前绘制图形上所有点的坐标，如：rr, cc =draw.line(1, 5, 8, ...

2019-12-11 01:42:31 3155

转载十、skimage图像自动阈值分割

图像阈值分割是一种广泛应用的分割技术，利用图像中要提取的目标区域与其背景在灰度特性上的差异，把图像看作具有不同灰度级的两类区域(目标区域和背景区域)的组合，选取一个比较合理的阈值，以确定图像中每个像素点应该属于目标区域还是背景区域，从而产生相应的二值图像。在skimage库中，阈值分割的功能是放在filters模块中。我们可以手动指定一个阈值，从而来实现分割。也可以让系统自动生成一个阈值，...

2019-12-11 01:40:01 2639

转载九、skimage图像简单滤波

对图像进行滤波，可以有两种效果：一种是平滑滤波，用来抑制噪声；另一种是微分算子，可以用来检测边缘和特征提取。 skimage库中通过filters模块进行滤波操作。1、sobel算子sobel算子可用来检测边缘函数格式为：skimage.filters.sobel(image,mask=None)from skimage import data,filt...

2019-12-11 01:30:07 5588 3

转载八、skimage直方图与均衡化

目录1、计算直方图2、绘制直方图3、彩色图片三通道直方图4、直方图均衡化在图像处理中，直方图是非常重要，也是非常有用的一个处理要素。在skimage库中对直方图的处理，是放在exposure这个模块中。1、计算直方图函数：skimage.exposure.histogram(image,nbins=256)在numpy包中，也提供了一个计算直方图的函数hist...

2019-12-11 01:10:46 1894

转载七、skimage对比度与亮度调整

目录1、gamma调整2、log对数调整3、判断图像对比度是否偏低4、调整强度（1）强度调节（2）另一种uint8转float方法图像亮度与对比度的调整，是放在skimage包的exposure模块里面1、gamma调整原理：I=Ig对原图像的像素，进行幂运算，得到新的像素值。公式中的g就是gamma值。如果gamma>1, 新图像比原图像暗如...

2019-12-11 01:01:03 2808

转载六、skimage放缩、旋转、金字塔

图像的形变与缩放，使用的是skimage的transform模块，函数比较多，功能齐全。1、改变图片尺寸resize函数格式为：skimage.transform.resize(image, output_shape)image: 需要改变尺寸的图片output_shape: 新的图片尺寸# -*- coding: utf-8 -*-# @Time : 2019/12...

2019-12-10 01:47:13 1546

转载五、skimage图像的批量处理

1、ImageCollection批量操作图片有些时候，我们不仅要对一张图片进行处理，可能还会对一批图片处理。这时候，我们可以通过循环来执行处理，也可以调用程序自带的图片集合来处理。图片集合函数为：skimage.io.ImageCollection(load_pattern,load_func=None)这个函数是放在 io 模块内的，带两个参数，第一个参数load_patte...

2019-12-10 01:29:02 1569

尚硅谷大数据技术之Sqoop.pdf

预处理数据.zip

空空如也