自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

妳那伊抹微笑的专栏

如果没有了妳我该如何往下走 、、、

  • 博客(107)
  • 资源 (15)
  • 收藏
  • 关注

翻译 Apache Spark RDD 论文(中文翻译)

概要为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题,我们提出了 RDDs 的概念。当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差,这个是 RDDs 的提出的动机。如果能将数据保存在内存中,将会使的上面两种场景的性能提高一个数量级。为了能达到高效的容错,RDDs 提供了一种受限制的共享内存的方式,这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状...

2019-04-07 22:28:28 4538 7

翻译 Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

Spark 编程指南概述Spark 依赖初始化 Spark使用 Shell弹性分布式数据集 (RDDs)并行集合外部 Datasets(数据集)RDD 操作基础传递 Functions(函数)给 Spark理解闭包示例Local(本地)vs. cluster(集群)模式打印 RDD 的

2017-09-20 14:27:58 827

原创 Apache Spark 2.2.0 官方文档中文版(翻译完成 98%. 除 MLib 外) | ApacheCN

原文链接: http://www.apachecn.org/bigdata/spark/268.htmlApache Spark™ 是一个快速的, 用于海量数据处理的通用引擎.官方网址: http://spark.apache.org中文文档: http://spark.apachecn.org花了大概两周左右的时间,在原来 Spark 2.0.2 中文文档 版本的基础

2017-08-07 19:48:55 39766 13

原创 scikit-learn(sklearn)0.18 官方文档中文版 | ApacheCN

ApacheCN(Apache中文网)- 关于我们 : http://cwiki.apachecn.org/pages/viewpage.action?pageId=10813869ApacheCN cwiki 地址为 scikit-learn 0.18 中文文档 : http://cwiki.apachecn.org/pages/viewpage.action?pageId=1003

2017-07-18 12:51:01 2940

翻译 【Scikit-Learn 中文文档】处理文本数据 - scikit-learn 教程 | ApacheCN

中文文档: http://sklearn.apachecn.org/cn/stable/tutorial/text_analytics/working_with_text_data.html英文文档: http://sklearn.apachecn.org/en/stable/tutorial/text_analytics/working_with_text_data.html

2017-12-08 15:46:30 1083

翻译 【Scikit-Learn 中文文档】寻求帮助 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

寻求帮助项目邮件列表如果您在使用 scikit 的过程中发现错误或者需要在说明文档中澄清的内容,可以随时通过 Mailing List 进行咨询。机器学习从业者的 Q&A 社区Quora.com: Quora有一个和机器学习问题相关的主题以及一些有趣的讨论: https://www.quora.com/topic/Machine-LearningStack Exchange: Stack Exchange 系列网站包含 `multiple subdomains for Machine Lear

2017-11-30 15:54:31 692

翻译 【Scikit-Learn 中文文档】把它们放在一起 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

把它们放在一起模型管道化我们已经知道一些模型可以做数据转换,一些模型可以用来预测变量。我们可以建立一个组合模型同时完成以上工作:

2017-11-30 15:51:25 455

翻译 【Scikit-Learn 中文文档】无监督学习: 寻求数据表示 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

无监督学习: 寻求数据表示聚类: 对样本数据进行分组可以利用聚类解决的问题对于 iris 数据集来说,我们知道所有样本有 3 种不同的类型,但是并不知道每一个样本是那种类型:此时我们可以尝试一个 clustering task(聚类任务) 聚类算法: 将样本进行分组,相似的样本被聚在一起,而不同组别之间的样本是有明显区别的,这样的分组方式就是 clusters(聚类)K-means 聚类算法关于聚类有很多不同的聚类标准和相关算法,其中最简便的算法是 K-means 。

2017-11-30 15:49:37 717

翻译 【Scikit-Learn 中文文档】模型选择:选择估计量及其参数 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

中文文档: http://sklearn.apachecn.org/cn/stable/tutorial/statistical_inference/model_selection.html英文文档: http://sklearn.apachecn.org/en/stable/tutorial/statistical_inference/model_selection.html

2017-11-30 15:47:57 697

翻译 【Scikit-Learn 中文文档】监督学习:从高维观察预测输出变量 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

监督学习:从高维观察预测输出变量监督学习解决的问题监督学习 在于学习两个数据集的联系:观察数据 X 和我们正在尝试预测的额外变量 y (通常称“目标”或“标签”), 而且通常是长度为 n_samples 的一维数组。scikit-learn 中所有监督的 估计量 <https://en.wikipedia.org/wiki/Estimator> 都有一个用来拟合模型的 fit(X, y) 方法,和根据给定的没有标签观察值 X 返回预测的带标签的 y 的 predict(X) 方法。词汇:分类和回归

2017-11-30 15:44:34 718

翻译 【Scikit-Learn 中文文档】机器学习: scikit-learn 中的设置以及预估对象 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

机器学习: scikit-learn 中的设置以及预估对象数据集Scikit-learn可以从一个或者多个数据集中学习信息,这些数据集合可表示为2维阵列,也可认为是一个列表。列表的第一个维度代表 样本 ,第二个维度代表 特征 (每一行代表一个样本,每一列代表一种特征)。样例: iris 数据集(鸢尾花卉数据集)>>>>>> from sklearn import datasets>>> iris = datasets.load_iris()>>> data = iris.data>>> d

2017-11-30 15:41:35 627

翻译 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习 - scikit-learn 教程 | ApacheCN

使用 scikit-learn 介绍机器学习内容提要在本节中,我们介绍一些在使用 scikit-learn 过程中用到的 机器学习 词汇,并且给出一些例子阐释它们。机器学习:问题设置一般来说,一个学习问题通常会考虑一系列 n 个 样本 数据,然后尝试预测未知数据的属性。 如果每个样本是 多个属性的数据 (比如说是一个多维记录),就说它有许多“属性”,或称 features(特征) 。我们可以将学习问题分为几大类:监督学习 , 其中数据带有一个附加属性,即我们想要预测的结果值( 点击此处 转到

2017-11-30 15:37:04 550

翻译 【Scikit-Learn 中文文档】预测延迟 / 预测吞吐量 / 技巧和窍门 - 计算性能 - 用户指南 | ApacheCN

7. 计算性能对于某些 applications (应用),estimators(估计器)的性能(主要是 prediction time (预测时间)的 latency (延迟)和 throughput (吞吐量))至关重要。考虑 training throughput (训练吞吐量)也可能是有意义的,但是在 production setup (生产设置)(通常在脱机中运行)通常是不太重要的。我们将在这里审查您可以从不同上下文中的一些 scikit-learn estimators(估计器)预期的数量级

2017-11-30 15:31:12 763

翻译 【Scikit-Learn 中文文档】大规模计算的策略: 更大量的数据 - 用户指南 | ApacheCN

6. 大规模计算的策略: 更大量的数据对于一些应用程序,需要被处理的样本数量,特征数量(或两者)和/或速度这些对传统的方法而言非常具有挑战性。在这些情况下,scikit-learn 有许多你值得考虑的选项可以使你的系统规模化。6.1. 使用外核学习实例进行拓展外核(或者称作 “外部存储器”)学习是一种用于学习那些无法装进计算机主存储(RAM)的数据的技术。这里描述了一种为了实现这一目的而设计的系统:一种用流来传输实例的方式一种从实例中提取特征的方法增量式算法6.1.1. 流式实例基本上

2017-11-30 15:27:26 746

翻译 【Scikit-Learn 中文文档】数据集加载工具 - 用户指南 | ApacheCN

5. 数据集加载工具该 sklearn.datasets 包装在 Getting Started 部分中嵌入了介绍一些小型玩具的数据集。为了在控制数据的统计特性(通常是特征的 correlation (相关性)和 informativeness (信息性))的同时评估数据集 (n_samples 和 n_features) 的规模的影响,也可以生成综合数据。这个软件包还具有帮助用户获取更大的数据集的功能,这些数据集通常由机器学习社区使用,用于对来自 ‘real world’ 的数据进行检测算法。5.

2017-11-30 15:24:12 2246

翻译 【Scikit-Learn 中文文档】预测目标 (y) 的转换 - 数据集转换 - 用户指南 | ApacheCN

Star me on GitHubPrevious4.7. 成对的矩阵, 类别和核函数 Next 5. 数据集加载工具 Up 4. 数据集转换scikit-learn v0.19.0Other versionsPlease cite us if you use the software.4.8. 预测目标 (y) 的转换4.8.1. 标签二值化4.8.2. 标签编码4.8. 预测目标 (y) 的转换4.8.1. 标签二值化LabelBinarizer 是

2017-11-29 12:32:50 435

翻译 【Scikit-Learn 中文文档】成对的矩阵, 类别和核函数 - 数据集转换 - 用户指南 | ApacheCN

4.7. 成对的矩阵, 类别和核函数The sklearn.metrics.pairwise 子模块实现了用于评估成对距离或样本集合之间的联系的实用程序。本模块同时包含距离度量和核函数,对于这两者这里提供一个简短的总结。距离度量是形如 d(a, b) 例如 d(a, b) < d(a, c) 如果对象 a 和 b 被认为 “更加相似” 相比于 a 和 c. 两个完全相同的目标的距离是零。最广泛使用的例子就是欧几里得距离。 为了保证是 ‘真实的’ 度量, 其必须满足以下条件:对于所有的 a 和 b,d

2017-11-29 12:29:00 671

翻译 【Scikit-Learn 中文文档】内核近似 - 数据集转换 - 用户指南 | ApacheCN

4.6. 内核近似这个子模块包含与某些 kernel 对应的特征映射的函数,这个会用于例如支持向量机的算法当中(see 支持向量机)。 下面这些特征函数对输入执行非线性转换,可以用于线性分类或者其他算法。与 kernel trick 相比,近似的进行特征映射更适合在线学习,并能够有效 减少学习大量数据的开销。标准化使用内核的 svm 不能有效的适用到海量数据,但是使用近似内核映射的方法,对于线性 SVM 来说效果可能更好。 而且,使用 SGDClassifier 进行近似的内核映射,使得对海量数据进行非

2017-11-29 12:26:43 877

翻译 【Scikit-Learn 中文文档】随机投影 - 数据集转换 - 用户指南 | ApacheCN

4.5. 随机投影sklearn.random_projection 模块实现了一个简单且高效率的计算方式来减少数据维度,通过牺牲一定的精度(作为附加变量)来加速处理时间及更小的模型尺寸。 这个模型实现了两类无结构化的随机矩阵: Gaussian random matrix 和 sparse random matrix.随机投影矩阵的维度和分布是受控制的,所以可以保存任意两个数据集的距离。因此随机投影适用于基于距离的方法。参考:Sanjoy Dasgupta. 2000. Experiments w

2017-11-29 12:24:40 2097 1

翻译 【Scikit-Learn 中文文档】无监督降维 - 数据集转换 - 用户指南 | ApacheCN

4.4. 无监督降维如果你的特征数量很多, 在监督步骤之前, 可以通过无监督的步骤来减少特征. 很多的 无监督学习 方法实现了一个名为 transform 的方法, 它可以用来降低维度. 下面我们将讨论大量使用这种模式的两个具体示例.4.4.1. PCA: 主成份分析decomposition.PCA 寻找能够捕捉原始特征的差异的特征的组合. 请参阅 分解成分中的信号(矩阵分解问题).示例ref: ‘sphx_glr_auto_examples_applications_plot_face_re

2017-11-29 12:21:50 597

翻译 【Scikit-Learn 中文文档】预处理数据 - 数据集转换 - 用户指南 | ApacheCN

sklearn.preprocessing 包提供了几个常见的实用功能和变换器类型,用来将原始特征向量更改为更适合机器学习模型的形式。一般来说,机器学习算法受益于数据集的标准化。如果数据集中存在一些离群值,那么稳定的缩放或转换更合适。不同缩放、转换以及归一在一个包含边缘离群值的数据集中的表现在 Compare the effect of different scalers on data with outliers 中有着重说明。4.3.1. 标准化,也称去均值和方差按比例缩放数据集的 标准化 对s

2017-11-29 12:18:25 1587

翻译 【Scikit-Learn 中文文档】特征提取 - 数据集转换 - 用户指南 | ApacheCN

4.2. 特征提取模块 sklearn.feature_extraction 可用于提取符合机器学习算法支持的特征,比如文本和图片。Note 特征特征提取与 特征选择 有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。4.2.1. 从字典类型加载特征类 DictVectorizer 可用于将标准的Python字典(dict)对象列表的要素数组转换为 scikit-learn 估计器使用的 NumPy/SciPy 表示形式。虽然 Py

2017-11-29 12:14:29 1077

翻译 【Scikit-Learn 中文文档】Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器 - 数据集转换 - 用户指南 | ApacheCN

4.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器4.1.1. Pipeline: 链式评估器Pipeline 可以把多个评估器链接成一个。这个是很有用的,因为处理数据的步骤一般都是固定的,例如特征选择、标准化和分类。Pipeline 主要有两个目的:便捷性和封装性你只要对数据调用 ``fit``和 ``predict``一次来适配所有的一系列评估器。联合的参数选择你可以一次 :ref:`grid search <grid_search>`管道中所有评

2017-11-29 12:11:24 1693

翻译 【Scikit-Learn 中文文档】模型持久化 - 模型选择和评估 - 用户指南 | ApacheCN

在训练完 scikit-learn 模型之后, 最好有一种方法来将模型持久化以备将来使用,而无需重新训练. 以下部分为您提供了有关如何使用 pickle 来持久化模型的示例. 在使用 pickle 序列化时,我们还将回顾一些安全性和可维护性方面的问题.

2017-11-29 12:06:38 487

翻译 【Scikit-Learn 中文文档】模型评估: 量化预测的质量 - 模型选择和评估 - 用户指南 | ApacheCN

有 3 种不同的 API 用于评估模型预测的质量:Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是在每个 estimator (估计器)的文档中会有相关的讨论。Scoring parameter(评分参数): Model-evaluation tools (模型评估工具)使用 cross-validatio

2017-11-29 12:04:10 901

翻译 【Scikit-Learn 中文文档】验证曲线: 绘制分数以评估模型 - 模型选择和评估 - 用户指南 | ApacheCN

每种估计器都有其优势和缺陷。它的泛化误差可以用偏差、方差和噪声来分解。估计值的偏差 bias 是不同训练集的平均误差。估计值的方差 variance 用来表示它对训练集的 变化有多敏感。噪声是数据的一个属性。在下面的图中,我们可以看到一个函数 :math:`f(x) = \cos (\frac{3}{2} \pi x)`_ 和一些来自该函数的的带噪声数据的样本。 我们用三个不同的估计来拟合函数:多项式特征为 1,4 和 15 的线性回归。我们看到,第一个估计最多只能为样本和真正的函数提供一个很差的拟合 ,

2017-11-27 13:14:16 627

翻译 【Scikit-Learn 中文文档】模型持久化 - 模型选择和评估 - 用户指南 | ApacheCN

在训练完 scikit-learn 模型之后, 最好有一种方法来将模型持久化以备将来使用,而无需重新训练. 以下部分为您提供了有关如何使用 pickle 来持久化模型的示例. 在使用 pickle 序列化时,我们还将回顾一些安全性和可维护性方面的问题.

2017-11-27 13:11:19 503

翻译 【Scikit-Learn 中文文档】模型评估: 量化预测的质量 - 模型选择和评估 - 用户指南 | ApacheCN

有 3 种不同的 API 用于评估模型预测的质量:Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是在每个 estimator (估计器)的文档中会有相关的讨论。Scoring parameter(评分参数): Model-evaluation tools (模型评估工具)使用 cross-validatio

2017-11-27 13:08:09 1765

翻译 【Scikit-Learn 中文文档】优化估计器的超参数 - 模型选择和评估 - 用户指南 | ApacheCN

超参数,即不直接在估计器内学习的参数。在 scikit-learn 包中,它们作为估计器类中构造函数的参数进行传递。典型的例子有:用于支持向量分类器的 C 、kernel 和 gamma ,用于Lasso的 alpha 等。搜索超参数空间以便获得最好 交叉验证 分数的方法是可能的而且是值得提倡的。通过这种方式,构造估计器时被提供的任何参数或许都能被优化。具体来说,要获取到给定估计器的所有参数的名称和当前值,使用:

2017-11-27 13:03:51 631

翻译 【Scikit-Learn 中文文档】交叉验证 - 模型选择和评估 - 用户指南 | ApacheCN

学习一个预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据 它则无法预测出任何有用的信息。 这种情况称为“过拟合”(overfitting). 为了避免这种情况,在进行(监督)机器学习实验时,通常取出部分可利用数据作为实验测试集(test set): X_test, y_test。需要强调的是这里说的“实验(experiment)”并不仅限于学术(academic),因为即使是在商业场景下机器学习也往往是从实验开始的。利用s

2017-11-27 12:39:46 1057

翻译 【Scikit-Learn 中文文档】神经网络模型(无监督)- 无监督学习 - 用户指南 | ApacheCN

Restricted Boltzmann machines (RBM)(限制玻尔兹曼机)是基于概率模型的无监督非线性特征学习器。当用 RBM 或 RBMs 中的层次结构提取的特征在馈入线性分类器(如线性支持向量机或感知机)时通常会获得良好的结果。该模型对输入的分布作出假设。目前,scikit-learn 只提供了 BernoulliRBM,它假定输入是二值的,或者是 0 到 1 之间的值,每个值都编码特定特征被激活的概率。RBM 尝试使用特定图形模型最大化数据的可能性。所使用的参数学习算法( Stoch

2017-11-27 12:37:25 865

翻译 【Scikit-Learn 中文文档】密度估计 - 无监督学习 - 用户指南 | ApacheCN

密度估计在无监督学习,特征工程和数据建模之间划分了界线。一些最流行和最有用的密度估计方法是混合模型,如高斯混合( sklearn.mixture.GaussianMixture ), 和基于邻近的方法( sklearn.neighbors.KernelDensity ),如核密度估计。 clustering 一节中更充分地讨论了高斯混合,因为此方法也用作为一种无监督聚类方案。密度估计是一个非常简单的概念,大多数人已经熟悉了其中一种常用的密度估计技术:直方图。

2017-11-27 12:32:03 690

翻译 【Scikit-Learn 中文文档】新异类和异常值检测 - 无监督学习 - 用户指南 | ApacheCN

许多应用需要能够判断新观测是否属于与现有观测相同的分布(它是一个非线性的),或者应该被认为是不同的(这是一个异常值)。 通常,这种能力用于清理实际的数据集。 必须做出两个重要的区别:新奇检测: 训练数据不被异常值污染,我们有兴趣检测新观察中的异常情况。离群点检测: 训练数据包含异常值,我们需要适应训练数据的中心模式,忽略偏差观测值。scikit-learn项目提供了一套可用于新奇和离群点检测的机器学习工具。 该策略是通过数据从无监督的方式学习的对象来实现的:estimator.fit(X_train

2017-11-23 12:37:20 2854

翻译 【Scikit-Learn 中文文档】协方差估计 / 经验协方差 / 收敛协方差 / 稀疏逆协方差 / Robust 协方差估计 - 无监督学习 - 用户指南 | ApacheCN

2.6. 协方差估计许多统计问题在某一时刻需要估计一个总体的协方差矩阵,这可以看作是对数据集散点图形状的估计。 大多数情况下,基于样本的估计(基于其属性,如尺寸,结构,均匀性), 对估计质量有很大影响。 sklearn.covariance 方法的目的是 提供一个能在各种设置下准确估计总体协方差矩阵的工具。我们假设观察是独立的,相同分布的 (i.i.d.)。2.7. 经验协方差已知数据集的协方差矩阵与经典 maximum likelihood estimator(最大似然估计) (或 “经验协方差

2017-11-23 12:22:57 1451

翻译 【Scikit-Learn 中文文档】分解成分中的信号(矩阵分解问题) - 无监督学习 - 用户指南 | ApacheCN

主成分分析(PCA)2.5.1.1. 准确的PCA和概率解释(Exact PCA and probabilistic interpretation)PCA 用于对一组连续正交分量中的多变量数据集进行方差最大方向的分解。 在 scikit-learn 中, PCA 被实现为一个变换对象, 通过 fit 方法可以降维成 n 个成分, 并且可以将新的数据投影(project, 亦可理解为分解)到这些成分中。可选参数 whiten=True 使得可以将数据投影到奇异(singular)空间上,同时将每个成

2017-11-23 12:17:02 867

翻译 【Scikit-Learn 中文文档】双聚类 - 无监督学习 - 用户指南 | ApacheCN

Biclustering 可以使用 sklearn.cluster.bicluster 模块。 Biclustering 算法对数据矩阵的行列同时进行聚类。 同时对行列进行聚类称之为 biclusters。 每一次聚类都会通过原始数据矩阵的一些属性确定一个子矩阵。例如, 一个矩阵 (10, 10) , 一个 bicluster 聚类,有三列二行,就是一个子矩阵 (3, 2)>>>>>> import numpy as np>>> data = np.arange(100).reshape(10, 1

2017-11-23 12:12:21 1048

翻译 【Scikit-Learn 中文文档】聚类 - 无监督学习 - 用户指南 | ApacheCN

未标记的数据的 Clustering(聚类) 可以使用模块 sklearn.cluster 来实现。每个 clustering algorithm (聚类算法)有两个变体: 一个是 class, 它实现了 fit 方法来学习 train data(训练数据)的 clusters(聚类),还有一个 function(函数),是给定 train data(训练数据),返回与不同 clusters(聚类)对应的整数标签 array(数组)。对于 class(类),training data(训练数据)上的标签可

2017-11-23 12:08:04 1386

翻译 【Scikit-Learn 中文文档】流形学习 - 监督学习 - 用户指南 | ApacheCN

流形学习是一种减少非线性维度的方法。 这个任务的算法基于许多数据集的维度只是人为导致的高。高维数据集可能非常难以可视化。 虽然可以绘制两维或三维数据来显示数据的固有结构,但等效的高维图不太直观。 为了帮助可视化数据集的结构,必须以某种方式减小维度。通过对数据的随机投影来实现降维的最简单方法。 虽然这允许数据结构的一定程度的可视化,但是选择的随机性远远不够。 在随机投影中,数据中更有趣的结构很可能会丢失。为了解决这一问题,设计了一些监督和无监督的线性维数降低框架,如主成分分析(PCA),独立成分分析

2017-11-23 12:06:20 766

翻译 【Scikit-Learn 中文文档】高斯混合模型 - 无监督学习 - 用户指南 | ApacheCN

sklearn.mixture 是一个应用高斯混合模型进行非监督学习的包,支持 diagonal,spherical,tied,full四种协方差矩阵 (注:diagonal指每个分量分布有各自不同对角协方差矩阵,spherical指每个分量分布有各自不同的简单协方差矩阵, tied指所有分量分布有相同的标准协方差矩阵,full指每个分量分布有各自不同的标准协方差矩阵) ,它对数据进行抽样,并且根据数据估计模型。同时包也提供了相关支持,来帮助用户决定合适的分量分布个数。 ../_images/sphx_g

2017-11-23 12:03:56 1469

翻译 【Scikit-Learn 中文文档】神经网络模块(监督的)- 监督学习 - 用户指南 | ApacheCN

中文文档: http://sklearn.apachecn.org/cn/0.19.0/modules/neural_networks_supervised.html英文文档: http://sklearn.apachecn.org/en/0.19.0/modules/neural_networks_supervised.html官方

2017-11-23 11:11:25 987

Flink Forward Asia 2019 PPT.zip

Flink Forward Asia 2019 PPT , FFA 2019 PPT 。1. 主会场 2. Apache Flink 核心技术 3. 开源大数据生态 4. 企业实践 5. 人工智能 6. 实时数仓

2019-12-03

阿里技术参考图册 - 研发篇

阿里技术参考图册 - 研发篇 阿里技术参考图册 - 研发篇

2018-04-17

ApacheCN - Elastic Kibana 5.2 中文文档 - v0.1.0.pdf

ApacheCN - Elastic Kibana 5.2 中文文档 - v0.1.0.pdf 网页链接 : http://www.apache.wiki/display/Kibana Kibana 5.2 中文文档 介绍 设置 安装 Kibana 使用 .tar.gz 的方式安装 Kibana 使用 Debian Package 的方式安装 Kibana 使用 RPM 的方式安装 Kibana Windows 上安装 Kibana 配置 Kibana Docker 上运行 Kibana 获取镜像 Docker 上配置 Kibana 访问 Kibana 关联 Kibana 与 Elasticsearch 与 Tribe nodes 一起使用 Kibana 在生产环境中使用 Kibana 升级 Kibana 标准升级 标准升级与 Reindex(重建索引) 新安装 重大改变 5.0 中的重大改变 入门指南 加载样本数据 定义 index pattern(索引模式) Discover(发现)数据 Visualizing(可视化)数据 将它们全部放入 Dashboard(仪表盘) 总结 Discover(发现) 设置时间过滤器 搜索数据 字段过滤器 查看文档数据 查看字段数据的统计信息 Visualize(可视化) 创建可视化 Area Charts(面积图) Data Table(数据表) Line Charts(折线图) Markdown Widget(小部件) Metric(度量) Pie Charts(饼图) Tile Maps(平铺地图) Vertical Bar Charts(垂直条形图) Tag Clouds(标签云) Heatmap Chart(热力图) Dashboard(仪表盘) 构建仪表盘 加载仪表板 分享仪表盘 Timelion 创建时间序列可视化 Console(控制台) 多请求支持 自动格式化 键盘快捷键 历史 控制台设置 配置控制台 安全控制台 Management(管理) Index Pattern(索引模式) Managing Fields(管理字段) String Field Formatters(字符串字段格式化程序) Date Field Formatters(日期字段格式化程序) Geographic Point Field Formatters(地理点字段格式化程序) Numeric Field Formatters(数值字段格式化) Scripted Fields(脚本字段) 设置高级选项 管理保存的搜索,可视化和仪表盘 Kibana 插件 安装插件 更新和删除插件 禁用插件 配置插件管理器 已知插件 版本说明 5.2.2 版本说明 5.2.1 版本说明 5.2.0 版本说明 5.1.2 版本说明 5.1.1 版本说明 5.1.0 版本说明 5.0.2 版本说明 5.0.1 版本说明 5.0.0 版本说明

2017-04-17

ApacheCN - Apache Spark 2.0.2 中文官方文档 - v0.1.0.pdf版下载

ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0.pdf 网页地址为 : http://www.apache.wiki/pages/viewpage.action?pageId=2883613 Apache Spark 2.0.2 中文文档 Spark 概述 编程指南 快速入门 Spark 编程指南 概述 Spark 依赖 Spark 的初始化 弹性分布式数据集(RDDS) 共享变量 部署应用到集群中 使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前的应用程序迁移 下一步 Spark Streaming Spark Streaming 概述 一个简单的示例 基本概念 性能优化 容错语义 迁移指南(从 0.9.1 或者更低版本至 1.x 版本) 快速跳转 DataFrames,Datasets 和 SQL Spark SQL 概述 Spark SQL 入门指南 数据源 性能调优 分布式 SQL引擎 迁移指南 参考 Structured Streaming MLlib(机器学习) 机器学习库(MLlib)指南 MLlib:基于RDD的API GraphX(图形处理) Spark R 部署 集群模式概述 提交应用 Spark Standalone 模式 Spark on Mesos Spark on YARN Spark on YARN 上运行 准备 Spark on YARN 配置 调试应用 Spark 属性 重要提示 在一个安全的集群中运行 用 Apache Oozie 来运行应用程序 Kerberos 故障排查 更多 Spark 配置 Spark 监控 优化指南 作业调度 Spark 安全 硬件配置 构建 Spark

2017-04-17

ApacheCN - BDTC2016全集第一部分.rar

ApacheCN - BDTC2016全集第一部分.rar

2016-12-12

妳那伊抹微笑_云计算之Hadoop-2.2.0+Hbaase-0.96.2 +Hive-0.13.1完全分布式环境整合安装文档V1.0.0.docx

资源描述:妳那伊抹微笑_云计算之Hadoop-2.2.0+Hbaase-0.96.2 +Hive-0.13.1完全分布式环境整合安装文档V1.0.0.docx 博客地址:http://blog.csdn.net/u012185296 技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术 版权声明:整理不易,且学且珍惜,仅供学习交流使用,未经允许不得用于任何商业用途,谢谢合作 qq交流群:214293307 云计算之嫣然伊笑(期待与你一起学习,共同进步) 文档说明:该文档属于《云计算之Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive技术文档分享V1.0.0(原创文档)》之一 其它相关文档请前往Blog下载 你也可以到博客地址http://blog.csdn.net/u012185296 中去学习相关的云技术之Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ...云计算技术 ..................... 喜欢云计算的朋友可以进qq交流群:214293307,一起学习交流哦!!!

2014-08-18

妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0.docx

妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0.docx 该文档与教程http://blog.csdn.net/u012185296/article/details/38084107 配套使用的,主要讲的是妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0.docx 、、、 你也可以到博客地址http://blog.csdn.net/u012185296中去学习相关的云技术,Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ...云计算技术 .....................

2014-07-24

妳那伊抹微笑_Kafka之自定义Encoder实现Class级别的数据传送以及解析的Eclipse工程_201407181.rar

妳那伊抹微笑_Kafka之自定义Encoder实现Class级别的数据传送以及解析的Eclipse工程_201407181.rar 该文档与教程http://blog.csdn.net/u012185296/article/details/37924353 配套使用的,主要讲的是Kafka之自定义Encoder实现Class级别的数据传送以及解析 、、、 你也可以到博客地址http://blog.csdn.net/u012185296中去学习相关的云技术,Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ...云计算技术 .....................

2014-07-18

妳那伊抹微笑_Flume+Kafka+Storm分布式环境整合Eclipse工程_20140714.rar

妳那伊抹微笑_Flume+Kafka+Storm分布式环境整合Eclipse工程_20140714.rar 该文档与教程http://blog.csdn.net/u012185296/article/details/37762793配套使用的,主要讲的是Flume+Kafka+Storm的环境整合,并且全部都是最新版本 、、、你也可以到博客地址http://blog.csdn.net/u012185296中去学习相关的云技术,Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ...云计算技术 .....................

2014-07-14

妳那伊抹微笑_云计算之Hadoop完美笔记2.0

妳那伊抹微笑自己整理的Hadoop笔记,有以下内容: Day1 搭建伪分布实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、zookeeper操作 Day6 介绍HBase体系结构及基本操作 Day7 介绍Hive、sqoop体系结构及基本操作和最后项目 源码分析 NameNode源码分析(RPC是基础) DataNode源码分析 FileSystem源码分析(如何与NameNode通信ClientProtocol) JobTracker源码分析 TaskTracker源码分析 网站日志分析项目(这个项目分析可以让你更加掌握好所学的知识) 花了一个星期整理的,希望可以帮到你们、、、 The you smile until forever、、、、、、、、、、、、、、、、、、、、、

2014-04-13

apache-maven-3.2.1-bin.tar.gz

apache-maven-3.2.1-bin.tar.gz

2014-03-30

Hive函数大全中文版

Hive 函数大全中文版

2014-03-26

hadoop-0.21.0-mrunit.jar

hadoop-0.21.0-mrunit.jar

2014-02-25

hadoop-0.20.2-eclipse-plugin.jar

hadoop-0.20.2-eclipse-plugin.jar

2014-02-25

hadoop-1.0.3.tar.gz

hadoop-1.0.3.tar.gz 文件共享下

2014-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除