大数据杂货铺-CSDN博客

原创全文搜索与矢量搜索比较

随着我们对搜索精度和上下文的追求不断发展，出现了一个问题：我们能否平衡全文搜索的词汇灵活性和向量搜索的语义深度？就其本身而言，全文搜索和矢量搜索都无法满足构建快速、相关的搜索体验的所有标准。尽管依赖不同的底层技术，但它也解决了与全文搜索类似的目的：通过改进搜索的发现方面来增强用户的能力。这种混合方法将全文搜索与语义搜索相结合，提高了搜索结果的准确性和全面性。构建最先进的搜索体验需要结合全文搜索和矢量搜索的优势。它建立在全文搜索的可访问性、即输入即搜索体验的基础上，并集成了人工智能搜索支持的增强发现功能。

2024-04-23 12:01:01 610

原创掌握心理学：使用 Mistral-7B 和 LangChain 构建专家 RAG

在人工智能的旋风世界中，每当这些充满了所有奇特的扩展训练数据的新模型下降时，我们几乎都会受到摆布。这都是关于实用的技巧和策略，为您提供清晰的步骤来提升您的社交游戏水平。我们都经历过大语言模型似乎陷入困境的时刻，由于其有限的训练数据而无法产生一致的反应。通过利用外部数据源增强基本语言模型的功能来提高响应的质量和深度，这使其对于需要特定领域专业知识的任务（例如提供社交技能和心理学建议）特别有价值。想象一下，你最喜欢的人工智能助手无法为你提供有帮助的答案，但却喋喋不休地告诉你如何获得问题的答案。

2024-04-16 20:12:52 730

原创提高大型语言模型（LLM）性能的四种数据清理技术

这些技术解决了文本数据中的差异、不精确的术语和其他潜在错误，显着提高了输入数据的质量。是用于自动化主题建模过程的最流行的技术，是一种统计模型，可通过仔细观察单词模式来帮助找到文本中隐藏的主题。包含大语言模型的拼写错误或不相似的字符（例如表情符号），则可能会混淆大语言模型对所提供的上下文的理解。接下来，我们将制作一个提示，要求模型根据从我们的综合对话中收集的信息作为友好的客户服务代理进行响应。等技术，就像将凌乱的房间整理成整齐的类别一样，帮助您的模型识别文档的主题并快速对大量信息进行排序。

2024-04-15 13:44:56 978

原创 RAG-Fusion 提高 LLM 生成文本的质量和深度

而无需进行任何调整[3]。它考虑项目在原始排名中的位置，对多个列表中排名较高的项目给予更高的重要性[2]。这种多查询生成是通过称为提示工程和自然语言模型的技术来实现的[4]。功能的搜索方法，引入了查询生成和重新排名结果等附加步骤，以提高生成文本的质量[6]。代表了搜索方法的重大进步，提供了比其他方法更精细和更全面的文本生成[8，9，6，7]。中的附加步骤，例如查询生成和重新排名结果，旨在提高生成文本的质量和深度[4-5]。的兴起通过将矢量搜索的力量与生成模型相融合，改变了人工智能和搜索空间的范式[7]。

2024-04-14 17:26:14 778

原创通过 Flink SQL 使用 Hive 表丰富流

1. 介绍流处理是通过在数据运动时对数据应用逻辑来创造商业价值。很多时候，这涉及组合数据源以丰富数据流。Flink SQL 执行此操作并将您应用于数据的任何函数的结果定向到接收器中。业务用例，例如欺诈检测、广告印象跟踪、医疗保健数据丰富、增加财务支出信息、GPS 设备数据丰富或个性化客户通信，都是使用蜂巢表来丰富数据流的很好的例子。因此，Hive 表与 Flink SQL 有两种常见的用例：Lookup（查找）表用于丰富数据流用于写入 Flink 结果的接收器对于这些用例中的任何一个，还有两种方法

2022-11-22 13:14:50 2032 1

原创 Datagen-CDP平台的模拟数据生成器

Datagen 是一个项目，旨在提供一个用户友好、可定制的界面，以将数据生成到各种 Cloudera CDP平台服务中。（甚至在平台之外）。

2022-11-07 16:25:19 6715

原创在CDP平台上安全的使用Kafka Connect

演示如何将 Kafka Connect 集成到 Cloudera 数据平台 (CDP) 中，从而允许用户在 Streams Messaging Manager 中管理和监控他们的连接器，同时还涉及安全功能，例如基于角色的访问控制和敏感信息处理。

2022-11-01 10:38:53 1064

原创安全云数据湖仓一体的 10 个关键

数据湖仓一体架构在设计上结合了复杂的组件生态系统，每个组件都是可以利用数据的潜在路径。将这个生态系统迁移到云端对于那些规避风险的人来说可能会感到不知所措，但云数据湖仓一体安全多年来已经发展到可以更安全、正确完成并提供比本地部署显着优势和好处的地步数据湖仓一体部署。以下是 10 种基本的云数据湖仓一体安全实践，它们对于保护、降低风险和为任何部署提供持续可见性至关重要。*

2022-10-31 10:57:47 192

原创网络安全：大数据问题

数据的产生和消耗量不断增加，因此必须受到保护。毕竟，我们相信我们在电脑屏幕上看到的一切都是真实的，不是吗？当我们考虑到世界各地都有不良行为者试图破坏为人民服务的技术（数据）时，网络安全成为全球普遍存在的问题。

2022-10-27 16:16:02 1593

原创 CDP 多Namenode配置

此功能为 CDP Private Cloud Base 提供了使用多个备用名称节点的能力。

2022-10-17 13:11:07 245

原创 Cloudera 的开放湖仓采用dbt Core增压

为了便于在 Cloudera 数据平台 (CDP) 上开始使用 dbt，我们将我们的开源适配器和 dbt Core 打包在一个经过全面测试和认证的可下载包中。我们还简化了 dbt 与 CDP 的治理、安全和 SDX 功能的无缝集成。通过此公告，我们欢迎我们的客户数据团队在其开放数据湖库中使用任何引擎在任何形式的任何格式的数据之上简化数据转换管道，并提供其业务可以信任的高质量数据。

2022-10-15 19:11:51 735

原创如何在RELS8.4上安装CDP-PvC Base 7.1.8并启用Auto-TLS

CDP PVC BASE7.1.8是Cloudera与Hortonworks合并后，第一个融合CDH和HDP所有组件的on-premise并且可用于生产环境的新功能版本，CDP PvC Base主要由Cloudera Runtime构成，Cloudera Runtime由超过40个开源项目组成，当然CDP PvC Base还包括其它功能如管理功能Cloudera Manager，Key Management，专业支持等。

2022-10-15 19:04:35 1694

翻译跨域身份管理系统 (SCIM) 简介

Cloudera 的身份团队一直在努力将跨域身份管理系统 (SCIM) 支持添加到 Cloudera 数据平台 (CDP)，我们很高兴地宣布 SCIM 在 Azure Active Directory 上的全面可用性！

2022-10-13 16:35:29 3200

翻译数据湖仓一体的好处

如果您喜欢自己做，并且有人员和时间来配置和管理它，那么 PaaS 数据湖仓部署可能是您的最佳选择。但是，如果您更愿意专注于为您的业务提供支持的分析工作负载，那么可以考虑 Cloudera 最近发布的 CDP One，这是一个基于 Cloudera 的云数据平台（CDP 公共云）的自助数据湖仓，这是一个开放数据湖仓软件套件

2022-10-12 14:11:58 559

原创数据架构的三大纠缠趋势：数据网格、数据编织和混合架构

一本关于如何调和看似相似但不同的趋势的入门书，这些趋势使数据团队难以解决棘手的“一次无处不在”的问题。

2022-10-10 13:35:51 1409

原创 Ozone-适用于各种工作负载的灵活高效的存储系统

Apache Ozone 是一种分布式、可扩展和高性能的对象存储，可与Cloudera 数据平台(CDP) 一起使用，可以扩展到数十亿个不同大小的对象。它被设计为原生的对象存储，可提供极高的规模、性能和可靠性，以使用 S3 API 或传统的 Hadoop API 处理多个分析工作负载。

2022-10-09 13:25:33 980

原创【公告】CDP私有云基础7.1.8发布

Cloudera Data Platform (CDP) Private Cloud (PvC) Base 7.1.8 和 Cloudera Manager 7.7.1 的发布，它们引入了关键的新功能，以改进为您的业务用户提供的分析能力，增强企业准备，以及额外的第三方支持。这是一个累积维护版本，继承了 7.1.7 Service Pack 1 (SP1) 和之前版本的功能。

2022-10-09 11:22:59 320

原创【公告】CDP私有云基础7.1.8发布

我们很高兴地宣布 Cloudera Data Platform (CDP) Private Cloud (PvC) Base 7.1.8 和 Cloudera Manager 7.7.1 的发布，它们引入了关键的新功能，以改进为您的业务用户提供的分析能力，增强企业准备，以及额外的第三方支持。这是一个累积维护版本，继承了 7.1.7 Service Pack 1 (SP1) 和之前版本的功能。以下是 7.1.8 的一些亮点，我们想提请您注意：此版本一致关注平台弹性，大大提高了平台的高可用性 (HA)，这

2022-09-02 09:15:33 1350

原创超越Data Fabric，Cloudera现代数据架构

1. 对Data Fabric的需求正如 Cloudera 首席营销官 David Moxey 在他的博客中概述的那样，我们生活在一个混合数据的世界中。数据正在增长并继续加速增长。它正在改变妆容并出现在越来越多的地方。从中获得洞察力和价值，既是机遇也是挑战。因此，企业访问、使用并从中创造价值变得越来越复杂。在您可以利用您的数据之前，您需要知道您拥有什么，如何以安全和合规的方式使用它，以及如何将其提供给企业。过去的定制和复杂的企业数据集成已经演变成一种现代数据架构，可以智能、安全地编排所有不同的数据源，甚

2022-08-17 15:44:09 111

原创 Cloudera 流处理社区版(CSP-CE)入门

Cloudera 在为流处理提供综合解决方案方面有着良好的记录。Cloudera 流处理 (CSP) 由 Apache Flink 和 Apache Kafka 提供支持，提供完整的流管理和有状态处理解决方案。在 CSP 中，Kafka 作为存储流媒体底层，Flink 作为核心流处理引擎，支持 SQL 和 REST 接口。CSP 允许开发人员、数据分析师和数据科学家构建混合流数据管道，其中时间是一个关键因素，例如欺诈检测、网络威胁分析、即时贷款批准等。我们现在推出 Cloudera 流处理社区版 (CSP

2022-08-17 11:55:31 599

原创 CDP灾难恢复简介

在过去的十年中，数据和数据驱动的洞察力与公司有效运营能力的整合出现了爆炸性增长，为那些做得好的公司带来了不断增长的竞争优势。我们的客户已经习惯了这种洞察力带来的决策速度。数据对于长期战略和日常甚至每分钟的运营都是不可或缺的。每天，我们都看到Cloudera 数据平台(CDP) 正在成为客户必须以可用、可靠和有弹性的方式运行的关键业务分析平台。数据平台不再是臭鼬工程或科学实验。客户现在希望他们的应用程序堆栈中的企业行为，无论该应用程序做什么。当客户导入他们的大型机和遗留数据仓库工作负载时，平台期望它能够满足

2022-08-17 11:23:27 294

原创使用 CSP进行欺诈检测

在本系列的前一篇博客《将流转化为数据产品》中，我们谈到了减少数据生成/摄取之间的延迟以及从这些数据中产生分析结果和洞察力的日益增长的需求。我们讨论了如何使用带有 Apache Kafka 和 Apache Flink 的Cloudera 流处理(CSP) 来实时和大规模地处理这些数据。在这篇博客中，我们将展示一个真实的例子来说明如何做到这一点，看看我们如何使用 CSP 来执行实时欺诈检测。构建实时流分析数据管道需要能够处理流中的数据。流内处理的一个关键先决条件是能够收集和移动在源点生成的数据。这就是我们所

2022-07-20 09:38:33 1784

原创将流转化为数据产品

每个大型企业组织都在尝试加速其数字化转型战略，以更加个性化、相关和动态的方式与客户互动。在创建和收集数据时对数据执行分析（也称为实时数据流）并生成即时洞察以加快决策制定的能力为组织提供了竞争优势。组织越来越多地从实时数据流构建低延迟、数据驱动的应用程序、自动化和智能。欺诈检测、网络威胁分析、制造智能、商务优化、实时报价、即时贷款批准等用例现在可以通过将数据处理组件向上移动来满足这些实时需求。Cloudera 流处理 (CSP) 通过提供分析流数据的复杂模式并获得可操作的情报的功能，使客户能够将流转化为数

2022-07-19 21:34:28 324

原创用Flink SQL流化市场数据2：盘中风险价值

本文是一个由多部分组成的系列文章的第二篇，该系列文章展示了FlinkSQL应用于市场数据的功能和可表达性。万一您错过了它，第一部分从计算流VWAP的简单情况开始。该系列的代码和数据可在github上获得。速度在金融市场上至关重要。无论目标是最大化alpha还是最大程度地减少风险，金融技术人员都会投入大量资金，以获取有关市场状况以及行情的最新见解。事件驱动和流式处理体系结构可在事件发生时对事件进行复杂的处理，使其很自然地适合金融市场应用。Flink SQL是一种数据处理语言，可用于事件驱动和流应用程序的快

2022-07-15 21:02:42 1529

原创使用Flink SQL传输市场数据1：传输VWAP

本文是一个由多部分组成的系列文章的第一篇，展示了FlinkSQL应用于市场数据的强大功能和可表达性。该系列的代码和数据可在github上获得。它由量化建模负责人Simudyne和Krishnen Vytelingum合着。速度在金融市场上至关重要。无论目标是最大化alpha还是最大程度地减少风险，金融技术人员都会投入大量资金，以获取有关市场状况以及行情的最新见解。事件驱动和流式处理体系结构可在事件发生时对事件进行复杂的处理，使其很自然地适合金融市场应用。Flink SQL是一种数据处理语言，可用于事件.

2022-07-15 20:39:02 355

原创在 CDP中使用Iceberg 为数据湖仓增压

我们很高兴地宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是 100% 开放的表格格式，由Apache Software Foundation开发，帮助用户避免供应商锁定。今天的一般可用性公告涵盖了在 Cloudera 数据平台 (CDP) 中的关键数据服务中运行的 Iceberg，包括Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 ( CML )）。这些工具使分析师和数据科学

2022-07-15 09:19:03 1039

原创 Data Lakehouse的未来-开放

Cloudera 客户运行着地球上一些最大的数据湖。这些数据湖为关键任务大规模数据分析、商业智能 (BI) 和机器学习用例（包括企业数据仓库）提供动力。近年来，创造了“数据湖仓（Data Lakehouse）”一词来描述这种对数据湖中的数据进行表格分析的架构模式。在急于拥有这个术语的过程中，许多供应商忽略了这样一个事实，即数据架构的开放性是其持久性和寿命的保证。1. 关于数据仓库和数据湖数据湖和数据仓库将大量和各种数据统一到一个中心位置。但是有着截然不同的建筑世界观。数据仓库是为 SQL 分析垂直集成的

2022-07-14 12:55:29 197

原创 Hive on Tez性能优化

升级到 CDP 后Hive on Tez 性能调整和故障排除指南优化Hive on Tez查询永远不能以一种万能的方法来完成。查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试期间，要评估和验证配置参数和任何 SQL 修改。建议在工作负载的性能测试期间一次进行一项更改，并且最好在生产环境中使用它们之前评估调整更改在您的开发和 QA 环境中的影响。Cloudera WXM可以帮助评估性能测试期间查询更改的好处。1. 调优指南在从 CDH 发行版到 CDP 私有云的多次迁移中观察到，与

2022-07-13 14:56:54 3011

翻译专家指南：大数据数据建模的常见问题

专家指南：大数据数据建模的常见问题我最近在How-tos专家系列介绍了如何在大数据系统上数据建模。在演讲过程中，许多与会者提出了一些非常有趣的问题。众所周知，大数据系统围绕结构需求的形式化程度较低，但是对于数据仓库继续为传统用例提供服务而言，建模仍然是非常重要的功能。我想分享一下我在本届会议期间以及访问组织时收到的一些较常见的问题，并对此做出回应。1. 在大数据环境中，是否可以使用任何建模技术...

2020-01-15 19:05:54 1066

大数据杂货铺的博客

原创全文搜索与矢量搜索比较

原创掌握心理学：使用 Mistral-7B 和 LangChain 构建专家 RAG

原创提高大型语言模型（LLM）性能的四种数据清理技术

原创 RAG-Fusion 提高 LLM 生成文本的质量和深度

原创通过 Flink SQL 使用 Hive 表丰富流

原创 Datagen-CDP平台的模拟数据生成器

原创在CDP平台上安全的使用Kafka Connect

原创安全云数据湖仓一体的 10 个关键

原创网络安全：大数据问题

原创 CDP 多Namenode配置

原创 Cloudera 的开放湖仓采用dbt Core增压

原创如何在RELS8.4上安装CDP-PvC Base 7.1.8并启用Auto-TLS

翻译跨域身份管理系统 (SCIM) 简介

翻译数据湖仓一体的好处

原创数据架构的三大纠缠趋势：数据网格、数据编织和混合架构

原创 Ozone-适用于各种工作负载的灵活高效的存储系统

原创【公告】CDP私有云基础7.1.8发布

原创【公告】CDP私有云基础7.1.8发布

原创超越Data Fabric，Cloudera现代数据架构

原创 Cloudera 流处理社区版(CSP-CE)入门

原创 CDP灾难恢复简介

原创使用 CSP进行欺诈检测

原创将流转化为数据产品

原创用Flink SQL流化市场数据2：盘中风险价值

原创使用Flink SQL传输市场数据1：传输VWAP

原创在 CDP中使用Iceberg 为数据湖仓增压

原创 Data Lakehouse的未来-开放

原创 Hive on Tez性能优化

翻译专家指南：大数据数据建模的常见问题

敏捷软件开发：原则、模式与实践(全)

SOA in Practice

Getting-Started-with-Grails-Chinese

空空如也