"如何在正确的时间、正确的地点获取正确的数据?
这就是将智能体 AI 引入企业的核心挑战。虽然大型语言模型(LLM)解锁了强大的推理和编排能力,但其有效性依赖于更基础的东西:提供正确的商业背景,以便推理和采取行动。上下文工程是一门专注于塑造数据、元数据、访问策略和内存如何结合,以安全且可解释的方式指导智能体行为的学科。
在 Cloudera,我们亲眼见证了这一点,同时与企业客户合作,尝试新的生成式人工智能(GenAI)和智能体 AI 应用场景。构建智能体 AI 系统依赖于大多数组织难以应对的方面:能够捕捉、治理并重复利用人工智能生命周期中知识的数据架构。
在本博客中,我们分享了构建智能体 AI 系统的方法,其将基础能力分为三个类别:连接(Connect)、情境化(Contextualize)和消费(Consume)。这种方法使我们的企业客户能够构建智能、可信、可解释且可投产的智能体系统。
现代 AI 智能体无法在碎片化环境中茁壮成长。然而,大多数企业的数据分散在多个云、数据中心、遗留系统之间,还存在格式不一致的问题。将这些数据暴露给没有结构或保障的 AI 系统,会导致性能问题和治理风险。
在成功的实施案例中,我们看到各组织首先专注于创建跨越不同环境和格式的统一数据层。这并不意味着集中所有数据,只是将它们拼接成数据编织架构。这提供了一个统一层,包含共享元数据、访问策略、联合数据工程和运行时互操作性。
实现开放表格格式和标准 API 访问简化了数据访问,同时提供了灵活性。开放湖仓架构在这里很重要,因为它们提供了跨引擎的实时、一致的数据视图——尤其是对于依赖于可靠的检索增强生成(RAG)和推理的智能体工作流程。
在数据连接之后,挑战转向帮助用户了解存在的数据及其使用方式。这始于发现:自动识别云和本地系统中的数据源,并激活元数据——表名、字段、格式等。像 Cloudera Octopai Data Lineage 这样的工具扫描 ETL 脚本,逆向工程管道逻辑,捕捉数据从源到最终目的地在系统间的移动和转换,捕捉所有依赖关系。
这些信息构成了谱系的基础,显示了数据集的相关性以及它们如何随时间变化。当您需要验证结果、解释建议或智能体行动,或者将断裂的输出追溯到其来源时,沿袭至关重要。它为与智能体互动的系统创造了透明度和信心。
最后, 编目将这些信息转化为可用的结构。集中式元数据存储可以帮助人类和智能体找到他们需要的内容,了解数据集之间的关系,并揭示影响数据处理方式的策略。强大的目录就像蓝图一样——提供知识图谱,为智能体提供企业数据资产的清晰、可导航地图。它捕捉技术、运营和业务元数据,包括所有业务定义和理解数据并采取行动所需的业务逻辑。
情境化使智能体能够做的不仅仅是信息检索。情境化允许智能体探索模式,提出更好的问题,并在更深入理解他们所处环境的基础上做出决策。
构建智能体系统的最后一步涉及使 AI 能够以可追溯、安全且基于正确信息的方式采取行动。这正是架构选择的关键所在——护栏、可观察性和受控访问决定了智能体在关键时刻是否可预测地表现。
我们发现将通用上下文工程技术与其设计解决的底层数据难题对应起来很有帮助。以下是它们在实际应用中的一些示例:
数据准备挑战 |
上下文工程技术 |
Cloudera的方法 |
敏感数据泄漏到提示中 |
及时的工程设计 |
提示网关以删除敏感数据 |
凌乱的、非结构化数据或过时的向量索引 |
RAG |
受管控和安全的实时流数据管道 |
缺乏谱系,训练集脆弱 |
微调 |
通过谱系追踪提升 AI 可解释性 |
智能体越权、决策不透明 |
工具/API 访问 |
元数据标记、自主数据分类、细粒度访问以及对每次系统调用的完整审计跟踪 |
代理无法访问内部企业知识 |
模型上下文协议 (MCP) |
通过 REST Catalog 对基于 Apache Iceberg 的上下文进行受控访问 |
选择正确的技术取决于智能体的角色、数据敏感性和运行环境。以下是常见的企业用例和在实践中行之有效的推荐组合:
使用案例 |
推荐方法 |
内部知识助理 |
RAG + 向量数据库 + 提示工程后备 |
带有客户关系管理(CRM)数据的销售赋能机器人 |
函数调用 + 业务上下文注入 |
特定产品的支持智能体 |
微调或 RAG + MCP 共享上下文 |
数据分析多智能体工作流程以提取洞察力 |
LangGraph + MCP + 工具访问 + 分块内存 |
文档理解(PDF、Excel) |
多模态输入 + 预处理管道 |
这种消费方法可确保智能体的操作精确、安全,并与业务目标保持一致。
在 Cloudera,我们多年来一直在应对企业数据的复杂性:跨越孤岛、执行治理、构建安全的 AI 和分析管道,以及在混合环境中揭示谱系。因此,当智能体 AI 模式开始出现时,我们并不是从头开始。我们知道上下文所在,以及如何在合适的护栏下安全且稳妥地捕捉它。
借助 Cloudera Octopai Data Lineage,团队可以自动映射云和本地环境中的数据流、跟踪依赖关系和目录元数据。通过叠加数据目录、可观测性和访问控制,智能体可以更安全、更智能地与系统交互。团队可获得可视性、管理和信任,这对于在整个企业内扩展这些工作流程至关重要。
为了使这些内容具有可操作性,我们将这些功能集成到我们的开放数据湖仓和Cloudera AI Studios中,为企业在生产中设计、部署和管理安全的智能体系统奠定了基础。
了解更多 Cloudera 如何帮助您为 AI 智能体提供所需的业务环境生产。
This may have been caused by one of the following: