治理大规模 ML 生命周期,第一部分:使用 Amazon SageMaker 构建 ML 工作负载的
大规模治理机器学习生命周期的框架使用 Amazon SageMaker 构建 ML 工作负载
作者:Ram Vittal Maira Ladeira Tanke Ryan Lempka Sriharsh Adari 和 Sovik Nath发布日期:2023年10月20日
关键要点
本文介绍了一种用于大规模治理机器学习ML生命周期的框架,旨在帮助企业构建嵌入安全性和治理控件的 ML 平台。随着生成性人工智能AI模型的快速发展,各行业对 ML 的需求日益增长,而在实施过程中,安全性、数据隐私和治理控制仍然是面临的主要挑战。框架帮助企业通过规范的指导解决这些挑战,确保可靠、安全的 ML 环境。
尽管生成性 AI 可能需要额外的控制,比如去除有害内容和防止模型出错,但其基本的安全和治理要素与传统 ML 相似。企业在构建定制化的 Amazon SageMaker ML 平台时,需要耗费多达12个月的专业知识和投资来确保环境的可扩展性、可靠性、安全性和治理性。
引言
越来越多的客户在 AWS 上创新,通过将机器学习ML融入其产品和服务中。最近生成型 AI 模型的发展加速了各行业对 ML 的需求。然而,在大规模实施 ML 工作负载时,确保安全性、数据隐私和治理控制仍然是客户面临的主要挑战。
为了解决这些挑战,我们提出了治理 ML 生命周期的框架,帮助构建嵌入安全性和治理控件的 ML 平台,基于行业最佳实践和企业标准进行设计。此框架通过以下几个主要功能提供指导:
多账户、网络和安全基础:利用 AWS Control Tower 和良好架构原则来设置多账户环境。数据和治理基础:使用数据网格架构来启用细粒度数据访问和治理。共享服务和治理服务:提供 CI/CD、AWS Service Catalog 和中心模型注册表等服务。 ML 团队环境:为 ML 团队提供专用开发和测试环境。ML 平台可观察性:集中管理日志,提供成本和使用报告。解决方案概述
这一框架帮助组织在 ML 生命周期中嵌入安全和治理控件,从而降低风险并加速 ML 在产品和服务中的应用。框架的主要特点包括:
龙猫梯子符合组织政策的账户和基础设施资源的自动化配置自助服务数据科学环境和端到端 ML 操作MLOps模板资源的安全和隐私合规性隔离管理代码库、代码管道、已部署模型和数据特征的治理中心模型注册表和特征存储,以提高治理水平参考架构模块
本文所讨论的参考架构包括八个模块,每一个模块旨在解决特定问题,集体形成了具备安全和治理控件的集成 ML 平台:
多账户基础 数据湖基础 ML 平台服务 ML 用例开发 ML 操作 集中式特征存储 日志记录与可观察性 成本与报告这些模块通过 AWS 服务实现,描绘出 ML 平台的功能架构与 AWS 账户的对应关系。
结论
本文介绍了上述框架,帮助企业以系统性的方法实施安全合理的 ML 工作负载。进一步发展的后续文章将深入探讨如何在组织中实现参考架构中的不同模块。我们鼓励您尝试应用这一框架并分享反馈。
作者介绍
Ram Vittal 是 AWS 的首席 ML 解决方案架构师,拥有超过三十年的分布式、混合和云应用架构经验。
Sovik Kumar Nath 是 AWS 的 AI/ML 解决方案架构师,涉及多个领域的端到端机器学习和商业分析解决方案设计。
Maira Ladeira Tanke 是 AWS 的高级数据专家,负责帮助客户通过新兴技术和创新解决方案获取业务价值。
Ryan Lempka 是 Amazon Web Services 的高级解决方案架构师,帮助客户从商业目标出发开发解决方案。
Sriharsh Adari 是 AWS 的高级解决方案架构师,专注于技术战略、数据分析和数据科学领域的客户需求。
标签
MLOps