AI Blog
AI技术
建立 AI/ML 卓越中心
科理AI| 2025-08-29| 返回列表

  人工智能和机器学习 (AI/ML) 的快速发展使这些技术成为跨行业的变革力量。根据麦肯锡的一项研究 ,在整个金融服务行业 (FSI),生成式人工智能预计将为行业带来超过 4000 亿美元 (5%) 的生产力效益。根据Gartner的预测,到 2026 年,超过 80% 的企业将部署人工智能。在亚马逊,我们相信创新(重新思考和重塑)可以推动改善客户体验和高效流程,从而提高生产力。生成式人工智能是业务转型的催化剂,因此 FSI 组织必须确定生成式人工智能的现有功能可以在哪些方面 为 FSI 客户带来[敏感词]价值。

  各行各业的组织在实施生成式人工智能时都面临着诸多挑战,例如缺乏清晰的商业案例、超出概念验证的扩展、缺乏治理以及缺乏合适的人才。解决各种观察到的问题的有效方法是建立人工智能/机器学习卓越中心 (CoE)。人工智能/机器学习卓越中心是一个专门的单位,可以是集中式的,也可以是联合式的,负责协调和监督组织内的所有人工智能/机器学习计划,将业务战略与价值交付联系起来。据《哈佛商业评论》观察,美国37% 的大公司已经建立了人工智能/机器学习卓越中心。为了使组织在生成式人工智能之旅中取得成功,跨业务线和技术团队的协调合作变得越来越重要。

  本文结合AI/ML 云采用框架和架构完善的机器学习透视图,为构建高效的 AI/ML CoE 提供指南,旨在挖掘生成式 AI 的各种可能性。指南涵盖指导从业者明确 CoE 使命、组建领导团队、整合道德准则、用例资格认定和优先级排序、团队技能提升、实施治理、创建基础设施、嵌入安全机制以及实现卓越运营。

  什么是 AI/ML CoE

  AI/ML CoE 负责与业务线和终用户合作,识别符合业务和产品战略的 AI/ML 用例,识别不同业务部门 (BU) 的通用可复用模式,实现全公司范围的 AI/ML 愿景,并在合适的计算软硬件组合上部署 AI/ML 平台和工作负载。CoE 团队将商业敏锐度与深厚的 AI/ML 技术能力相结合,在整个组织内开发和实施可互操作、可扩展的解决方案。他们建立并实施涵盖设计、开发、流程和治理运营的[敏感词]实践,从而降低风险并确保始终如一地维护稳健的业务、技术和治理框架。为了便于使用、标准化、可扩展性和价值交付,AI/ML CoE 的输出可以分为两种类型:指南(例如已发布的指南、[敏感词]实践、经验教训和教程)以及能力(例如人员技能、工具、技术解决方案和可复用模板)。

  建立 AI/ML CoE 有以下好处:

  ·通过清晰的生产路径加快上市时间

  ·通过兑现生成性人工智能业务成果的承诺,实现投资回报[敏感词]化

  ·优化风险管理

  ·团队结构化技能提升

  ·通过标准化的工作流程和工具实现可持续扩展

  ·更好地支持和优先考虑创新举措

  下图说明了建立有效的 AI/ML CoE 的关键组成部分。

1.png


  在以下章节中,我们将详细讨论每个编号的组件。

  1. 赞助和使命

  建立 AI/ML CoE 的基础步骤是获得高层领导的支持、建立领导层、确定其使命和目标以及协调授权领导层。

  建立赞助

  建立明确的领导角色和结构,以提供决策流程、问责制以及遵守道德和法律标准:

  ·高管赞助——获得高层领导的支持,推动 AI/ML 计划

  ·指导委员会——组建一个由关键利益相关者组成的委员会,监督 AI/ML CoE 的活动和战略方向

  ·道德委员会——创建一个委员会来处理人工智能/机器学习开发和部署中的道德和负责任的人工智能问题

  明确使命

  使命以客户或产品为中心,并与组织的整体战略目标保持一致,有助于概述 AI/ML CoE 在实现这些目标中的角色。该使命通常由执行发起人与业务部门负责人共同制定,是所有 CoE 活动的指导原则,包含以下内容:

  ·使命宣言——清晰阐明 CoE 的宗旨,即应用 AI/ML 技术推动客户和产品成果

  ·战略目标——概述与组织总体战略目标相符的切实可衡量的 AI/ML 目标

  ·价值主张——量化预期的商业价值关键绩效指标 (KPI),例如成本节约、收入增长、用户满意度、时间节省和上市时间。

  2. 人

  根据 Gartner 的报告,53% 的业务、职能和技术团队将其在生成式 AI 方面的技术敏锐度评为“中级”,64% 的高层领导将其技能评为“新手”。通过开发针对特定且不断变化的业务需求的定制解决方案,您可以营造持续成长和学习的文化,并加深对 AI 和 ML 技术的理解,包括生成式 AI 技能的开发和赋能。

  培训和赋能

  为了帮助员工学习 AI/ML 的概念、工具和技术,AI/ML 卓越中心 (CoE) 可以开发培训项目、研讨会、认证项目和黑客马拉松。这些项目可以根据不同的专业水平进行定制,旨在帮助员工了解如何使用 AI/ML 解决业务问题。此外,卓越中心还可以为有意进一步提升 AI/ML 技能的员工提供指导平台,开发认证项目以表彰在 AI/ML 领域达到一定水平的员工,并提供持续培训,使团队始终掌握[敏感词]的技术和方法。

  梦之队

  跨职能协作对于打造全面的 AI/ML 解决方案至关重要。拥有一个融合行业、业务、技术、合规和运营专业知识的多学科 AI/ML CoE,有助于推动创新。它能够充分利用 AI 的全方位视角潜力,帮助公司实现战略业务目标。这样一个拥有 AI/ML 专业知识的多元化团队可能包含以下角色:

  ·产品策略师——确保所有产品、功能和实验都与整体转型战略相一致

  ·人工智能研究人员——聘请该领域的专家来推动创新并探索生成人工智能等尖端技术

  ·数据科学家和机器学习工程师——培养数据预处理、模型训练和验证的能力

  ·领域专家——与了解特定应用和业务需求的业务部门专业人员合作

  ·运营——制定 KPI、展示价值交付并管理机器学习运营 (MLOP) 管道

  ·项目经理——任命项目经理以有效实施项目

  知识共享

  通过促进卓越中心 (CoE)、内部利益相关者、业务部门团队和外部利益相关者之间的协作,您可以实现知识共享和跨学科团队合作。鼓励知识共享,建立知识库,并促进跨职能项目,以[敏感词]限度地发挥 AI/ML 计划的影响力。以下是一些促进知识共享的关键行动示例:

  ·跨职能协作——促进生成人工智能专家与业务部门特定领域专业人员之间的团队合作,以创新跨职能用例

  ·战略合作伙伴关系——探索与专门从事生成式人工智能的研究机构、大学和行业领袖的合作伙伴关系,以利用他们的集体专业知识和见解

  3. 治理

  建立治理机制,使组织能够扩展 AI/ML 项目的价值交付,同时管理风险、合规性和安全性。此外,要特别关注与 AI 开发和扩展相关的风险和成本的变化。

  负责任的人工智能

  组织可以通过考虑公平性、可解释性、隐私和安全、稳健性、治理和透明度等因素,来应对与生成式人工智能相关的潜在道德困境。为了确保道德诚信,人工智能/机器学习卓越中心 (CoE) 会与利益相关者合作,在整个人工智能/机器学习生命周期中整合强有力的指导方针和保障措施。通过采取积极主动的方式,卓越中心不仅能够确保道德合规,还能建立信任、加强问责,并降低真实性、毒性、数据滥用和知识产权等潜在风险。

  标准和[敏感词]实践

  CoE 持续追求卓越,致力于制定通用标准、行业领先实践和指南。这些标准涵盖数据治理、模型开发、符合道德规范的部署和持续监控等全方位的方针,强化了组织对负责任且符合道德规范的 AI/ML 实践的承诺。此类标准的示例包括:

  ·开发框架——建立人工智能开发、部署和治理的标准化框架,确保项目间的一致性,从而更容易采用和分享[敏感词]实践。

  ·存储库——集中式代码和模型存储库有助于共享编码标准中的[敏感词]实践和行业标准解决方案,使团队能够遵守一致的编码约定,以实现更好的协作、可重用性和可维护性。

  ·集中知识中心——一个中央存储库,存储数据集和研究发现,作为综合知识中心。

  ·平台–用于创建、训练和部署的中央平台,例如Amazon SageMaker 。它有助于管理和扩展中央策略和标准。基准测试和指标——定义标准化指标和基准测试以衡量和比较人工智能模型的性能及其产生的商业价值。

  数据治理

  数据治理是人工智能/机器学习卓越中心 (CoE) 的一项关键职能,例如确保以负责任且值得信赖的方式收集、使用和共享数据。数据治理对于人工智能应用至关重要,因为这些应用通常会使用大量数据。这些数据的质量和完整性对于人工智能决策的准确性和公平性至关重要。人工智能/机器学习卓越中心 (CoE) 帮助定义数据预处理、模型开发、训练、验证和部署的[敏感词]实践和指南。卓越中心应确保数据准确、完整且[敏感词];保护数据免受未经授权的访问、使用或披露;数据治理政策应体现对法规和内部合规性的遵守。

  模型监督

  模型治理是一个框架,它决定了公司如何实施策略、控制模型访问权限以及跟踪模型活动。CoE 有助于确保模型的开发和部署安全、可靠且合乎道德。此外,它还可以确认模型治理政策是否体现了组织对透明度的承诺,从而与客户、合作伙伴和监管机构建立信任。它还可以根据您的应用程序需求提供定制的安全措施,并确保使用Amazon Bedrock Guardrails 等服务实施负责任的 AI 政策。

  价值交付

  管理 AI/ML 计划的投资回报率、平台和服务费用、资源的高效利用以及持续优化。这需要监控和分析基于用例的价值 KPI 以及与数据存储、模型训练和推理相关的支出。这包括评估各种 AI 模型和算法的性能,以确定经济高效、资源优化的解决方案,例如使用AWS Inferentia 进行推理,使用AWS Trainium进行训练。设置 KPI 和指标对于衡量有效性至关重要。以下是一些示例 KPI:

  ·投资回报率 (ROI)– 评估投资的财务回报,以证明人工智能项目的资源配置合理

  ·商业影响——衡量收入提升或客户体验提升等切实的商业成果,可以验证人工智能的价值

  ·项目交付时间——跟踪从项目启动到完成的时间,展示运营效率和响应能力

  4.平台

  AI/ML 卓越中心与业务和技术团队合作,帮助构建企业级可扩展的 AI 平台,使组织能够跨业务部门运营 AI 赋能的服务和产品。它还可以帮助开发定制化的 AI 解决方案,并帮助从业者适应 AI/ML 发展的变化。

  数据和工程架构

  AI/ML CoE 与技术团队合作,帮助建立正确的数据流和工程基础设施,以加速基于 AI 的解决方案的采用和扩展:

  ·高性能计算资源——强大的 GPU,例如由[敏感词]的 NVIDIA H100 Tensor Core GPU 提供支持的Amazon Elastic Compute Cloud (Amazon EC2)实例,对于训练复杂模型至关重要。

  ·数据存储和管理——实施强大的数据存储、处理和管理系统,例如AWS Glue 。

  ·平台——使用云平台可以为 SageMaker 等 AI/ML 项目提供灵活性和可扩展性,SageMaker 有助于提供涵盖生成式 AI 实验、数据准备、模型训练、部署和监控的端到端 ML 功能。这进一步加速了生成式 AI 工作负载从实验到生产的进程。Amazon Bedrock是一种使用基础模型 (FM) 构建和扩展生成式 AI 应用程序的更简便方法。作为一项完全托管的服务,它提供来自领先 AI 公司的一系列高性能基础模型,包括 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和 Amazon。

  ·开发工具和框架– 使用行业标准的 AI/ML 框架和工具,例如Amazon CodeWhisperer 、Apache MXNet、PyTorch和TensorFlow 。

  ·版本控制和协作工具——Git 存储库、项目管理工具和协作平台可以促进团队合作,例如AWS CodePipeline。

  ·生成式 AI 框架——利用Amazon Bedrock 上提供的[敏感词]的基础模型、工具、代理、知识库和护栏。

  ·实验平台– 部署用于实验和模型开发的平台,允许可重复性和协作,例如Amazon SageMaker JumpStart 。

  ·文档——强调平台内流程、工作流和[敏感词]实践的文档,以促进从业者和团队之间的知识共享。

  生命周期管理

  在 AI/ML CoE 内部,对可扩展性、可用性、可靠性、性能和弹性的重视是 AI/ML 计划成功和适应性的基础。实施和运营MLOps 等生命周期管理系统有助于实现部署和监控的自动化,从而提高可靠性、上市时间和可观察性。使用Amazon SageMaker Pipelines 等工具进行工作流管理、使用Amazon SageMaker Experiments 进行实验管理以及使用Amazon Elastic Kubernetes Service (Amazon EKS) 进行容器编排,可以实现 AI/ML 应用程序的灵活部署和管理,从而提高跨各种环境的可扩展性和可移植性。同样,采用AWS Lambda 等无服务器架构可以实现基于需求的自动扩展,降低运营复杂性,同时提供资源分配的灵活性。

  人工智能服务战略联盟

  购买还是构建解决方案的决定需要权衡利弊。购买可以通过使用预置工具提供快速便捷的服务,但可能缺乏定制化。另一方面,构建可以提供定制化的解决方案,但需要投入时间和资源。这种平衡取决于项目范围、时间表和长期需求,以实现与组织目标和技术要求的[敏感词]匹配。理想情况下,该决策可以基于对待解决的具体问题、组织的内部能力以及目标业务增长领域的全面评估。例如,如果业务系统有助于建立独特性,然后通过构建实现市场差异化,或者如果业务系统支持标准的商品化业务流程,那么购买可以节省成本。

  通过与第三方 AI 服务提供商(例如AWS 生成式 AI 能力合作伙伴)合作,CoE 可以利用他们的专业知识和经验来加速 AI 解决方案的采用和扩展。这些合作关系可以帮助 CoE 掌握[敏感词]的 AI/ML 研究和趋势,并提供尖端的 AI/ML 工具和技术。此外,第三方 AI 服务提供商可以帮助 CoE 识别 AI/ML 的新用例,并提供如何有效实施 AI/ML 解决方案的指导。

  5. 安全

  强调、评估并实施涵盖组织数据、AI/ML 和生成式 AI 工作负载的安全和隐私控制。整合 AI/ML 各方面的安全措施,以识别、分类、修复和缓解漏洞和威胁。

  整体警惕

  根据贵组织使用生成式 AI 解决方案的方式,确定安全工作范围 、设计工作负载的弹性并应用相关的安全控制。这包括采用加密技术、多因素身份验证、威胁检测和定期安全审核,以确保数据和系统免受未经授权的访问和破坏。定期进行漏洞评估和威胁建模对于应对新出现的威胁至关重要。模型加密、使用安全环境和持续监控异常等策略有助于防止对抗性攻击和恶意滥用。要监控模型以检测威胁,您可以使用Amazon GuardDuty 等工具。借助Amazon Bedrock,您可以完全控制用于自定义生成式 AI 应用程序基础模型的数据。数据在传输和静止时都经过加密。用户输入和模型输出不会与任何模型提供商共享;从而确保您的数据和应用程序的安全和私密。

  端到端保证

  加强任何人工智能系统三个关键组件(输入、模型和输出)的安全性至关重要。在整个生命周期内建立明确的角色、安全策略、标准和指南,有助于管理系统的完整性和机密性。这包括实施行业[敏感词]实践措施和行业框架,例如NIST、OWASP-ML 和MITRE Atlas。此外,还要评估并实施加拿大《个人信息保护和电子文件法》(PIPEDA)以及欧盟《通用数据保护条例》(GDPR)等法规要求。您可以使用Amazon Macie等工具来发现和保护您的敏感数据。

  基础设施(数据和系统)

  鉴于所涉数据的敏感性,探索和实施访问和隐私保护技术至关重要。这涉及诸如小特权访问、数据沿袭、仅保留用例相关数据以及识别和分类敏感数据等技术,以便在不损害个人数据隐私的情况下实现协作。将这些技术嵌入到AI/ML开发生命周期工作流中,维护安全的数据和建模环境 ,并遵守隐私法规和保护敏感信息至关重要。通过将以安全为中心的措施整合到AI/ML卓越中心的战略中,组织可以更好地降低与数据泄露、未经授权的访问和对抗性攻击相关的风险,从而为其AI资产和敏感信息提供完整性、机密性和可用性。

  6. 运营

  AI/ML 卓越中心 (CoE) 需要专注于优化在组织框架内实施生成式 AI 的效率和增长潜力。在本节中,我们将讨论几个关键方面,旨在推动成功集成,同时保持工作负载性能。

  绩效管理

  设定 KPI 和指标对于衡量有效性至关重要。定期评估这些指标有助于您跟踪进度、识别趋势,并在 CoE 内部培养持续改进的文化。报告这些洞察信息有助于与组织目标保持一致,并为增强 AI/ML 实践的决策流程提供信息。诸如Bedrock 与 Amazon CloudWatch 集成之类的解决方案有助于跟踪和管理使用情况指标,并构建自定义的审计仪表板。

  一个示例 KPI 是模型准确性:根据基准评估模型可提供可靠且值得信赖的 AI 生成结果。

  事件管理

  AI/ML 解决方案需要持续的控制和观察,以管理任何异常活动。这需要在整个 AI/ML 平台上建立流程和系统,[敏感词]是自动化的。需要根据所选的监控解决方案制定和实施标准化的事件响应策略。这包括正式的角色和职责、需要监控的数据源和指标、监控系统以及缓解、升级和根本原因分析等响应措施。

  持续改进

  定义严格的生成式人工智能模型开发、测试和部署流程。通过定义和完善稳健的流程,简化生成式人工智能模型的开发。定期评估人工智能/机器学习平台的性能,并提升生成式人工智能的能力。这包括整合来自利益相关者和终用户的反馈,并投入资源用于生成式人工智能的探索性研究和创新。这些实践推动了持续改进,并使卓越中心始终处于人工智能创新的前沿。此外,通过采用敏捷方法、维护全面的文档、定期进行基准测试以及实施行业[敏感词]实践,无缝地实施生成式人工智能计划。

  7. 商业

  AI/ML 卓越中心 (CoE) 通过持续识别各业务部门的优先痛点和机遇,助力业务转型。CoE 将业务挑战和机遇与定制化的 AI/ML 能力相结合,推动高价值解决方案的快速开发和部署。这种与实际业务需求的契合,能够通过新产品、收入流、生产力、优化运营和客户满意度,实现阶跃式价值创造。

  设想一个人工智能战略

  以推动业务成果为目标,制定一个令人信服的多年愿景和战略,阐述如何通过采用人工智能/机器学习和生成式人工智能技术来改变业务的主要方面。这包括在既定的战略规划时间线(例如3-5年)内,量化人工智能/机器学习在收入、成本节约、客户满意度、生产力和其他重要绩效指标方面带来的实际价值。此外,卓越中心必须通过阐述如何采用人工智能/机器学习来创造竞争优势,并实现关键流程或产品的阶跃式改进,从而获得各业务部门高管的认可。

  用例管理

  为了识别、甄别并优先考虑[敏感词]潜力的 AI/ML 用例,卓越中心 (CoE) 会与所有业务部门持续开展探索对话,以发现其[敏感词]优先级的挑战和机遇。卓越中心必须与业务部门负责人协作,将每个复杂的业务问题或机遇清晰地阐述为问题和机遇陈述,以便于 AI/ML 驱动的解决方案。这些机遇建立了与业务 KPI 挂钩的清晰成功指标,并概述了潜在的价值影响与实施复杂性。之后,可以创建高潜力 AI/ML 用例的优先流程,并根据预期业务效益和可行性对机遇进行排序。

  概念验证

  在进行全面生产开发之前,通过受控的概念验证 (PoC) 项目,为高价值用例构建解决方案原型,重点展示初始可行性。这些 PoC 阶段的快速反馈循环,使其能够在更大规模部署之前,小规模地迭代和改进方法。卓越中心 (CoE) 会与业务部门负责人协调,为 PoC 制定明确的成功标准,这些标准与业务指标和 KPI 相符,以评估解决方案的终效果。此外,卓越中心还可以参与分享专业知识、可复用资产、[敏感词]实践和标准。

  高管协调

  为了实现完全透明,业务部门高管利益相关者必须与AI/ML计划保持一致,并定期向其汇报。这样,任何需要上报的挑战都能快速得到熟悉这些计划的高管的解决。

  8.法律

  人工智能/机器学习和生成式人工智能的法律环境复杂多变,给组织带来了诸多挑战和影响。数据隐私、知识产权、责任和偏见等问题需要人工智能/机器学习卓越中心 (CoE) 认真考量。由于法规难以跟上技术进步的步伐,卓越中心必须与组织的法律团队合作,应对这一动态环境,确保合规性,并负责任地开发和部署这些技术。不断变化的形势要求卓越中心与法律团队合作,制定涵盖整个人工智能/机器学习生命周期的全面人工智能/机器学习治理政策。此流程需要业务利益相关者参与决策过程,并定期对人工智能/机器学习系统进行审计和审查,以验证其是否符合治理政策。

  9.采购

  AI/ML CoE 需要与合作伙伴(包括独立软件供应商 (ISV) 和系统集成商 (SI))携手合作,共同制定购买和构建战略。他们需要与采购团队合作,制定选择、入职、管理和退出框架。这包括获取技术、算法和数据集(获取可靠的数据集对于训练 ML 模型至关重要,而获取尖端算法和生成式 AI 工具则可以增强创新)。这将有助于加速业务所需能力的开发。采购战略必须优先考虑道德考量、数据安全和持续的供应商支持,以提供可持续、可扩展且负责任的 AI 集成。

  10.人力资源

  与人力资源部门 (HR) 合作,共同管理 AI/ML 人才,并构建人才梯队。这包括培养人才,使其能够理解、开发和应用这些技术。人力资源部门可以帮助弥合技术和非技术方面的鸿沟,促进跨学科合作,为新人才的入职搭建平台,培训他们,并帮助他们提升专业技能和技能。他们还可以通过合规培训解决道德问题,提升员工对[敏感词]新兴技术的技能,并管理对持续成功至关重要的岗位角色的影响。

  11. 监管与合规

  人工智能/机器学习的监管格局正在迅速演变,世界各国政府竞相建立治理机制,以应对日益普及的人工智能应用。人工智能/机器学习卓越中心 (CoE) 需要采取专注的方法来保持[敏感词]状态、制定行动并实施监管法规,例如巴西的《通用个人数据保护法》(LGPD)、加拿大的《个人信息保护和电子文件法》(PIPEDA)、欧盟的《通用数据保护条例》(GDPR),以及 ISO 31700、ISO 29100、ISO 27701、联邦信息处理标准 (FIPS) 和 NIST 隐私框架等框架。在美国,监管行动包括降低人工智能日益普及带来的风险、保护受生成性人工智能影响的员工以及提供更强有力的消费者保护。欧盟《人工智能法案》包含新的评估和合规要求。

  随着人工智能法规的不断完善,建议各组织将负责任的人工智能作为高管层的优先事项,制定并执行清晰的人工智能/机器学习治理政策和流程,并让不同的利益相关者参与决策过程。不断发展的法规强调,需要制定涵盖整个人工智能/机器学习生命周期的全面人工智能治理政策,并定期对人工智能系统进行审计和审查,以解决算法中的偏见、透明度和可解释性问题。遵守标准有助于增进信任、降低风险,并促进负责任地部署这些先进技术。

  结论

  建立成功的人工智能/机器学习卓越中心是一项多方面的工作,需要专注投入和战略规划,同时还要保持敏捷的运营和协作精神。随着人工智能和机器学习领域的持续快速发展,创建人工智能/机器学习卓越中心 (CoE) 是利用这些技术实现变革性影响的必要一步。通过关注关键考量,从明确使命到促进创新和实施道德治理,组织可以为推动价值增长的人工智能/机器学习计划奠定坚实的基础。此外,人工智能/机器学习卓越中心不仅是技术创新的中心,更是组织内部文化变革的灯塔,促进持续学习、道德责任和跨职能协作的理念。


Copyright© QualiSys Consultancy Services Ltd.
版权所有:科理咨询(深圳)股份有限公司 | 粤ICP备10082873号-5