开云体育(中国)官方网站从而提升合座GPU期骗率-开云「中国」kaiyun体育网址登录入口

发布日期：2026-04-18 12:27 点击次数：182

扩张生成式AI：期骗Kubernetes处置运营挑战开云体育(中国)官方网站

要害字: [Amazon Web Services re:Invent 2024，亚马逊云科技，生成式AI， Spot Ocean， Scaling Generative Ai， Kubernetes Operational Challenges， Ai Inference Workloads， Gpu Resource Management， Kubernetes Auto-Scaling Strategies]

导读

跟着通用东谈主工智能改进的张开，各组织必须支吾在云霄扩张GPU责任负载的运营挑战。在AI推理（即AI奈何分析新数据并得出论断）方面，Kubernetes提供了一个既有眩惑力又具挑战性的处置决议。优化AI推理责任负载需要对Kubernetes和AI模子有长远的分解。为容器建造合乎的资源请乞降抛弃，尤其是对AI责任负载而言，是一项难办的任务。不正确的建造会导致资本超支和/或资源期骗恶果低下。在本次会议中，您将了解奈何期骗Kubernetes与亚马逊云科技和NetApp的力量来克服优化GPU基础设施的挑战。本演讲由亚马逊云科技融合伙伴NetApp为您带来。

演讲精华

以下是小编为您整理的本次演讲的精华。

在快速发展的东谈主工智能规模中，Zach Herbedion强调了对GPU资源日益增长的依赖性，并建议了这么一个问题:“若是你无法获取这些GPU资源来救助这些应用智商，会产生什么影响?这对你的业务会有什么影响?”他通过一个直不雅的可视化展示了GPU资源的要害性，凸起了它们无法获取时对业务的潜在影响。

此外，Herbedion强调了计划云霄出口用度偏激对决策过程的影响的蹙迫性，例如是在腹地已经在亚马逊云科技上驱动责任负载。他建议了一种情况，即东谈主工智能责任负载和GPU处理器严重依赖于数据移动，从而激发了这么一个问题:“这会奈何影响咱们的云存储资本?我是否应该移动一些东西?我是否应该回到腹地?”这种情况突显了组织需要仔细评估云中数据移动和存储的资本影响。

长远探讨东谈主工智能推理，Herbedion讲解说，它发生在模子考验之后，是将新数据引入现存模子的一种方法。他例如评释了聊天机器东谈主应用智商，用户与已考验模子进行交互，凸起了东谈主工智能推理在面向客户的应用智商中的骨子用例。

Herbedion随后探讨了Kubernetes在东谈主工智能推理中的上风，强调了它通过微做事想法的可扩张性以及Docker容器跨多个集群和云的可移植性。这种生动性使组织粗莽无缝地跨不同环境滚动其东谈主工智能责任负载，从而终了更大的敏捷性和蔼应性。

在商榷操作化扩张模子时，Herbedion先容了基于CPU期骗率或标的期骗率等盘算界说扩张计策的Horizontal Pod Autoscaler(HPA)。这一功能使组织粗莽凭据预界说的限定自动扩张其东谈主工智能责任负载，确保高效期骗资源并反应贬抑变化的需求。

Vertical Pod Autoscaler(VPA)优化资源请乞降抛弃，通过调理过度建设的资源，可能会镌汰资本。这一功能匡助组织合理调配其东谈主工智能责任负载，幸免无谓要的过度建设，优化资源期骗率，从而量入为出资本。

Cluster Autoscaler凭据待处理的pod添加或删除节点来照管基础设施扩张。这一功能确保组织领有处理其东谈主工智能责任负载所需的基础设施容量，动态调理底层资源以粗野贬抑变化的需求。

Herbedion承认Kubernetes在资源照管方面存在挑战，因为它无法原生分解分数GPU分拨。他建议了这么一个问题:“我是否确实使用了一个完好的GPU，或者骨子期骗率可能唯有一半GPU，仅举个例子?”这一挑战突显了组织需要长远了解其GPU期骗模式并粗莽相应优化资源分拨的必要性。

强调GPU资源的稀缺性，他提到一些公司濒临着获取更多GPU的积压，以及公有云中供需动态，在特定可用区域可能无法获取GPU实例。这种情况突显了制定一个健全的计策来获取和照管GPU资源的蹙迫性，以及跨多个可用区域分散责任负载以终了弹性的才智。

Herbedion强调GPU实例的兴盛资本，他说:“GPU实例是你不错驱动的一些最兴盛的实例。”他教化不要对突发性推理责任负载遴荐保留实例或量入为出策划的典型作念法，因为客户可能会浮滥在他们无法充分期骗的高兴上的资金。这一建议突显了组织需要仔细评估其使用模式，并取舍合乎的订价模子来优化其东谈主工智能责任负载的资本。

在处置存储挑战方面，Herbedion提到需要灵验照管遍及的考验数据集，粗野在短时刻内需要1TB数据的高性能狡计需求，同期计划出口用度和高性能数据的可用性，并扩张底层基础设施。这些挑战突显了领有一个健壮且可扩张的存储基础设施来救助东谈主工智能责任负载的巨大数据需求的蹙迫性。

为了支吾这些挑战，Herbedion先容了资源请乞降抛弃等计策，强调了它们在潜在资本从简方面的要害作用。他建议每天或通过自动化处置决议对容器进行合乎调理，使组织粗莽捏续优化资源期骗率并减少无谓要的过度建设。

对于GPU期骗率，他建议了解骨子期骗率(可能唯有一半GPU)，并期骗为东谈主工智能和机器学习责任负载想象的自界说Kubernetes调理智商来灵验地对节点进行bin-pack操作。这种循序使组织粗莽最大限度地期骗其GPU资源，优化其基础设施占用空间，从而可能量入为出资本。

Herbedion长远探讨了GPU分割本事，例如时刻分享，它将单个GPU诬捏化为多个诬捏GPU，允许pod肯求GPU的一部分。这种本事使组织粗莽在多个责任负载之间分享GPU资源，提升资源期骗率，并可能镌汰资本。

他提到了多实例GPU(MIG)，它将一个GPU物理分割为多达7个较小的GPU，提供物理阻隔和一致的性能。这种循序适用于需要专用性能和阻隔的责任负载，例如考验责任负载或高性能狡计(HPC)应用智商。

多程度做事GPU(MPS)使多个程度粗莽并发分享单个GPU，从而提升合座GPU期骗率，在并吞硬件上驱动多个任务。这种本事绝顶适用于不需要专用性能或物理阻隔的应用智商，使组织粗莽最大限度地期骗其GPU资源。

然则，Herbedion承认存在一些复杂性，包括监控及时GPU期骗率以笃定分数肯求、照管集群自动扩张时刻(因为集群自动扩张器不了解分数组件)以及确保现存监控器用中对分数GPU肯求的资源可见性。这些挑战突显了组织需要领有健壮的监控和照管器用，以灵验期骗GPU分割本事。

Herbedion先容了NetApp的Spot Ocean器用，这是一个无做事器狡计引擎，可捏续优化Kubernetes环境，每60秒监控和扩张基础设施、驱动调理模拟，并开箱即用救助时刻分享GPU分割。该器用为组织提供了一个空洞处置决议，用于照管和优化Kubernetes上的东谈主工智能责任负载，终了高效的资源期骗和资本优化。

Spot Ocean在容器级别提供资本可见性，细巧地露出狡计、存储和采集资本。这一功能使组织粗莽长远了解其东谈主工智能责任负载的真实资本，从而作念出理智的决策并制定资本优化计策。

它还提供自动调理大小功能，凭据骨子期骗情况在预界说的限定和畛域内调理资源肯求。这一功能有助于组织捏续优化资源分拨，确保不会过度建设或建设不及资源，从而可能量入为出资本并提升性能。

Herbedion讲解了Spot Ocean奈何期骗Kubernetes扩张资源来分解分数GPU界说，从而终了自动扩张和bin-pack。他举了一个例子:“这种实例类型对我来说等于X个副本，而这种实例类型将是Y个副本或Y个GPU。”这一功能使组织粗莽界说和照管分数GPU分拨，从而终了高效的资源期骗和资本优化。

在商榷资本优化选项时，Herbedion提到了按需实例、保留实例和量入为出策划，它们提供扣头当作高兴的交换，但可能不妥当突发性应用智商。他强调了Spot Ocean使用的现货实例，通落后骗亚马逊云科技的多余容量，不错比按需资本量入为出高达90%的资本，尽管有2分钟的回收告知。这种循序使组织粗莽大幅镌汰东谈主工智能责任负载的狡计资本，同期还提供了一种支吾潜在中断的机制。

Spot Ocean遴荐机器学习算法在高可用性和具有资本效益的可用区域和市聚积启动现货基础设施，计划中断数据、实例类型以及所有可用区域和地区的及时订价。这种智能循序确保组织粗莽期骗现货实例，同期最大限度地镌汰中断风险并凭据及时市集气象优化资本。

临了，Herbedion饱读舞DevOps团队期骗NetApp的处置决议来优化GPU期骗率、扩张才智和资本恶果，重心是无缝照管分数GPU、确保稀缺GPU资源的可用性，并为支吾东谈主工智能运营挑战提供无缝体验。这些处置决议使组织粗莽灵验照管和优化其东谈主工智能责任负载，终了高效的资源期骗、资本优化和运营异常。

底下是一些演讲现场的精彩已而：

演讲者为商榷基础设施环境和东谈主工智能推理(与考验不同)的挑战奠定了基础。

强调了为东谈主工智能/机器学习责任负载调理容器大小、监控GPU期骗率以及使用自界说Kubernetes调理智商进行高效资源分拨的蹙迫性。

讲解了GPU分区奈何允好多个责任负载分享单个GPU，为CI/CD管谈和小批量处理等任务优化基础设施资本。

演讲者讲解了多实例GPU分区奈何通过将GPU诀别为单独的GPU，使多个GPU实例粗莽并发驱动，为推理、考验和高性能狡计等各式责任负载提供物理阻隔和一致的性能。

了解分数资源请乞降集群自动扩张时刻对于在Kubernetes环境中终了高效自动扩张和资本优化至关蹙迫。

亚马逊云科技和NetApp提供处置决议来支吾东谈主工智能所有这个词生命周期中的挑战，从数据准备和数据湖到高性能狡计和模子考验。

亚马逊旨在为DevOps团队提供无缝体验，以支吾当代软件诱骗的复杂性。

回顾

在这个令东谈主沉溺的敷陈中，咱们探索了在Kubernetes上扩张生成式AI责任负载的规模，计划了运营挑战和创新处置决议，匡助企业充分期骗这种变革性本事的后劲。

跟着AI应用智商在咱们的泛泛责任经由中越来越普及，确保GPU资源的可用性成为一个要害优先事项。然则，这些资源的稀缺性和关连资本组成了要紧干豫。导航云霄出口用度、数据照管和性能条款的复杂性进一步加重了挑战。

Kubernetes当作一个刚烈的盟友出现，为AI推理责任负载提供了可扩张性、资源优化和可移植性。期骗Horizontal Pod Autoscalers、Vertical Pod Autoscalers和Cluster Autoscalers等器用，组织不错动态照管其基础设施和责任负载，确保高效期骗资源和优化资本。

然则，这一旅程并非一帆风顺。资源照管、GPU分割和运营复杂性需要深厚的专科常识和量身定制的处置决议。这等于NetApp的Spot Ocean大显神通的场合，它提供了一个无做事器狡计引擎，捏续优化基础设施、自动扩张，并终了无缝GPU时刻分享和分割。

往日愈加光明，有一个无缝GPU照管、不终止可用性和DevOps团队运动体验的愿景。在咱们探索这个令东谈主兴奋的前沿时，活动大叫是明确的:拥抱生成式AI的力量，同期期骗解锁其沿路后劲的器用和计策，为创新与运营异常并行的往日铺平谈路。

亚马逊云科技（Amazon Web Services）是内行云狡计的首创者和引颈者。提供200多类平庸而长远的云做事，做事内行245个国度和地区的数百万客户。作念为内行生成式AI前行者，亚马逊云科技正在联袂平庸的客户和融合伙伴开云体育(中国)官方网站，竖立可见的交易价值 – 收集内行40余款大模子，亚马逊云科技为10万家内行企业提供AI及机器学习做事，看管3/4中国企业出海。

新闻动态

开云体育(中国)官方网站从而提升合座GPU期骗率-开云「中国」kaiyun体育网址登录入口