2023-11-16 11:06来源:大国新闻网
如果你想要大规模运行人工智能(AI)和机器学习应用程序,比如大型语言模型(llm),你必须在Kubernetes上运行它们。然而,掌握Kubernetes——每个人都喜欢的容器编排器——并不容易。这就是Kubernetes人工智能工具链运营商——微软Azure Kubernetes服务(AKS)的最新成员——的作用所在。
AKS已经让Azure上的Kubernetes变得更容易了。AKS内置的代码到云的管道和护栏可以让你更快地开始在Azure中开发和部署云原生应用程序,而不是手工完成。通过对内部部署、边缘和多云Kubernetes集群的统一管理和治理,AKS还使与Azure安全、身份、成本管理和迁移服务的集成变得更简单(在Kubernetes中没有“简单”这回事)。
Kubernetes人工智能工具链运营商带来的是自动化的方式,以经济有效的方式运行开源软件人工智能/机器学习工作负载,减少人工配置。它还通过为您的LLM或其他项目选择最佳大小的基础设施,在AKS上跨可用CPU和GPU资源自动部署LLM模型。
AI工具链操作器通过自动配置必要的GPU节点并将相关的推理服务器设置为AI模型的端点服务器来实现这一点。一个推理服务器,如hug Face的7B或NVIDIA的Triton推理服务器,将训练有素的人工智能模型应用于传入的数据,以做出实时决策。推理是通过训练有素的人工智能模型运行实时数据以做出预测或解决任务的过程。使用此附加组件可以减少您的入职时间,并使您能够专注于AI模型的使用和开发,而不是基础设施设置。
它还使跨多个低gpu计数的虚拟机(vm)轻松分割推理成为可能。这意味着您可以在更多的Azure区域上运行llm,从而消除具有更高gpu数量vm的Azure区域的等待时间,并降低总体成本。换句话说,您可以自动在更低功耗、更便宜的区域上运行llm。是的,您可能会失去处理能力,但并非所有工作都需要更高的处理能力。
为了更容易设置,您还可以选择带有aks托管图像的预设模型。这大大减少了总体服务设置时间。一旦它启动并运行了一段时间,您就可以调整Azure模型以更好地适应您的工作负载。
此外,Azure Kubernetes Fleet Manager支持AKS集群的多集群和大规模场景。管理具有许多集群的Kubernetes舰队的平台管理员经常面临以安全和可预测的方式进行更新的挑战。这允许管理员通过使用更新运行、阶段和组来跨多个集群编排更新。由于AI/ML工作负载往往非常苛刻,这使得管理它们变得更加容易。
简而言之,如果你想在Azure上认真地使用AI/ML, Kubernetes人工智能工具链操作符需要你的注意。