CloudPilot AI 协助 Netvue 同时适配 x86、ARM 等多种计算架构,显著扩展了 GPU 可选资源池,缓解热门资源供给紧张问题,进一步降低单位算力成本。
Netvue 平台开发部经理黄盼青表示:“随着业务的快速发展,云上 GPU 成本一度成为我们扩张的主要阻力。CloudPilot AI 不仅帮我们找到了匹配需求的高性价比资源,更让我们的基础设施具备了长期演进的能力,同时提升了平台的运维效率。” 03/基于云的 AI 推理服务与资源调度挑战
在 Netvue,Infra 团队如何支持业务发展?
我们基础设施团队主要负责支撑公司整个线上服务的运行。包括集群管理、资源调度、性能优化、成本控制等等。我们和研发团队紧密配合,确保服务在全球范围内稳定、低延迟地交付给用户。
Netvue 对实时性要求非常高,比如用户通过摄像头实时查看儿童或宠物的活动情况,我们要尽可能快地完成图像上传、分析、识别这些链路。
为此,我们在云上运行了大规模的 GPU 推理服务,并通过弹性调度,能够在用户突发增长或流量高峰时快速扩缩容,确保服务稳定不中断。所以,Infra 这块其实是整个 AI 产品体验的底座。 为什么决定开始进行云成本优化?
主要原因有两个。一是 GPU 成本快速增长,尤其是在用户数激增之后,推理请求的负载也随之大幅上升,这导致我们的成本压力非常大。二是,我们早期架构在资源调度上不够灵活,很多时候只能“硬抗”高峰期的负载,长期来看这不利于业务的可持续发展。
我们需要一种方式,既能保障性能,又能灵活地扩缩容,还要摆脱对单一云平台的依赖。正是在这样的背景下,我们决定和 CloudPilot AI 合作,系统性地进行云成本优化。 04/云上 GPU 成本智能调度实践
CloudPilot AI 的上手使用体验如何?技术支持服务怎么样?
我们在初期对 CloudPilot AI 做了比较审慎的接入。刚开始,我们和 CloudPilot AI 团队沟通比较频繁,主要是为了确保产品能顺利接入我们的集群并适配实际场景。这种深度协作的过程也帮助我们更快理解了工具的能力和边界。
CloudPilot AI 会先对我们的环境进行分析和评估,输出一些有价值的建议。我们最初选择在非生产环境试点自动化策略,包括 Spot GPU 实例推荐和调度优化功能。我们当时非常谨慎,不希望对生产环境造成任何干扰,所以在非生产环境里先做了一轮完整的测试验证。
在非生产环境里反复验证了几轮效果都很稳定之后,我们才把策略迁移到生产集群中。整个过程中,我们对 CloudPilot AI 的透明度和可控性印象很深,任何建议都有数据支撑,而且可以逐步落地,不会一上来就“全自动”。
现在我们已经能在生产环境中更大胆地应用自动化策略,节省了大量时间和人力。 CloudPilot AI 的哪项功能最能帮助到你们团队?