登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理 ...
vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理
[ 复制链接 ]
乳杂丫
7 小时前
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。
vLLM 核心团队成立 Inferact
,完成 1.5 亿美元融资,估值达 8 亿美元:
图源:Inferact
SGLang 团队也成立了 RadixArk
,同样获得融资,估值达到 4 亿美元:
图源:RadixArk
这并不是两起孤立的创业故事,而是在同一个时间点,对同一件事情给出了市场层面的确认:
推理已经正式进入 AI 基础设施的核心层
,而不再是模型之后的附属环节。
如果把过去几年 AI 的发展理解为
模型能力竞赛
,那么现在正在发生的,是一场
系统工程能力竞赛
。模型决定上限,推理系统决定规模化能力。一个模型是否有商业价值,越来越取决于它是否能被
低成本、稳定、可持续地运行
。
vLLM 和 SGLang 的融资,本质上是在为
推理层
重新定价。
一、推理引擎已经从工具升级为基础设施内核
早期的推理引擎更像是工具链的一部分,目标很简单:把模型跑起来,并尽量提升吞吐和降低延迟。它们解决的是局部性能问题,而不是系统性问题。
但今天的 vLLM 已经完全不同。它必须同时面对两条不断加速的演化曲线:
一条来自模型侧:
Dense、MoE、多模态、Agent、超长上下文不断出现
;
一条来自硬件侧:
GPU、NPU、定制加速器、不同 CUDA/驱动/编译链并存
。
在工程上,这意味着推理引擎被迫承担一个新的角色:
成为模型与硬件之间的通用适配层。
当一个系统需要同时满足:
支持大量模型架构
覆盖多种异构硬件
承载从科研验证到大规模生产负载
它的属性就已经不再是“工具”,而是基础设施内核。
SGLang 从另一个方向推动了同一件事。它把推理从“函数调用”扩展为“可编程执行流程”,特别适合 Agent、强化学习和复杂工作流场景。这说明推理系统正在同时向两个方向演进:
一方面更像操作系统内核,负责资源与性能;
另一方面更像运行时与编程模型,负责表达能力。
这两种属性叠加,正是基础设施系统的典型特征。
二、推理成本已经成为 AI 商业化的决定性因素
在真实工程中,一个简单的事实越来越清晰:
训练决定模型能不能出现,
推理决定模型能不能活下去。
对绝大多数公司来说:
训练是阶段性成本
推理是长期、持续、不可回避的成本
随着模型规模扩大、调用频率上升,推理成本已经从“次要支出”变成“核心账单项”。很多场景里,推理成本远高于训练成本。
这使推理系统具备了极强的经济敏感性:
5% 的吞吐提升
10% 的显存利用率优化
一点点调度效率提升
都会直接反映为真实的资金节省。
因此,推理引擎的价值不再只是“技术好不好”,而是“能不能直接影响 AI 服务的成本结构”。
这也是资本真正愿意为其高估值买单的原因。
三、推理系统的复杂性已经不可逆转
推理问题越来越难,并不是因为模型“更大”,而是因为系统维度在急剧膨胀:
模型形态更加复杂
:Dense、MoE、多模态、Agent
推理形态更加复杂
:长上下文、推理时计算、RL 循环
硬件环境更加碎片化
:多 GPU、多 NPU、多编译链
工程上已经出现一个明显现象:
很多模型在理论上“可以跑”,
但系统在现实中“跑不动、跑不稳、跑不起”。
Inferact 提出的愿景非常关键:
部署前沿模型应该像创建一个 Serverless 数据库一样简单。
这句话的真实含义是:
推理系统必须吞掉所有复杂性,而不是把复杂性留给使用者。
四、推理系统治理问题会持续放大
当 vLLM、SGLang 进入快速演进之后,一个确定会发生的变化是:
新模型适配、新硬件支持、新优化策略都会更频繁进入主线版本。这对行业是好事,但对使用者来说,复杂度反而会上升。
在真实工程中很快会遇到这些问题:
同一模型在不同引擎版本下表现差异明显
不同硬件对引擎版本的支持程度不一致
升级引擎可能带来性能提升,也可能带来稳定性风险
推理引擎不再是“选一次就结束”的组件,而是进入持续治理阶段。
五、多引擎并存是工程必然,而不是选择题
现实生产环境中几乎不可能存在
万能引擎
:
有的模型适合 vLLM
有的模型适合 SGLang
有的场景适合 TRT-LLM
有的设备只能跑 llama.cpp
多引擎并存不是过渡状态,而是长期结构。
如果没有统一治理层,系统最终一定会退化为:
脚本堆叠
手工配置
版本失控
故障不可回溯
这是大型系统必然的退化路径。
六、GPUStack 的本质:推理系统的控制平面
GPUStack 并不是另一个推理引擎,它解决的是“引擎治理问题”。
在 GPUStack 的视角里:
引擎是可插拔资源
引擎版本是可调度对象
模型实例是可编排单元
推理引擎从“写死在系统里的依赖”,变成了“运行时可切换的能力”。
这在工程上的意义非常大:
可以并行运行多个引擎与版本
可以灰度升级
可以快速回滚
可以做真实可控的性能对比
支持自定义使用任意推理引擎
:
自由切换任意推理引擎
:
自由切换推理引擎版本
:
推理系统开始具备云原生系统应有的治理能力。
七、引擎与版本切换,本质是 AI 推理世界的运行时治理
当推理引擎成为基础设施之后:
“要不要升级”不再是问题,
“如何安全升级、如何可控回退”才是问题
。
这在工程上与:
数据库内核升级
容器运行时升级
Kubernetes 升级
是完全同一类问题。
GPUStack 做的事情,本质是把这种“运行时治理”能力引入推理系统。
八、真正的信号不是融资,而是系统层级的改变
vLLM 与 SGLang 的融资,不是某两个项目的成功,而是行业完成了一次角色确认:
推理层已经从“模型附属组件”,升级为
AI Infra 核心层
。
而 GPUStack 的出现,也不是产品机会,而是工程必然:
当底层能力高速进化、多引擎并存成为常态,没有控制平面的系统一定会失控。
从工程视角看,GPUStack 把推理系统从“项目级资产”升级为“平台级资产”;
从组织视角看,它让推理能力不再依赖少数专家,而成为团队可复用的基础能力。
这正是推理基础设施真正成熟的标志。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
vLLM
SGLang
融资
背后
AI
相关帖子
天翼云全面上线Moltbot,通过云主机、AI云电脑、息壤应用托管一键开启AI助手体验!
GIM 2.0 发布:真正让 AI 提交消息可定制、可控、可项目级优化
AI Agent 框架探秘:拆解 OpenHands(5)--- 交互&会话
OpenClaw架构解析:AI工程师的实战学习范本
AI驱动的业务开发新范式:将Skills引入工程化实践
细节全公开!我是如何用 AI 一天上线一个网站的
Laravel AI SDK 在 Laracon India 2026 首次亮相
论文写作ai工具哪个好?精选四款AI写论文工具测评,让写毕业论文不再苦恼!
AI开发-python-langchain框架(1-9 返回字符串列表-格式解析器)
独立站卖家提升转化率的 AI 直播解决方案——全能播 Live Omni
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
天翼云全面上线Moltbot,通过云主机、AI云电脑、息壤应用托管一键开启AI助手体验!
0
176
鞍汉
2026-02-02
业界
GIM 2.0 发布:真正让 AI 提交消息可定制、可控、可项目级优化
0
862
忆雏闲
2026-02-02
业界
AI Agent 框架探秘:拆解 OpenHands(5)--- 交互&会话
0
645
班闵雨
2026-02-02
业界
OpenClaw架构解析:AI工程师的实战学习范本
0
513
仇华乐
2026-02-02
业界
AI驱动的业务开发新范式:将Skills引入工程化实践
2
12
剽达崖
2026-02-02
业界
细节全公开!我是如何用 AI 一天上线一个网站的
3
736
旁拮猾
2026-02-03
业界
Laravel AI SDK 在 Laracon India 2026 首次亮相
1
629
兜蛇
2026-02-03
科技
论文写作ai工具哪个好?精选四款AI写论文工具测评,让写毕业论文不再苦恼!
0
931
黎娅茜
2026-02-03
业界
AI开发-python-langchain框架(1-9 返回字符串列表-格式解析器)
0
902
墨淳雅
2026-02-03
安全
独立站卖家提升转化率的 AI 直播解决方案——全能播 Live Omni
0
562
懵径
2026-02-03
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
乳杂丫
7 小时前
关注
0
粉丝关注
16
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
宋子
9937
6
韶又彤
9952
7
闰咄阅
9993
8
刎唇
9995
9
蓬森莉
9919
10
俞瑛瑶
9998
查看更多
今日好文热榜
776
字符编码知多少(二)
660
LLVM Pass快速入门(三):指令替换
3
天翼云全栈赋能OpenClaw,打造会干活的专属
621
DeepK 自动程序修复框架论文——OceanBase
15
再谈模拟退火
32
《让子弹飞》之"插入排序办公室"风云
797
Qt 技巧笔记 (五) Qt消息框(QMessageBox)
653
3台服务器扩展到100台,如何避免数据大迁移
606
最新!银河麒麟v11 kubeadm部署k8s v1.35.0
332
asp.net core如何实现Controller热更新
561
独立站卖家提升转化率的 AI 直播解决方案—
744
PLG log server note
360
快速上手Vibe Coding:10 分钟做出你的第一
169
深度权威测评微信编辑器:2026 年公众号排
989
国产大模型适配优选,MonkeyCode 赋能企业
728
国产大模型适配优选,MonkeyCode 赋能企业
792
国产大模型适配优选,MonkeyCode 赋能企业
883
国产大模型适配优选,MonkeyCode 赋能企业
495
国产大模型适配优选,MonkeyCode 赋能企业
958
国产大模型适配优选,MonkeyCode 赋能企业