在无请求时通过冻结函数实例的 CPU 调度,转成闲置状态,确保不再消耗时间片,请求来到时候,实时转成活跃状态,允许CPU调度,这是实现毫秒级精确计费和公平性的保障。
这一阶段让函数计算真正区别于虚拟机和容器租用模式,奠定了“按请求计费”的核心心智模型。
阶段二:多并发 + 毫秒级计费 —— 面向 Web 应用的优化
随着函数计算逐渐普及,除了事件触发外,Web Server 等 I/O 型场景也开始被采用。如果继续采用单请求独占计费,对比传统多并发的服务模型,成本很难接受,因此进入了第二阶段的演化。
核心变化是:突破单并发限制,按函数实例的活跃时间段计费,并将粒度精细化到 1ms,从而支撑 Web 应用、API 服务等主流场景,如下图所示。
支撑这一演化的关键技术包括:
识别活跃时间段作为计费边界
从“单请求时长”转变为“活跃区间”,只要实例内有请求在执行,即视为活跃计费,不管并发多少请求。
引入 Custom Runtime / Container Runtime
支持用户平滑迁移主流 Web 框架(如 Express、Flask、Spring Boot),这些框架天然支持多并发,能够降低成本并收敛数据库连接数,减少连接暴涨带来的风险。
缩短计费粒度:从 100ms 到 1ms
大多数 Web 请求延时低于 100ms,如果仍按 100ms 粒度计费,用户成本过高。精细化到 1ms,使账单更公平。
极致优化平台全链路延迟
Web 应用对端到端延迟极其敏感,平台必须在鉴权、路由、调度、转发等环节做性能优化,避免平台开销成为主要瓶颈。
这一阶段的价值在于:从“为单个请求买单”转变为“为活跃区间买单”,辅以更精细的粒度和运行时灵活性,让函数计算从事件驱动扩展到主流 Web/API 服务场景。
阶段三:按实际资源消耗计费 —— AI 时代的价值计费
AI 应用具有长会话、强交互、低延迟的特点:
模型对话需要保持上下文;
语音/流式生成需要实时响应;
会话中可能包含多种工具调用与后台任务。
这类应用往往是 稀疏型负载:大多数时间处于低负载,仅维持长连接和上下文。传统“请求边界=活跃,闲置时冻结 CPU”的机制不再适配:如果一律计为活跃,用户在“低价值”的保活状态下将付出过高成本。
因此,第三阶段的核心转变是:在识别请求边界的基础上,引入按实际资源消耗动态区分“活跃/闲置”的计费模型。低负载状态下减免 CPU 费用,同时仍然允许 AI 应用运行后台任务。
支撑这种演化的关键技术包括:
支持会话亲和性
引入会话亲和性机制,使得同一会话的请求路由到同一个实例,避免上下文丢失。
用户可通过配置IdleTimeout主动控制会话保留时间(即将发布)。
按实际资源消耗判断活跃/闲置
在过去“有请求=活跃”的基础上,引入根据资源利用率感知活跃/闲置的机制。
如果 CPU 使用超过阈值,则记为“活跃”并计算CPU费用;如果只是心跳/轻量保活,CPU使用极低,则记为闲置,免去CPU费用,仅收内存/磁盘/网络成本。
执行期间低负载的减免机制
在有请求执行时,函数计算以秒为周期采样,如果 CPU 使用低于阈值,自动减免该周期的 CPU 费用。