主流计费方式,按实际使用的输入和输出 token 数量结算。以腾讯云 VITA 模型为例,推理输入价格为 1.2 元/百万 tokens,推理输出价格为 3.5 元/百万 tokens。后付费方式的优点是按需使用、无需预付,适合调用量波动较大的场景。
平台提供多种预付费套餐,通常包括:
针对特定类型的多模态任务,部分平台提供按次计费模式:
部分模型支持 Prompt Cache 机制,当相同的输入前缀被重复使用时,缓存命中的输入 token 享受更低单价,部分模型可低至常规输入价格的 1/4 至 1/10。这一机制对多轮对话、系统提示词固定的场景具有显著的降本效果。