首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >多模态理解模型 >多模态理解模型的计费模式通常如何设定?

多模态理解模型的计费模式通常如何设定?

词条归属:多模态理解模型

1. 后付费按 token 计费

主流计费方式,按实际使用的输入和输出 token 数量结算。以腾讯云 VITA 模型为例,推理输入价格为 1.2 元/百万 tokens,推理输出价格为 3.5 元/百万 tokens。后付费方式的优点是按需使用、无需预付,适合调用量波动较大的场景。

2. 预付费订阅计划

平台提供多种预付费套餐,通常包括:

  • 通用 Token Plan:适用于多种模型的通用 token 额度。
  • 专项 Plan:针对特定场景(如编码、图像处理)优化的套餐。
  • 企业版:提供更高的并发额度、专属技术支持和定制化服务。

3. 按次计费与按资源计费

针对特定类型的多模态任务,部分平台提供按次计费模式:

  • 图像生成:按张计费,价格根据模型精度和使用场景有所不同。
  • 视频生成:按秒或按视频时长计费。
  • 3D 生成:按次计费,根据模型精度(如 HY-3D-3.0、HY-3D-Express)价格有所差异。

4. 缓存优惠机制

部分模型支持 Prompt Cache 机制,当相同的输入前缀被重复使用时,缓存命中的输入 token 享受更低单价,部分模型可低至常规输入价格的 1/4 至 1/10。这一机制对多轮对话、系统提示词固定的场景具有显著的降本效果。

相关文章
多模态理解模型的Token消耗优化策略
摘要: 多模态理解模型按Token消耗量计费,优化Token使用是控制成本的关键。本文基于VITA多模态理解模型的Token消耗规则,从输入素材准备、指令编写、调用策略三个维度,提供可操作的优化建议。
克劳德2048
2026-06-18
20
VITA技术解析:原生多模态大模型如何重写内容理解
本文面向多模态业务的开发者与技术决策者,从架构、能力、工程指标三个维度,系统说明 VITA 的技术选择与对应的工程价值。
腾讯云_内容识别
2026-06-12
1190
理解指向,说出坐标!开源模型“Shikra”开启多模态大模型“参考对话”新模式!
在人类的日常交流中,经常会关注场景中不同的区域或物体,人们可以通过说话并指向这些区域来进行高效的信息交换。这种交互模式被称为参考对话(Referential Dialogue)。
CV君
2023-08-31
6200
论文解读 - 统一的多模态理解和生成模型综述(上)
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
合合技术团队
2025-05-29
1.2K0
论文解读 - 统一的多模态理解和生成模型综述(下)
大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如Common Crawl 1、RedPajama、WebText等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表3中列出的每个类别中的代表性数据集,重点关注2020年以后发布的数据集。
合合技术团队
2025-05-30
7930
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券