首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云Data+AI一体化平台:资源调度融合与开发运维降本

腾讯云Data+AI一体化平台:资源调度融合与开发运维降本

原创
作者头像
IT资讯研究所
发布2026-05-30 05:30:49
发布2026-05-30 05:30:49
910
举报

数据来源: 腾讯云 | 腾讯智慧出行(演讲人:曾健,腾讯云大数据产品架构师)

1. 车企数字化转型中的资源与开发壁垒

  • 智能体应用广泛落地: AI智能体已在车企的研发、生产、销售、服务及座舱车机、客服等场景广泛应用,用于实现企业创新与降本增效。
  • 架构割裂导致运维成本高企: 传统主机厂架构中,大数据平台(用于营销、社区APP)与AI训练平台(用于自动驾驶)相互分离。客户需要分别为大数据及AI购买不统一的资源,且两种资源隔离,无法互相复用。
  • 开发体验与数据管理断层:
    • 开发割裂: 客户需在WeData等大数据平台进行DataOps,同时在Ti-One等训练平台维护另一套AI代码。
    • 数据割裂: 数据需在大数据和AI系统间反复拷贝(如HDFS->CFS),带来更高的存储成本
    • 运维割裂: 需分别运维两套系统,上游数据变更无法及时同步下游AI应用,增加了运维挑战。
  • RAG应用构建瓶颈: 以微信读书为例,构建大规模RAG应用面临10亿级向量规模的数据存储压力,且需同时运维全文检索、向量化、向量数据库及正排服务共四套系统,每次召回调试需跨越4个系统执行3次操作。

2. 构建一体化计算与开发平台

  • 三层计算融合架构: 提供大数据计算与AI模型训练的一体化能力,通过以下三层实现:
    1. 任务统一调度: 基于Wedata实现BI报表、数据挖掘、AI模型训练与评估任务的统一调度。
    2. 资源融合: 支持Spark、Spark SQL(CPU)与Python、PyTorch、TensorFlow(GPU)的资源混合调度。
    3. 引擎融合: 结合Spark MLlib、Xpark与PyTorch/TensorFlow,统一CPU资源下的数据处理与模型计算。
  • One Env + One Workflow + One Data: 构建统一平台,通过WeData Notebook作为统一入口,整合DataOps与MLOps工作流。
  • 全托管Ray调度服务: 针对AI场景,提供Ray on TKE一体化方案,支持KBS+Ray一体化调度,解决传统YARN调度不适应AI场景的问题。
  • 一站式RAG解决方案: 基于腾讯云ES提供包含全文检索、向量检索、向量化服务的一站式方案,支持与LLM大模型(如OpenAI Chat-GPT)通过API或LangChain集成。

3. 量化收益与性能指标

  • 资源利用率提升: 通过一体化调度实现大数据与AI作业的在离线混部,资源利用率提升30%
  • RAG性能与规模: 支持百万级QPS,向量规模支持十亿级;数亿量级数据的全链路多路召回需控制在100ms以内;平台稳定性要求达到5个9以上
  • 运维与存储成本优化:
    • 免运维: 全托管Ray服务免除底层资源维护,相比自建Ray显著降低规模化运维难度与资源预测压力。
    • 存储降本: 一体化存储消除数据在系统与系统间的重复拷贝。
  • 开发效率提升: 基于统一Notebook入口,一站式完成数据预处理到模型训练,降低算法工程接入复杂度。

4. 主机厂与互联网业务场景实践

  • 多部门协同场景: 针对主机厂内部自动驾驶部门(常规模型开发调优)与营销及社区APP部门(个性化服务推荐)的不同诉求,平台提供从数据编排、治理到模型训练、验证、上线的完整链路。
  • 营销GenAI应用: 支持复杂的思维链(COT)任务,例如自动生成包含“上海最畅销饼干(Danisa)及其最佳搭配(咖啡)”的图文朋友圈宣传内容,涉及大语言模型、推荐模型及企业素材库的非结构化数据调用。
  • 大规模知识库应用: 微信读书案例验证了ES一站式RAG方案在处理超10亿级向量规模与超亿级用户高并发查询场景下的可行性。

5. 技术领先性与生态对齐

  • 统一计算框架 Xpark:
    • 统一接口: 客户端同时支持DataFrame与ML负载,支持本地与云端无感开发,兼容Serverless。
    • 优化器: 采用RBO(规则优化)+ CBO(代价优化),支持DataFrame、关系型与矩阵运算的代数优化。
    • 高性能传输: 优先使用Arrow格式,支持Streaming与Zero-Copy,避免数据转换和序列化开销,利用Arrow Flight提升传输性能。
    • 调度: 基于Ray+TKE的资源调度,通过对象池实现数据全局共享。
  • 统一数据目录(TC-Catalog): 新一代多态统一元数据管理平台,覆盖传统结构化数据、半/非结构化数据(文本/音频/视频)及AI模型,具备统一权限管理功能。
  • 行业对标: 技术架构对齐Databricks(2013年即启动一体化)、Google BigQuery ML(2018年)及Redshift ML(2021年)等行业领导者。
  • 多租户与安全: 继承TKE能力,支持Namespace命名空间、Resource Quotas资源配额、Limit Range限制范围及RBAC角色访问控制,实现标签级和用户级资源权限隔离。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 车企数字化转型中的资源与开发壁垒
  • 2. 构建一体化计算与开发平台
  • 3. 量化收益与性能指标
  • 4. 主机厂与互联网业务场景实践
  • 5. 技术领先性与生态对齐
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档