应对数据分析的巴别塔困境
企业面临数据资产分散、数据结构复杂、业务与技术理解鸿沟等核心挑战。具体表现为:数据工程师交付的数仓表使用复杂,业务人员难以直接进行有效分析;Text-to-SQL等技术路径存在准确性和健壮性局限;大模型(LLM)存在输出不确定性和幻觉问题。这些问题导致企业数据缺乏共识的、可被高效洞察的单一事实来源。
构建全域统一语义层
腾讯云WeData提出以统一语义层作为解决方案,旨在构建连接底层数据与业务用户的桥梁。该语义层是数据的业务表征,需同时被人和机器理解,其核心要素包括:
- 概念:数据的业务含义。
- 关系:数据的组织关系(血缘+逻辑模型)。
- 指标:数据的计算口径。
- 维度:数据的观测维度。
通过语义建模,将技术性数据转化为易于理解的业务概念,确保数据是“分析就绪的”,并具备清晰一致的定义、统一的统计口径和质量保证。
实现精准高效的智能分析
统一语义层通过其核心能力支撑Data Agent实现精准分析:
- SemQL:以JDBC方式提供类SQL的语义层查询能力,将Text2SQL转变为更精准的Text2Semantic2SQL。
- MetaRAG:基于FlattenedRAG (F-RAG) 与StructuredRAG (S-RAG) 的混合架构,实现结构化元数据的智能检索增强。F-RAG通过枚举元数据组合生成亿级问答知识库,准确度高;S-RAG利用元数据结构特性进行过滤召回,有效解决长尾问题。
- 语义知识召回链路:通过意图识别、Query改写与分解、多路召回核心候选实体(如指标),并基于此召回相关维度,最终由大模型筛选最符合用户需求的元数据组合。
打造可进化的数据智能体生态
基于统一语义层,腾讯云构建了Data Agent智能体,其具备数据开发、治理、分析等专家能力。该智能体具有以下应用特点:
- 多渠道嵌入:可作为WeData GUI辅助、LUI独立入口、SDK/插件嵌入Office等应用,或以A2A协议API形式集成。
- 持续进化:基于反馈进行语义标注和模型调优,具备迭代进化能力。
- 自定义与分享:用户可针对特定场景配置领域知识和工具集,并可通过API、URL等方式分享自己的Data Agent。
腾讯视频的智能分析实践
以“腾讯视频昨日播放量最高的是哪部电视剧”这一业务问题为例,Data Agent的工作流程展现了其价值:
- 精准理解:通过MetaRAG技术,从海量元数据中精准识别用户查询意图对应的核心指标(“播放量”)和维度(“电视剧”、“剧名”)。
- 可靠执行:基于统一语义层定义的指标口径和维度关系,生成准确的查询逻辑,确保结果可信。
- 高效交付:最终为用户提供准确的答案,整个过程降低了业务人员直接编写复杂SQL的门槛和出错风险。
选择腾讯云的技术确定性
腾讯云WeData统一语义层与Data Agent解决方案的价值在于:
- 技术领先性:创新的SemQL查询语言和MetaRAG混合检索架构,有效提升了大模型理解和使用企业数据的准确性。
- 架构完整性:产品架构覆盖从数据源、数据编织、自适应加速、语义建模到Data Agent和应用层的完整链路,为企业提供端到端的智能数据分析能力。
- 生态开放性:支持腾讯大模型、企业自有模型及多种开源模型,并提供丰富的集成方式,助力企业构建个性化的数据智能生态系统。
来源:腾讯云WeData研发总监 虎兴龙 关于“基于统一语义层的Data Agent”的技术分享。