终于有人把 Doris / SelectDB 说明白了！面向 AI 的极速分析与搜索数据库

一臻数据

发布于 2026-04-21 20:39:30

5500

见字如面，我是一

“午间，数据科学家小李正盯着屏幕上卡住的进度条“这AI模型还等着我的用户向量数据做检索召回呢，结果查询慢成这样，明天汇报怎么办？”他低声抱怨。旁边的同事小王走过来，递给他一份新部署文档：“别急，试试 Apache Doris 4.0。我上周在项目里用过，数据从写入到分析搜索，全程秒级响应，混合检索一次搞定。” 小李半信半疑地点点头，心里却涌起一丝期待——终于不用再为数据延迟头疼了。 Apache Doris作为开源 AI检索分析数据库，从4.0版本开始就把向量搜索、全文检索和结构化分析统一到一个引擎里，SelectDB则在此基础上提供私有化和云原生企业版本。可谓真正实现了面向AI的极速分析与搜索，一条SQL就能处理混合负载，落地效率直接拉满。

Doris的核心AI原生能力

Apache Doris从4.0版本起正式引入向量索引，支持HNSW和IVF两种ANN算法，向量数据以固定长度数组形式存储，无需额外数据类型。

结合原生SQL，你可以直接在同一查询里完成向量相似度搜索、关键词精确匹配和多维聚合分析。

这就是 混合检索与分析（HSAP） 的落地形式——既保证语义召回，又保留结构化过滤的精准性。

举个实际对话场景：

团队晨会上，产品经理问：“用户画像向量怎么和最近购买记录一起分析？”

工程师小王直接敲代码演示：“看这条SQL，EMBED函数把文本转向量，ANN索引秒搜相似用户，再JOIN结构化表过滤，最后聚合出推荐列表，整个过程库内完成，不用出库调用外部API。”

#建表
-- 用户画像表（存储描述文本的向量，带 HNSW ANN 索引）
CREATE TABLE user_profiles (
    user_id BIGINT NOT NULL,
    user_desc STRING,
    embedding ARRAY<FLOAT> NOT NULL,
    INDEX ann_idx (embedding) USING ANN PROPERTIES (
        "index_type" = "hnsw",
        "metric_type" = "l2_distance",
        "dim" = "768"
    )
)
DUPLICATE KEY(user_id)
DISTRIBUTED BY HASH(user_id) BUCKETS 8
PROPERTIES ("replication_num" = "1");

-- 结构化用户行为表（购买记录）
CREATE TABLE user_orders (
    user_id BIGINT,
    product_id BIGINT,
    product_category VARCHAR(100),
    purchase_amount DOUBLE
)
DUPLICATE KEY(user_id)
DISTRIBUTED BY HASH(user_id) BUCKETS 8
PROPERTIES ("replication_num" = "1");

#写入向量数据（使用 EMBED 函数）
SET default_ai_resource = 'your_embed_resource';

INSERT INTO user_profiles (user_id, user_desc, embedding) VALUES
(1, '年轻科技爱好者，喜欢游戏和数码产品', EMBED('年轻科技爱好者，喜欢游戏和数码产品')),
(2, '户外运动达人，热爱跑步和登山',       EMBED('户外运动达人，热爱跑步和登山')),
(3, '科技宅，喜欢编程和电子产品',         EMBED('科技宅，喜欢编程和电子产品'));

#核心推荐查询
-- EMBED 文本 → ANN 搜相似用户 → JOIN 结构化表 → 聚合推荐品类
SELECT
    o.product_category,
    COUNT(DISTINCT u.user_id)    AS similar_user_count,
    AVG(o.purchase_amount)       AS avg_purchase_amount,
    SUM(o.purchase_amount)       AS total_purchase_amount
FROM user_profiles u
JOIN user_orders o ON u.user_id = o.user_id
WHERE l2_distance_approximate(
          u.embedding,
          EMBED('喜欢科技产品和游戏的年轻用户')   -- 文本实时转向量
      ) < 0.5                                      -- ANN 索引加速过滤相似用户
GROUP BY o.product_category
ORDER BY similar_user_count DESC
LIMIT 10;

小李当时眼睛亮了——以前要跨系统拼数据，现在一条语句全解决，开发周期从几天缩短到小时。

Doris的实时导入能力也值得一提。

通过Kafka或Flink等多种方式，数据产生后秒级可见，高并发查询支持万级QPS，ClickBench榜单多项指标领先。

AI函数进一步让数据库灵活起来：内置EMBED生成嵌入、AIAGG做文本聚合，还能直接在SQL里调用大模型完成情感分析或摘要提取。

数据工程师的心理变化很真实——从过去等结果到如今AI+主动驱动，那种掌控感，让加班都少了很多。