首页
学习
活动
专区
圈层
工具
发布

Komprise推出透明文件表功能,让非结构化数据轻松为AI所用

大数据管理初创公司Komprise今日宣布对其平台进行重大更新,推出全新功能Komprise透明文件表(Transparent File Tables,简称TFT)。该功能能够为杂乱的非结构化数据提供"结构化视图",使AI模型和应用程序能够更便捷地访问和使用这些数据。

在接受SiliconANGLE采访时,Komprise联合创始人兼首席技术官Krishna Subramanian表示,该新功能目前已开放早期访问。它允许企业在无需承担大规模数据迁移高昂成本的前提下,将非结构化数据以Apache Iceberg表的形式接入所选的云数据湖仓平台。

Subramanian表示,此次更新旨在全面提升AI运营能力与智能体的表现。提升AI能力的方式不止一种,前沿实验室专注于构建更强大的新模型,而她认为,只需为现有模型提供更多数据,同样能显著提升其性能。

非结构化数据的困境

非结构化数据是大多数大语言模型的核心原料,但目前绝大多数此类数据根本未被利用。Subramanian指出:"我们都知道,AI离不开高质量数据,当所有企业都能访问相同模型时,企业自身的数据才是真正的差异化优势。然而,超过80%的企业数据是非结构化的,而这些数据中有99%对AI而言是'黑暗'的,因为目前没有便捷的方式来查询非结构化数据。"

她进一步分析了大量非结构化数据之所以无法被利用的多重原因:大多数数据缺乏统一的数据模式,数据质量参差不齐,体量庞大且难以迁移。此外,现有的数据摄取机制并不适合非结构化信息,因为这些机制通常通过复制全部原始数据来运作,导致数据缺乏AI模型所需的结构。

Subramanian解释道:"ETL等现有数据摄取技术是为结构化和半结构化数据而设计的,它们专注于复制所有原始数据,而不进行任何模式提取。例如,基于云存储的文件批量摄取方式,会先将文件暂存于云对象存储中,再按计划或增量方式加载到平台上。数据以原始字符串、二进制数据块或JSON、XML等半结构化格式落地,随后才通过处理层进行精炼加工。"

另一种方式是借助Databricks、Snowflake等云数据湖仓平台提供的外部表引用,直接对非结构化数据进行原地查询。但Subramanian表示,这种方式极为繁琐,用户需要花费数小时手动预处理数据,才能生成与数据湖仓兼容的结构化描述。

化繁为简,秩序重塑

Komprise表示,透明文件表为企业提供了一种更为便捷的替代方案。Subramanian介绍,该功能依托Komprise的分布式横向扩展架构,自动对非结构化信息进行分类,并将其格式化为表格模式。整个流程从自动索引企业跨IT环境的非结构化数据开始,涵盖云端和本地服务器。在此过程中,企业可通过内容分析、标题解析、敏感数据扫描和元数据标记等方式,为文件添加丰富信息,使数据更有条理、更易检索。

完成上述步骤后,系统会将经过丰富处理的元数据以Iceberg表的形式呈现,并借助Komprise的透明移动技术(Transparent Move Technology)指向数据的实际存储位置。这意味着AI模型可以通过检索已分类和丰富化的元数据快速定位所需数据,再直接访问其存储位置,数据本身无需移动,而是在需要时动态加载。

Subramanian表示:"Komprise TFT为全球企业的非结构化数据提供了一个结构化、即查即用的视图。Komprise维护着一个全局元数据库,其中包含系统元数据、内容元数据和自定义元数据,为企业所有数据提供分类和结构化支持。它解决了数据工程师和分析师面临的两大核心问题:为非结构化数据赋予统一的模式,并使其能够在Databricks、Snowflake等分析和AI工具中直接使用,而无需移动PB级规模的数据。"

Komprise还表示,TFT支持使用现有商业智能和数据分析工具通过Iceberg查询检索非结构化数据,并基于每位用户的访问权限实施数据治理。

打通访问壁垒,释放数据价值

Subramanian认为,Komprise TFT将大幅拓展非结构化数据在众多新型应用场景中的可及性。以医疗行业为例,机器学习工程师可利用该功能整理高质量数据集,用于对放射科大语言模型进行微调,同时无需暴露敏感医疗记录。

她表示:"工程师可以利用从DICOM文件及其相关报告中提取的AI生成标签,涵盖影像模态、身体部位、检查类型和影像所见等信息,再将这些数据与来自电子健康记录系统的结构化患者队列数据关联,筛选出目标数据子集,并以Parquet格式导出,用于RAG流水线或微调工作流的数据摄取。"

其他应用场景包括:为金融机构构建统一的数据资产地图,帮助其掌握敏感数据的分布情况,从而强化合规管理;媒体与娱乐领域的AI智能体也可借助Iceberg表格式识别媒体档案,并在执行特定任务时精准筛选所需摄取的脚本内容。

对企业而言,最大的收益在于可以让海量非结构化数据保留在原有位置,同时显著提升AI和分析团队的访问效率。这不仅避免了移动PB级数据所带来的高昂成本和复杂操作,还确保了敏感信息的安全性,同时大幅提升了数据的整体价值。

Subramanian总结道:"数据和AI团队可以通过熟悉的界面访问高质量的非结构化数据,无需承担摄取原始数据和手动提取模式的成本与复杂性。"

Q&A

Q1:Komprise透明文件表是什么?它解决了什么问题?

A:Komprise透明文件表(TFT)是Komprise平台的全新功能,旨在为企业杂乱的非结构化数据提供结构化视图。它通过自动索引、元数据标记和Iceberg表格式,让AI模型和分析工具能够直接查询非结构化数据,同时无需将数据实际迁移,解决了企业99%非结构化数据无法被AI有效利用的痛点。

Q2:Komprise TFT如何避免大规模数据迁移的成本?

A:TFT利用Komprise的透明移动技术,让Iceberg表仅指向数据的实际存储位置,而非复制数据本身。AI模型通过检索丰富化的元数据定位所需信息后,直接访问原始存储位置,数据只在需要时动态加载。这样企业就可以避免移动PB级数据带来的高昂费用和复杂操作。

Q3:Komprise TFT有哪些实际应用场景?

A:应用场景较为广泛。在医疗行业,工程师可用其整理放射科大语言模型所需的微调数据集,且无需暴露敏感医疗记录;在金融领域,可构建统一数据资产地图以强化合规管理;在媒体与娱乐行业,AI智能体可借助Iceberg表格式快速识别并筛选所需媒体档案,提升任务执行效率。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OZnT9L2z0VRY8n6uDQTDbGAg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券