首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • AI数据治理系统:给模型喂干净饭的技术底座

    这些坑,本可以靠一套AI数据治理系统躲过去。什么是AI数据治理?不是传统那套!传统数据治理管的是数据库表格——字段规范、主外键关系。 AI数据治理管的是非结构化数据的山海经:图片、视频、文本、语音,还有它们之间乱七八糟的关系。核心目标三个:让数据干净、让数据安全、让数据值钱。 三技术支柱第一,数据质量"保鲜仪"AI对数据质量比处女座还挑剔。我们的系统植入了一套"数据体检"机制:自动清洗:上传图片模糊?自动剔除。文本乱码?实时拦截。标签矛盾?马上报警。 降风险:数据泄露、合规罚款、模型学歪,三雷区全避开。省成本:标注成本降30%,存储成本降20%,返工成本几乎归零。提效率:数据准备周期从"周"变"小时",模型迭代快3倍。 这套系统是给模型配"营养师+质检员+保镖",让它吃上干净饭、安全饭、营养饭。别等到模型上线翻车才想起数据治理。提前把数据管好,AI项目成功率能从30%提到70%以上。

    32010编辑于 2025-11-24
  • 模型真正的护城河:不是参数,是「会做研究」的数据底座

    这些失效并非偶发的技术故障,而是根植于训练数据结构的深层问题——模型缺乏对科研方法论体系的真正理解。 1.2问题根源诊断1.2.1非参数规模不足,而是数据底座缺失"科研方法论骨架"对上述失效模式的系统性分析指向一个反直觉的关键结论:模型在科研辅助场景中的表现瓶颈,绝非源于参数规模的限制。 二、科研方法论的数据底座:构建"全学科科研方法论Scale"2.1真实科研的方法论本质2.1.1非信息搬运,而是跨学科、有规范、能落地的体系化知识理解科研方法论数据底座的价值,首先需要纠正一个普遍误解: 2.2高质量数据源的四核心渠道构建覆盖全学科的科研方法论数据底座,必须突破泛互联网信息的局限,定向挖掘四类高质量专业数据源:2.2.1顶刊《作者指南》学术期刊的《作者指南》(AuthorGuidelines 3.1.2降低无效数据占比,提升训练效率从模型训练的经济性角度,数据底座提供了精准优化训练数据构成的抓手。

    21610编辑于 2026-03-31
  • 来自专栏凯哥讲故事系列

    DataOps:数据中台的必备底座

    前言 数据中台的崛起代表了企业数字化转型从流程驱动走向数据驱动,从数字化走向智能化。而DataOps则是数据中台区别于传统企业数据架构的核心差异,是建设数据中台的必备底座能力。 为什么需要DataOps DataOps的出现,从因为数字化转型进入了数据为核心的智能时代,为了满足企业对于数据管理,数据利用的三战略趋势: 数据分析民主化/Democratization 上图是典型的数据价值链过程,而DataOps就是支撑着整个全生命周期的底座,成功的DataOps体系有四个特质:CAUTA。 全面/Universal 作为企业全域数据底座,DataOps要全面的支持所有的场景和数据,如下图所示例,列示出了常用的30种数据源和40种目标数据。 ? 可以分解的更加细致: ? 典型DataOps平台架构 一个典型的DataOps平台的架构如下图[4]所示,包括八组件功能: ?

    8.8K37发布于 2020-07-09
  • 来自专栏关于Java学习@宁在春

    浅谈日常使用的 Docker 底层原理-三底座

    ,它可以在两个端口之间建立虚拟通道,将数据从一个端口转发到另一个端口,同时支持很多网络协议,如常见的 TCP、UDP、HTTP、HTTPS等等。 它告诉 socat 要将传入的数据流连接到 /var/run/docker.sock 这个路径上。 4) & : 这个符号将命令放入后台运行. 上面我们已经使用 socat 监听来自unix://tmp/dockerapi.sock 数据输入啦,它会帮我们连接到 /var/run/docker.sock 上去。 开胃小菜结束了,下面的才是有意思的,但是我想通过上面两节小小案例的演示,大家对于 Docker 的客户端和服务端之间的交互应该了解了一些了吧~ 三、Docker 核心原理的三底座 在容器进程启动之前重新挂载它的整个根目录 但是,你如果在容器里执行 top 指令,就会发现,它显示的信息居然是宿主机的 CPU 和内存数据,而不是当前容器的数据。 我在容器中执行 free 命令,展示的是我宿主机的相关信息。

    3K21编辑于 2023-10-16
  • 来自专栏IT创事记

    创新数据底座:智能制造的“圣杯”

    进行仿真计算需要处理大量的实时数据,对系统的计算和数据吞吐能力都有极高的要求。既有的数据基础设施很难满足以汽车研发为代表的新增需求,创新的数据底座成为智能制造时代被寄予厚望的“圣杯”。 仿真平台只是创新数据底座的冰山一角。 与欧美发达国家相比,我国智能制造还有相当的发展空间。当前90%的制造业企业配有自动生产线,但仅有40%实现数字化管理,5%打通工厂数据,1%使用智能化技术。 华为构建的创新数据基础设施,将成为国内制造企业数字化转型坚实的数据底座,其示范效应影响深远。 存储产品的高歌猛进,为华为创新数据基础设施提供了充足的底气;与更多懂行业、懂业务、懂技术的合作伙伴携手同行,则是华为构建制造业等行业数据底座的生态保障。

    54820编辑于 2022-08-30
  • HarmonyOS Next数据底座向量数据库介绍

    背景今年HDC在展厅遇见了HarmonyOS 数据底座的架构师,介绍了基于数据底座实现端侧能力的智能小助手,听着很吸引人,HarmonyOS将端侧AI做到了系统层,给开发者创造了无限可能。 向量数据库概述向量数据库是一种支持存储、管理和检索向量数据数据库系统,同时兼容传统的关系型数据处理能力。 从API version 18开始,向量数据库正式支持通过标准化接口实现数据持久化,为开发者提供了可靠的数据存储解决方案。 结果集采用惰性加载策略,只有在实际访问数据时才会从存储层加载,有效降低了内存消耗。向量数据表示floatvector是向量数据库的核心数据类型,用于表示高维向量数据。 本文详细介绍了向量数据库的核心特性、开发接口和高级功能,为开发者提供了全面的技术指南。随着模型和生成式AI的普及,向量数据库的重要性将进一步提升。

    37710编辑于 2025-07-06
  • 来自专栏量子位

    都在卷大模型底座,云计算一哥决定给底座底座

    为什么需要模型底座? 由表及里,大概有两层原因驱动。 首先是直接原因,行业需求。 生成式AI将会形成一个新市场,如今已是行业公认的趋势。 那么亚马逊云科技的动作,则是给出了一种新范式,将多种模型囊括在一起,放在一个大平台底座上,让用户的可选择性提升,同时发挥他们云厂商本身的优势,让用户的调用和定制化过程门槛更低、效率更高,并在安全性做出保障 更深层次的原因在于,给模型加底座,能够更进一步降本增效,这本身就符合市场和行业的发展要求。 而除了模型底座,在近期或许还会衍生出一批“新兴物种”。比如当下软件应用在争先恐后接入Chatbot,就有企业推出相应服务帮软件应用接入模型能力。 可见在当下这个时刻,怎么把握机遇非常关键。 其中,比如光数据这一环就分为数据提供商和数据服务商,光数据提供商就包括提供通用数据、垂直数据、特定业务下的标注数据、符合法规的审核数据等等。

    39010编辑于 2023-05-06
  • 来自专栏知识分享

    WIFI底座

    自己贴片的51+WIFI的开发板终于到了。。还是贴片的好看 美中不足的是需要改一个电阻的阻值。。还有就是由于自己的8266和51单片机一块断电上电,所以如果用的USB线的质量不好就会出现 下载不了程序

    1.3K40发布于 2018-06-01
  • 云原生湖仓一体演进:模型多模态数据底座的重构路径

    专家背书: 徐潇 | 腾讯云数据湖技术专家,Apache Gravitino PMC 一、 破除AI场景数据读写与管理瓶颈 在AI与模型时代,企业传统数据架构在对接机器学习与模型训练时面临严重的业务瓶颈与计算损耗 该方案通过底层表格式的革新,实现多模态数据的集中治理: 引入Iceberg底座: 兼容现有Lakehouse架构,提供高拓展性的表格式与完善的开源生态,支持底层原始数据与向量表示的统一存储。 实现数据页独立编码: 去除复杂的行组分层,将数据按列直接拆分为数据页(Data Pages),每个数据页实现独立编码与管理,将元数据、索引与数据集中存放,实现高并发并行处理。 LanceDB & DeepLake 探索: 验证了作为嵌入式向量数据库(Embedded Vector DB)和基础模型数据湖(Foundational Model Datalake)的有效性,无缝衔接云端对象存储与模型训练 五、 引领湖仓架构向模型底座演进 腾讯云通过深度参与和主导开源社区(如 Apache Gravitino PMC 席位),确立了在云原生湖仓一体向模型数据底座演进过程中的技术确定性。

    19210编辑于 2026-04-27
  • 数据平台数据底座能力构建技术指南

    摘要 本文旨在解析大数据平台的数据底座能力,探讨其核心价值、典型场景、关键挑战,并提供详细的操作指南。同时,对比分析通用方案与腾讯云方案的差异,并提供场景化案例以展示腾讯云产品的优势。 技术解析 核心价值与典型场景 大数据平台的数据底座能力,指的是构建企业级数据仓库和数据资产管理的能力。这一能力的核心价值在于: 性能提升:与传统数仓/大数据解决方案相比,性能提升10~100倍。 典型场景包括企业级数据仓库构建、数据资产治理和可视化数据分析。 3关键挑战 性能瓶颈:在大规模数据处理时,如何保持高性能和响应速度。 安全风险:数据资产的安全性和隐私保护。 结论 大数据平台的数据底座能力是企业数字化转型的关键。腾讯云提供的WeData、COS和BI工具等产品,能够帮助企业在性能、成本和数据治理方面取得显著优势。 通过上述操作指南和增强方案的对比,企业可以根据自身需求选择合适的技术方案,实现数据底座能力的构建和优化。

    60510编辑于 2025-07-28
  • 部署医疗模型与全栈云底座,重塑医院诊疗效率与数据安全

    跨院区协同缺乏统一底座,且医疗数据作为高价值目标,正面临DDoS攻击和勒索病毒加密的严峻安全威胁。 引入混元医学模型与全栈信创云底座 为突破上述瓶颈,腾讯构建了以底层算力与模型为核心的医疗数字化矩阵,提供一体化解决方案: 智慧服务(混元模型驱动): 部署7B/33B私有化医学模型。 数字化基础设施(专有云与大数据): 部署基于TCE的专有云平台及TDSQL分布式数据库,实现全面去IOE与信创国产化。 结合TBDS大数据计算存储平台及T-Sec终端安全管理系统,构筑事前检查到事后追溯的一体化数据安全中枢。 头部三甲医院数智化升级业务实践 上海交通大学医学院附属瑞金医院(临床模型重构): 作为国内Top5医院,组建数字医学创新中心,建成33B医学垂类模型底座

    10210编辑于 2026-05-30
  • 来自专栏量子位

    火山引擎给模型造底座!MiniMax、智谱AI等已登陆

    不仅为模型玩家提供训练、推理、评测、精调等功能与服务,后续还提供运营、应用插件等工具,进一步支撑模型生态。 总之,就是要为模型,打造一个超强底座。 而透过火山方舟,火山引擎如何看待模型趋势? 对于大部分行业用户来说,通用模型只是基础能力,想要使用更优质的模型服务可能都需要基于自家数据进行持续训练或精调。 火山方舟能提供极简精调流程,只需两步即可一键精调:选择基础模型→上传标注数据集。 所以火山方舟同步推出了评测工具,支持用户基于自身数据、系统化地感知模型表现情况,并且给出详细的测评报告,为后续做决策提供数据基础。 吴迪表示,在模型时代,信任问题至关重要。 模型提供方不希望自己辛苦训练出的模型被人拷贝走,这属于重要知识产权;下游客户不希望自己的数据在推理和精调过程中不被泄露,敏感数据只有自己可见。 以及底层硬件厂商,同样也迫切需要模型底座。 NVIDIA开发与技术部亚太区总经理李曦鹏表示,英伟达开发每一款新产品,都是以workload来驱动,所有开发都是要解决真实存在的问题。

    2.7K20编辑于 2023-08-05
  • 构建普惠金融数智底座:AI模型与数据湖驱动业务量化提效

    数据底层架构臃肿: 随着多模态数据(文本、图像、行为数据)爆发,传统大数据组件面临计算资源调度慢、系统维护难度数据加工及查询时效低下的痛点。 二、 部署“云+智能”全景架构与多模态处理引擎 为打破上述瓶颈,腾讯云通过“AI、大数据、云基础设施”三核心技术协同,为金融机构提供了一套从底层算力到上层Agent(智能体)的完整技术栈: 构建“湖仓一体 部署多模态模型矩阵(MaaS): 提供基础混元模型与金融行业大模型,结合 TI 平台矩阵(TI-One训练平台、TI-Matrix应用平台、TI-OCR、TI-DataTruth),实现从特征工程、 某金融科技公司(全业务场景融合): 利用预训练金融数据并精调公司业务数据,打造金融风控模型与智能Agent(如百事通风险智能顾问)。 金融机构选择腾讯云的核心逻辑,在于其实现了从底层硬件到上层智能应用的高确定性与技术前瞻性: 彻底的自主可控根基(一云多芯): 构筑了全面适配国产芯片(鲲鹏、海光、飞腾、龙芯及信创ARM/x86/MIPS)的云基础设施底座

    25220编辑于 2026-04-21
  • 来自专栏鹅厂网事

    星脉高性能计算网络:为AI模型构筑网络底座

    前几天横空出世的AI爆款产品ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是基于微调后的GPT3.5模型,参数量多达1750亿个。 图1 ChatGPT的AI内容生成     如此大规模、长时间的GPU集群训练任务,对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。 而在金榜题名的背后,星脉超算网络为腾讯万亿模型构筑了高性能网络底座。 因此要充分发挥GPU计算资源的强大算力,必须构建一个全新的高性能网络底座,用高速网络的带宽来助推整个集群计算的高效率。      星脉超算网络作为腾讯大规模训练集群的重要基石,会持续在超带宽、异构网络通信、通信库定制加速、智能监控等技术上不断创新,为AI模型训练构筑可靠的高性能网络底座

    6.3K21编辑于 2022-12-16
  • 来自专栏IT创事记

    源1.0的“”时代:算法底座变革激活智算新生态

    数据蹲,大数据蹲完算力蹲;算力蹲,算力蹲完模型蹲…… 一场席卷整个业界的大型“萝卜蹲”游戏已持续多年,迄今仍意犹未尽。 亿参数量和570GB训练数据集,又上了一个台阶。 智算生态背景下的模型突破 近几年来,伴随大数据、AI、物联网等新兴技术的协同发展,数字化与智能化的结合更为紧密,“数智化”、“智慧计算”等提法尽管来源不同,内涵和外延也略有差别,但其核心所指殊途同归。 以NLP为切入点构建多场景AI能力 算法、数据及精度,是衡量巨量模型先天禀赋的三维度,综合评估后的结果将决定其未来所能企及的天花板。 在AICC 2021会上,浪潮推出 “源1.0”开源开放计划,范围涉及模型API、高质量中文数据集、模型训练及应用代码等,并将推进面向国产AI芯片的模型移植开发。

    63320编辑于 2022-08-30
  • 来自专栏数据是生产力

    别扯数据化转型了,先夯实数据底座

    2019-2021 人人都提数据中台,张口就说业务数据化、数据业务化,数据驱动业务,甚至数据重塑业务;如今大家又与时俱进开始侃侃而谈数据化转型。 在我们讨论数据化转型、数据中台、数据云时候都离不开一个稳定可持续迭代的数据底座。这里数据底座包括离线数仓、实时数仓、数据湖。数仓(包括离线数仓、实时数仓、数据湖)就是这个数据底座数据使用方主要诉求是能不能快速找到、找到怎么用、有哪些数据,在使用数据时,主要存在三类问题找不到,不知道数据有没有、在哪里。 主数据管理:通过主数据打通各业务链条,统一数据语言,统一数据标准,实现数据共享。 最后 在夯实企业数据底座过程,需要从道角度出发,这是决定我们做事情思考高度与宽度;也需要从术上明确落地实施路径。也就是,道以生术,术为道生。

    3.5K30编辑于 2022-10-28
  • 来自专栏数据猿

    AI存储进入PBEB时代,HDD为何成为数据底座

    AI时代的数据存储 面临三结构性需求 如果说算力决定了AI跑多快,数据就决定了它跑多远。 但这个“跑远”的代价,正在变得越来越沉重。 在这个背景下,西部数据以Ultrastar™ DC HC690数据中心硬盘为代表的新一代容量HDD的重要性愈发凸显。 1.数据底座:更优TCO+长期信赖 在AI驱动的数据中心架构中,HDD是不可替代的底座。因为它能带来规模化成本效益。 这是对客户的长期关系战略——构建“存储信赖路径”,帮助客户把其数据底座变成护城河。 每一个多模态模型的推理调用、每一个Agent系统的上下文记录,每一次语言模型的“记忆保存”,都是对存储底座的“微小索取”。

    25910编辑于 2026-01-27
  • 企业落地 ChatBI,如何构建可信可靠的数据底座

    在企业 ChatBI 落地过程中,数据底座的技术路线选择直接决定了数据可信度、维护成本和业务响应速度。 传统宽表架构在数据口径一致性、维护成本和灵活性上已难以支撑企业级 ChatBI 的规模化应用,而基于 NoETL 明细语义层的方案正成为新一代数据底座的主流选择。 数据工程师疲于应付宽表开发,难以沉淀数据资产:工程师长期陷入“接需求—建宽表—改宽表”的循环,无法将精力投入到数据资产治理和业务价值挖掘中。 NoETL 明细语义层——ChatBI 数据底座的核心基于明细层数据模型进行语义抽象,覆盖完整分析场景:明细语义层直接对接企业数仓 DWD 层的明细模型,沉淀所有明细级语义,支持从宏观汇总到明细下钻的全场景问数需求 最后,为确保数据安全与合规,NoETL 明细语义层可支持行级和列级的数据权限,确保用户仅能访问其权限范围内的数据,如客户经理仅能看到所负责客户的销售数据

    24010编辑于 2026-01-06
  • 来自专栏大模型应用

    模型应用:中小显存适配方案:模型微调底座选型指标与应用实现.52

    市面上模型底座繁多,参数量从3B到70B不等,架构、预训练数据、生态支持差异显著,盲目追求参数量模型往往导致设备适配失败。 二、底座模型的核心指标 模型底座选型的核心是平衡算力约束、任务适配性、落地成本,无需盲目追求性能最优,需优先确保能运行、适配任务、易维护。 任务适配性 底座的预训练目标、模型架构、数据分布需与目标任务高度匹配,对于文本生成任务,需关注以下指标:1. 第二步:官方信息核查通过两渠道核查底座适配性,避免凭经验判断:1. 七、总结 模型微调底座选型的核心逻辑的是适配优先于性能,基于8G显存中小算力场景无需盲目追求参数量模型,围绕任务适配性、算力匹配度、生态成熟度三核心维度,通过“需求分析-筛选排除-打分排序

    58732编辑于 2026-03-21
  • 荣耀基于TencentOS构建高性能AI底座模型吞吐提升2倍

    突破模型部署成本与算力调度瓶颈 随着 DeepSeek 需求的激增,动辄数百万的部署成本成为企业落地的核心阻力。 对于致力于构建 AI 生态系统的荣耀而言,在现有服务器资源不变的前提下,如何解决模型应用中响应慢、服务器繁忙等调度问题,是保障人机交互体验的业务瓶颈。 部署底层加速模块与投机采样引擎 荣耀依托腾讯云 TencentOS Server AI 底座,部署了 TACO-LLM加速模块,通过底层操作系统的优化支撑 AI 模型运行: 引入「投机采样」机制: TACO-LLM 模块采用“大胆预测、快速修正”的逻辑,跳过传统模型逐字计算推理的低效流程,大幅提升推理速度并释放 GPU 算力。 意图识别提速与推理平台性能跃升 通过底层框架优化,荣耀的 AI 推理平台在多项核心业务指标上实现了显著优化(数据来源:腾讯云与荣耀联合业务数据): 意图识别响应速度: TACO-LLM 使 DeepSeek

    15210编辑于 2026-05-01
领券