Transformer架构:驱动AI革命的核心理念
当今最强大的AI工具——无论是能够总结文档、生成艺术作品、创作诗歌,还是预测极其复杂蛋白质折叠方式的工具——都依赖于“Transformer”架构。这种神经网络架构于2017年首次在某机构一个不起眼的会议中心亮相,它使机器能够以一种反映人类思维的方式处理信息。
此前,大多数先进的AI模型依赖一种称为循环神经网络的技术。这种技术通过在紧凑的窗口中从左到右阅读文本来工作,仅记住刚刚出现的内容。这种设置对于处理短句效果尚可。但在较长、更复杂的句子中,模型需要将过多的上下文信息塞入其有限的内存,导致关键细节丢失。这种模糊性使模型无法理解。
Transformer架构摒弃了这种方法,转而采用了一种更为激进的机制:自注意力机制。
自注意力机制非常符合直觉。人类在阅读和理解文本时,显然不会严格按照顺序逐词扫描。人们会略读、回看、通过权衡上下文进行猜测和纠正。这种思维敏捷性长期以来一直是自然语言处理领域的“圣杯”:不仅要教机器处理语言,还要教机器理解语言。
Transformer架构模仿了这种思维上的飞跃。其自注意力机制允许模型将句子中的每一个词语与其他所有词语同时进行比较,从它们之间的关系中发现模式并构建意义。“可以利用来自互联网或某百科的所有这些数据,并将其用于特定任务,”某研究机构的AI研究员表示。“而这具有巨大的力量。”
本文属于“21世纪21个最佳理念”专题系列的一部分。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。