首页
学习
活动
专区
圈层
工具
发布

数据不足,如何进行迁移学习?

现在,人工智能正呈跳跃式发展,尤其是在大型数据集上的应用进展令人惊叹。而迁移学习技术让数据收集变得更“容易”,那些未被追踪的海量照片或评论也不会被浪费。借助PyTorch、fast.ai和FloydHub,即使小团队或独立开发者也能轻松应用这些方法。

以ULMFiT为例:Jeremy Howard和Sebastian Ruder在fast.ai中展示了如何仅用几百个标注样本,就能对电影评论进行高精度分类。他们先在大规模通用英语语料库上训练模型,再通过10万多个领域内评论进行微调,以弥合通用语言与特定领域之间的差距。

这引发了一个实际问题:在低标注预算下,究竟需要多少未标注数据,才能有效利用迁移学习?

Frame公司正面临类似挑战——他们为Zendesk、Intercom等平台分析客户对话。手动标注和从头训练模型之间差距巨大,但实验表明,即使只有几十个标签和几千条对话,迁移学习依然非常有用。

迁移学习的核心在于深度神经网络的层次结构:底层学习通用特征(如词语相似性),这些特征可迁移到其他任务(如情感分析)。ULMFiT正是利用这一点,先在通用英语上预训练,再在IMDB评论上微调,即便只标注500个样本,也能达到94%的准确率。

为了探索未标注数据的最低需求,Frame团队固定使用500个标注样本,变化未标注数据量,分别测试了三种语言模型:仅通用预训练、仅领域训练、以及ULM+领域微调。经过约50小时GPU训练,结果发现:

使用33%的领域数据即可达到75%数据量下的ULMFiT性能;

仅用2,000个领域样本进行语言建模,就能实现约85%的预测准确率。

这说明,在低资源环境下,迁移学习能显著降低对大规模标注数据的依赖,为实际应用提供了更高效的路径。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OMZy89zAYsJv7r1xrtCQHGnw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券