自然语言处理中的深度学习与表征学习

通过半监督学习和自监督学习中的一些特性，表征学习在很大程度上降低了训练所需的数据量，更重要的是，它将焦点放在传统监督学习中对带注释数据的依赖上，探索更有效的替代路径。

它还推动了多任务学习、零次学习、流形学习等方法的发展，成为连接这些方向的基石。这些思路对深度学习在自然语言处理领域的应用产生了深刻的价值与影响。

表征学习不仅让自然语言处理的实现更快、组织更清晰，还提升了应用的覆盖面，使得以往难以实现的场景成为可能。

然而，从长远角度看，若要获得持续收益，企业与研究者现在就需要行动起来。

字节对编码（Byte-Pair Encoding）

总体而言，表征学习的工作原理与键值对的概念有相似之处。它采用像密钥一样的字节对编码，每个键对应一个数值，仿佛一个字典或查找表。字节对编码是表征学习的核心，用于把语言中的“有意义的块”生成出来。

这一学习模式有两个值得注意的方面。其一在于语言层面的含义：对单词而言，表征可以揭示它们是否属于同义关系、在语义上是否相关、在句法层面是否相关联。其二，所得到的表征不仅限于单词，还能扩展到句子乃至段落，且能根据不同的应用需求提供更多的场景。

零次学习（Zero-shot learning）

表征学习在深度学习领域产生了深远影响，其中最显著的一点是显著减少所需的训练数据量。这一条件成为提高复杂模型准确性的关键。如果表示足够优秀，就能构建出能进行零次学习的模型。借助这一思路，数据科学家能够利用标签作为训练模型的唯一示例。

举例来说，在构建一个飞机识别的预测模型时，传统统计方法往往以“Airplane”为唯一示例标签，进而推断出“少量样本或单样本”等结果。此原则在自然语言应用场景中具有更广泛的适用性，因为许多高端机器学习任务往往需要大量标注数据，而这常常成为门槛。

多任务学习（Multi-task learning）

如果说减少训练数据是表征学习对深度学习应用模式的一个突破，那么另一个突破在于让模型一次性学习多项任务。通过更广泛的监督与自监督方法，即便针对特定任务进行建模，相关任务的联合训练也能避免从头开始。以表征学习、在多任务框架下的协同训练为基础，这一思路有望成为长期趋势。

互联网资讯 / 人工智能 · 2024年1月2日 0