NLP

2017 年 ACL 的四个 NLP 深度学习趋势

语言结构 词语表达 可解释性 注意力

Posted by abigail on September 9, 2017

本文整合了《Four deep learning trends from ACL 2017 Part One: Linguistic Structure and Word Embeddings》《Four deep learning trends from ACL 2017 Part Two: Interpretability and Attention》的内容,作者:abigail。部分内容有删减。

介绍

在本月初我在温哥华参加的 ACL 2017 的主旨演讲中,Joakim Nivre 宣布“NLP 正在爆炸式地发展”。参会的众多的人士认为,人们对 NLP 的兴趣正处于历史最高点,这主要是因为深度学习的复兴,它已经在该领域产生了巨大的影响。

但是在 ACL 乐观的氛围下,我还是感受到了人们一种焦虑的情绪,因为这一领域正因为深度学习而发生快速的变化。研究人员对于传统 NLP 该留下还是抛弃产生了困惑。是否神经网络是我们需要的唯一技术?我们如何在实验大多基于经验、论文立刻就在 arXiv 上发表的情况下做好科学研究?全面地转向深度学习真的能获得成功吗?

1

虽然这些困难的问题出现在了会议上(主旨演讲甚至提到在这个主题上最近一场高调的辩论),但整体上氛围依然是积极的。在 ACL 2017 上,NLP 社区尽管有一些正常的怀疑,但还是继续热情地拥抱深度学习。随着研究者们开始对循环神经网络方法究竟能够解决哪些问题产生一个更清晰的看法,吸取传统 NLP 的成果去指导和改进这些方法正在成为一个趋势。本文我会对 NLP 研究在这个关键节点的发展趋势发表自己的看法。

关于这篇文章

在接下来文章中,我会阐述我在会议(及其共同的活动)中通过论文、演讲和讨论,观察到的四个大概的研究趋势。内容完全按照我自己的研究兴趣组织,因此它主要集中在深度学习、序列到序列模型和相关的主题。第一部分将探讨两个存在关联的主题:语言结构和词语表达。第二部分将探讨两个更加关联的主题可解释性和注意力。

趋势1:语言结构(Linguistic Structure)回归

最近深度学习的复兴已经为 NLP 强调了一个简单统一的道理:语言只是一个词语的序列。按照这个逻辑,任何进一步的结构都是不必要的,只需要简单地端到端(end-to-end)训练一个 RNN,随机梯度下降就能解决问题!虽然这种方法在短期内获得了巨大的流行和成功(尤其是不需要特征工程带来的便利),它的局限正变得越来越明显。在 ACL 2017 中,几位著名的研究者反对“语言只是序列”的时代思潮,并且对为什么 NLP 应该重新拥抱语言模型提出了即实际又明确的原因。

原因1:减少搜索空间

Mirella Lapata 在她轻松愉快的主题演讲中,对 RNN 序列到序列框架的霸主地位提出了怀疑,她质疑是否这个框架的成功意味着语言的终结,并且所有的语言学特征都应该废弃。最终她得出结论语言结构正在归来,并且通过示例提供了一个拥抱它回归的原因:语言结构缩小了所有可能输出的搜索空间,使得生成一个符合语法规则的输出变得容易。

例如,代码生成涉及映射一个自然语言的表达,例如“生成一个包含前 10 个平方数的列表”到一个对应的代码片段,例如 Python 中的 [x**2 for x in range(10)]。这个任务已经使用标准的序列到序列方法进行了尝试,该方法将产生的代码视为一个简单的符号序列,而不是它底层的树结构。这使得生成任务在所有符号序列的整个输出空间上进行一个无约束的搜索——不仅任务艰巨,而且容易产生不合语法的输出(例如,解码器可能会产生括号不匹配的代码)。在 Yin and NeubigRabinovich et al. 的 ACL 论文中,都使用结构化的预测方法,并且直接生成底层的抽象语法树。这种方法将搜索空间限制到了只搜索格局良好的树上,消除了不合语法的输出。

语言结构不仅对具有高度形式化输出的任务(例如代码生成和语义解析)有明显的帮助,它也能够帮助减少不太明显任务的搜索空间(例如 cloze 式的阅读理解)。观察到正确答案几乎总是源文档的语法分析树的一个部分,Xie and Xing 构建了一个只浏览这些节点的系统——他们认为这比浏览文档中所有可能的的文本域要容易和有效的多。

原因2:语言支架(Linguistic scaffolding)

2

Noah Smith 在他的主旨演讲中反对他所谓的“全南瓜饮食”——使用线性变化 + 挤压函数(又称神经网络)作为 NLP 唯一的模型。他鼓励 NLP 社区去思考我们模型的归纳偏置——即模型根本性的假设以及这些假设如何影响它们学习的内容。

在详细说明时,Smith 特别强调了多任务学习的力量,并把它作为引入理想归纳偏置的一种方法。众所周知,和主任务(例如机器翻译)联合学习一个语言框架任务(例如语法分析)能够改进主任务的性能——这很有可能是因为主任务被包含在低层共享表示中的有用信息充实了。ACL 中好几篇论文都成功地采用了这个方法——特别是 Eriguchi et al.Wu et al. 为 NMT 设计了一个新的混合编码器,它使用 shift-reduce 算法来同时生成和解析目标序列。

这些联合的 NMT+ 解析系统,看上去似乎要好于序列到序列系统,这可能也是受益于原因1(减少搜索空间)。如人们已知,NMT 对于长句子表现不好,而且(与我们直觉相反)更大的集束尺寸有时会进一步降低性能。如果扩大搜索集束导致了性能的下降,这意味着当存在更多的候选者时,我们目前的方法在识别最好的输出方面存在困难。联合解析输出也许可以消除来自于搜索集束的低质量输出,从而允许集束搜索在更高质量的候选者之间选择。

原因3:句法近因 > 顺序近因

Chris Dyer 也在他的 CoNLL 主旨演讲神经网络是否应该反映语言结构中辩论了将语言结构结合到深度学习中的重要性。像 Noah Smith 一样,他将注意力放在顺序方法中固有的归纳偏置,认为 RNN 对于顺序近因存在一个归纳偏置,而语法指导的层次结构(例如递归神经网络RNNGs)对于句法近因存在一个归纳偏置。考虑到语言本质上是分层的,Dyer 得到结论句法近因对于顺序近因是一种更好的归纳偏差

在 ACL,有几篇文章指出 RNN 在捕获远程依赖关系方面明显的无能,并且认为使用递归模型可以获得改进。例如,在《使用语法感知编码器和解码器改进神经机器翻译》中,Chen 等人发现使用一个递归的编码器可以改善所有方面的性能,并且对于较长的句子改进更为明显。后者可能是句法近因好处的一个证明,因为它可以比顺序近因更容易地捕获远程的依赖关系。下图是 Wu 等人给出的一个例子,显示了句法近因(红色虚线)和顺序近因的区别。

3

展望

虽然语言结构正在回归,但是仍然有一些障碍。多任务学习实施起来非常麻烦。非顺序架构在 GPU 上更难并行化处理(但是新的动态链接库提供了更简单的更有效的实现方法)。对于结构化预测的监督学习会可能会遇到障碍,因为缺乏并行的数据。幸运的是,增强学习及时地复苏了;在 ACL 2017 Liang et al.Iyyer et al. 都使用弱监督学习,通过语义解析去执行问答(QA)任务,而无需访问解析结果本身。

虽然有这些障碍,我认为 NLP 社区将会继续(重新)拥抱语言结构,因为它的优点正变得越来越明显。虽然“语言只是序列”这派观点认为 RNN 可以计算任何事物,但是研究者们正对“序列模型中的归纳偏置是如何影响它们的计算”变得越来越感兴趣。这样看来,语言结构似乎还有很大的发展空间。

趋势2:重新考虑词嵌入(Word Embeddings)

今年标题中包含“词嵌入”的论文数从 10 篇下降到 4 篇,或许部分是因为目前的研究转向字级别(sub-word-level)的表示(更多在下面)。尽管如此,词嵌入仍然是一项标准的技术,并且 ACL 上相关的论文非常有趣——也许是因为词嵌入已经经过“炒作”的阶段,并且正在进入“深度研究”阶段。这些论文探讨了词嵌入成功与失败的边界,它能够做什么不能做什么,并且如何去改善它们的弱点。

更好地理解词嵌入

词嵌入最出名和令人意外(但经常被夸大)的成功之处是它们的添加组合结构,这通过词语的类推证实,看上去标题神秘的《Skip-Gram - Zipf + Uniform = Vector Additivity》目的就是解释这种成功。作者证明了,使用 skip-gram 模型训练的分布式词嵌入,在某些确定的假设下可以存在累加的性质——特别是那些均匀分布的词语(这就是“-Zipf +Uniform”的含义)。虽然训练语料不是均匀分布的,但是结果可以通过某些方式去解释词嵌入的可加性。

其他论文研究了词嵌入核心分布式假设的局限性。Li 和 Gauthier 提出了问题是否分布式表示为真实世界做好了准备?,并且发现虽然词嵌入能够捕获某些概念特征(例如“可食用的”、“是一个工具”),但是它们不倾向于捕获感性的特征(例如“有嚼劲的”、“弯曲的”)——这很可能是因为后者不容易仅仅从分布式语义推断出来。这篇论文不断地呼吁基础学习,正如新的机器人语言接地研讨会的建立所证明的那样。

词嵌入的一个更加明显的问题是它们无法对多义词做出解释,而是为每一个表面形式分配一个向量。Upadhyay et al. 提出了一种解决问题的方法,他利用多语言并行的数据去学习多语义的词嵌入——例如,对于英语单词 bank,可以同时被翻译为法语单词 bancbanque 证明了 bank 是一个多义词,并且能够区分它的两种含义。在多模态词分布中,Athiwaratkun 和 Wilson 没有使用单个向量表示词语,而是使用多种模式的高斯概率分布来表示——因此同时捕获了不确定性和多义词。论文有一个非常令人印象深刻的 Tensorboard demo:切换到“嵌入”页,并且搜索一个多义词例如”zip”。你会发现三种模式,包含了三种不同含义的相关词语的聚合 (zip code, clothes zip 和 zipped file)。

4

转向字级别

已经可以证明,标准词嵌入最为紧迫的限制是它们对形态信息的失明,将每种表面形式作为一个单独、匿名的单元。这会导致诸如无法识别两个具有相同词元的单词(例如 walker 和 walking)的高度关联性等问题。这是最近从词嵌入转向字表示的主要原因,例如字符、n-grams 字符和词语碎片。在 ACL 2017 上,与在固有任务例如在词语相似度和类比和非固有任务例如机器翻译语言建模依存关系分析上的词嵌入相比,这些表示方式有很强的表现。对于表义语言例如中文、日语、韩语,字符的含义能够由它组件的视觉特征组成

5

使用这些字表示,特别是在字符 CNN 中作为新兴的潜在标准,是否是依赖形态解决的?至少两篇论文给出了响亮的回答“NO”。Vania 和 Lopez 比较了几个字组合表示在语言建模方面的性能,发现它们中没有一个表现的与获得形态注释的模型一样。即使向原始输入模型提供十倍的训练数据,也保持这一结果——得到结论,最好的情况是,我们目前的语言建模方法需要非常大量的数据来隐式学习形态学;最坏的情况,没有多少训练数据可以替代形态上的理解。在《关于形态学神经机器翻译模型能学习到些什么?》中, Belinkov 等人展示了虽然基于字符的 NMT 表示比基于词语的表示在 NMT 和形态标注任务上都要好,但它们距离后者的最好性能依然很远。

这些结果表明,如果我们想要真正有形态意识的词汇表示,我们可能需要一个更明确的形态模型,而不仅仅是字符组成。在他们的形态拟合论文中,Vulić 等人通过使用非语言学家编写的一些非常简单的形态规则来微调词嵌入(例如在英语中,前缀 un- 代表反义)。这带来了大量的改进,显示了即使是少量的语言只是就能非常有效。同时,Cotterell 和 Schütze 提出了一个更加全面的形态模型,联合学习一个能够将单词划分为它的形态组件的系统(例如 questionablyquestion + able + ly)并且也能够将这些组件表示组合回词语表示。我认为这是一个非常有价值的方法,因为任何形态理解系统都必须能够构成和分解意义。虽然这个模型在评估任务上表现良好,但我更感兴趣的是看到将它迁移到例如句法解析或者语言建模等外部任务时能有多容易和多成功。

6

展望

词语是语言的基础,所以当我们选择如何建模语言时,我们的假设是重要的。

虽然分布式语义已经让我们感到很满意了,但是这些词语的语义不仅仅是它们出现的上下文。在未来的几年中,我认为我们将会看到更多的基础、视觉和互动的语言学习去补充目前的分布式表示。

像“语言只是词语的序列”、“词语只是匿名的符号”这些观点将会消失。但是我认为“单词只是字符的序列”和“形态结构非常重要”将会是未来争论的问题,不管是在理论上还是在实际使用上。

趋势3:可解释性(Interpretability)

我最近一直在思考可解释性,并且我并不孤单——在深度学习的实践者中,神经网络可怕的“黑盒”特性使得它们众所周知地难以控制、难以调试和难以开发。但是从非研究者的角度来看,对于可解释性还有一个更重要的理由:信任

7

公众、媒体和一些研究人员对于 AI 是否能够被信任正表达出日益增加的担忧,如果它无法被理解。虽然其中的一些担心是没有根据的(见“Facebook聊天发明自己的语言”故事),但是另一些是非常真实的。例如,如果 AI 系统吸收了它们训练数据中存在的不必要的偏差,但是我们无法检查出系统中的这些偏差,那么我们就会有一个造成灾难的因素。第二,由于 AI 系统不完善并且有时会失败,那么我们必须能够检查它们是如何做出那些决策的——特别对于那些复杂的任务。第三,即使 AI 系统运行良好,人类也总是需要解释才能安心。

即使是对于研究者来说,“可解释性”也可以有许多可能的定义——作为对这些定义的探究,我强烈推荐 Zachary Lipton 的随笔《模型解释的神话》。特别的,Lipton 定义了两种广泛的解释方法:事后解释和透明度。事后解释采用一个学习好的模型并且从它得出一些有用的见解;通常这些见解只对模型的工作原理提供一个局部和间接的解释。透明度则更直接地提问“模式是如何工作的?”并且试图提供一些方法去了解模型本身的核心原理。我认为这是一个有用的差别,所以我将会使用它去探究下面 ACL 的工作。

事后解释

在 ACL,我看到许多论文提出了各种创造性的方法去获得神经系统的事后见解。

可视化可能是最常见的事后解释类型,使用特定类型的可视化——例如显著图(saliency maps)和词嵌入的 2D 投影——正在成为标准。这些可视化肯定是有用的(而且我总数庆幸能在论文中看到它们),但是如果解读得不对,它们也可能会误导人。在《可视化和理解神经机器翻译》》中,Ding 等人计算了量化一个特定的神经元(或隐藏状态)是如何影响其他神经元(或隐藏状态)的相关性分数。粗粗一看,那些论文中的可视化(为每个隐藏状态和与它相关联的符号提供了一个重要性分数)看上去与注意力分布产生的可视化非常相似。但是,计算的方法是完全不同的。相关性分数是一个神经元对下游神经元影响的直接测量,它在训练好的模型上进行事后计算。而与之对比,注意力分布是由网络自身学习和计算的;它是一种通过复杂方法影响剩余计算部分的中间表示。虽然注意力机制经常在 NMT 中扮演词语对齐的角色,Koehn 和 Knowles 注意到它也学习去扮演其他难以理解的角色;所以它不是总是如我们希望的那样易于理解。Ding 等人的相关性分数提供了一种有效的替代方法去测量序列到序列模型中词级别的相关性。Koehn 和 Knowles 展示了注意力机制有时在词语对齐时会差一个,如下图所示,那么怎么解释这种行为呢?

8

转移学习是另一种流行的事后解释技术,从任务 A(通常是一个高层任务)中学习到的表示被应用到任务B(通常是一个低层任务)中。任务 B 的成功程度表明了任务 A 的模型在多大程度上学到了任务 B。在 ACL 2017,研究者们好奇 关于形态学 NMT 了解什么关于 NER 和 chunking 语言模型了解什么关于各种语义任务言语+视觉表达了解什么。这些研究,通常仔细重复不同层次和各种配置的任务 A 模型,能够产生有用并且意想不到的见解,指导开发出对于任务 A 更好的模型。例如,在《关于形态学神经机器翻译了解什么?》中,Belinkov 等人发现虽然注意力机制增加了编码器表示中形态信息的质量,但是它会降低解码器表示的质量。读到这个注意力机制意外的副作用我感到很惊讶,并且总的来说我真的喜欢这篇论文如何深思熟虑地解决了其研究问题。

虽然转移学习和注意力可视化可以告诉你“多少”,但他们不会告诉你”什么“和“为什么”。为了回答后者,一些研究人员直接研究了表示空间的几何结构本身。在《神经读者的隐藏状态向量中的紧急预测结构》中,Wang 等人提供证据表明,在基于 RNN 的阅读理解模型中,隐藏的向量空间可以分解为两个正交子空间:一个包含实体的表示,另一个包含关于这些实体的语句(或谓词)的表示。虽然这不是论文的焦点,但是我不知道是否这些隐藏状态的组成部分能够被进一步解释。在《用于分析连续词嵌入的参数自由分层图形聚类》中,Trost 和 Klakow 对字嵌入进行聚类,然后对聚类结果再进行聚类,直到获得一个层次化的树状结构。根据论文中提供的示例,层次结构可以提供更可读的方式来探索词嵌入的邻域结构。

9

直接进行事后解释的另一种方法是将解释本身视为一个翻译任务。在《翻译神经》中,Andreas 等人采用在两个训练好的机器之间传递的向量信息(“neuralese”)去进行一个合作任务,并且并将它们转化为自然语言。为了克服 neuralese-to-English 并行数据的缺乏,Andreas 等人将一对信息视为等价,如果它们被人类和机器代理人使用在相似的情景里。作者提出了一个关于这些翻译结果能否被信任的重要问题。如果神经元信息编码了不可能在英语中被捕获的概念会发生什么?如果人类和机器在选择什么去通讯方面存在着不同的偏置,那么我们如何确保众包训练数据包含与神经元相对应的英文例子?无论如何,这是我最喜欢的会议论文之一,我很高兴看到这个研究的进展。

10

透明度

尽管所有的工作都从不可解释的神经模型中获得了事后见解,但是一些研究人员认为(尽管发现奇怪的情绪神经元)盯着神经元只会让我们毫无所获。真正的可解释性要求透明度——构建和训练的模型本身可以解释。

根据定义,语言结构化表示比非结构化表示更容易解释。——因此趋势1也可以被看作是向更透明的神经模型的转变。但是,这些的核心挑战和其他创造透明神经模型的尝试,是离散性和连续性之间的冲突。神经网络的强大能力在于它们可以学习任意连续的表示,但是人类发现离散的信息——就像语言本身——更容易被理解。

我们可能会担心对神经模型日益强制性的限制会降低其表现力——增加解释性以降低有效性为代价。但是,对于某些类型的离散性,如稀疏性,就不会。例如,稀疏性诱导正则化已知可以改善而不是损害神经模型,并且稀疏的词嵌入可以比原始密集法更有效。在《多语言序列标签的神经词嵌入的稀疏编码》中,Gábor Berend 展示了稀疏词嵌入对 NER 和词性标注任务的有效性,特别是在有少量训练数据的情况下。虽然解释不是 Berend 的论文的焦点,但他很好地回答了我关于这个问题的疑问,甚至写了一篇后续的博客,这表明稀疏表达中的一些基本向量似乎与人类可理解的概念相对应。这是非常酷的,并提出了一个问题:如果我们具有可解释的高性能字嵌入,我们可以用它们来构建更复杂的也可以解释的神经系统吗?

11

对于回答复杂问题的 AI 系统,如果想要人类信任答案,透明度尤为重要。这些系统应该理想化地产生答案的证明或推导过程——对于一个语义解析问题回答系统,这可能是语义分析本身,或者是知识库的相关摘录。对于解决数学问题的系统,证明应该是最终答案的逐步自然语言派生。这正是 Ling 等人在《基于生成原理的程序导入:学习解决和解释代数词问题》中提供的。他们的系统不是直接毫无瑕疵地产生最终答案,而是联合学习产生数学变换的基本序列,以及解释它的自然语言解决方案。

12

展望

我不确定哪种类型的可解释性——事后可解释性或透明度是正确的前进方向。事后可解释性倾向于给出有限的解释,虽然迷人,但通常隐藏它们自身。我认为更灵活的解释技术,如基于翻译的方法,具有很大的潜力——虽然它们面临关于信任的新问题。另一方面,透明度是有吸引力的,因为可解释性应该是一个设计时的选择,而不是事后的想法。尽管我们距离建立端到端透明的神经系统还很遥远,但是使系统的一小部分透明化也非常有用。——请注意,例如,注意力机制作为开发注意力系统的一个健全性检查和调试工具是多么有用。这导致我们走向趋势4…

趋势4:注意力(Attention)

作为广泛认可的序列到序列模型的游戏改变者,注意机制正在迅速成为最流行的技术,并且很容易看出为什么。它可以用于绕过信息流中的瓶颈,它可以实现无法通过前馈层实现的键值查找功能,并提供了一些非常需要的解释性。注意力机制在今年的 ACL 上有所增加,标题中出现”注意力“的论文一共有十五篇(比去年的九篇有所增加)。

无处不在的更多注意力机制

注意机制是序列到序列框架中最可解释因此最可操作的部分。因此,研究人员通过设计越来越复杂的注意力模型来寻求成功,目标是解决特定的特定任务(task-specific)问题。这个”模型扩展方面的迷你工业“(Alexander Rush 在他的《NMT 研讨会主旨演讲》中描述)在 ACL 2017 上正蓬勃发展。

三篇论文提出的问题回答(QA)模型,除了通常的问题到文档注意力(question-to-document attention),还增加了文档到问题的注意力(document-to-question attention)。在这些模型(注意力上的注意力(attention-over-attention)交叉注意力(cross-attention)门控注意力读者(gated-attention reader))中,第三种模型还引入了多跳注意力,这使得模型在得到答案之前可以迭代地遍历不同的部分。这似乎是一个核心能力,本文的附录中包含了几个演示多跳推理的必要性和有效性的例子。经过多次迭代,注意力就放在正确的答案上了,如下所示。

13

注意力已经成为衡量和综合来自多个潜在的多模式来源的信息的标准方式。Libovicky 等人考虑同时通过文本和图像来翻译标题,Lin 等人考虑使用多语言数据来提取关系,而 Kim 等人则考虑使用领域专家团体的陈述通过一个 case-by-case 的基础来实现领域的适应。在这些情况下注意很方便,因为它提供了从任意数量的信息源获取固定大小的表示的一般方法。

其他人发现,在多个粒度上应用注意力对某些任务很有用。例如,语法错误纠正需要嵌套注意力:单词层级的注意去检测词序错误、而字符级注意去检测拼写错误。

所以你需要的就是注意力吗?

对日益复杂的注意力机制的热情似乎可以证实最近大胆的声明你所有需要的就是注意力。然而,在 ACL 我注意到一些研究人员提供了关于潜在陷阱或注意力滥用的警告信息。

例如,有些情况下注意力并没有我们希望的那样有效。Tan 等人认为,对于抽象文档的摘要,注意力分布并不能有效地建模源句的重点。相反,他们通过使用一个预深度学习的提取摘要算法(基于 PageRank 的句子排序)在为重点建模方面更加成功。这个结果作为一个重要的提醒,我们不应该丢弃几十年积累的 NLP 知识——虽然不时尚,但是这些技术可能可以提供改进我们神经系统的关键。

第二,可能有些情况下注意力是多余的Bollman等人发现当他们为多任务学习引进一个辅助任务时,增加注意机制就变得有害而不是有用。作为解释,他们提供了辅助任务使模型学习注意力集中的证据,这使得注意机制变得多余。虽然我不完全理解注意力与多任务学习之间的这种互动,但我们应该注意到这一现象,因为它对未来系统的发展构成潜在的陷阱。

最后,有一些简单的任务,可能使用注意力机制也是多余的。Aharoni 等人认为对于形态转折生成(morphological inflection generation),它通常每次只需要关注一个字符,标准的“软”注意力是过度的——他们发现更简单的“硬”注意力就足够了。硬注意力比软注意力产生了更加清晰的集群,如下图所示。

14

展望

虽然注意力机制最初被认为是对序列序列 NMT 瓶颈问题的修复,但事实证明是一个更为基础和更为一般的有用技术。通过考虑为什么注意力机制如此受欢迎,我们可能会识别一些目前深入深度学习社区的需求——例如需要可解释性,远距离依赖性以及动态结构。我希望注意力机制只是实现这些事情的第一步。

结论

在深度学习高速发展了几年后,NLP 社区有理由同时感到兴奋和焦虑——对深度学习可能进入的领域感到兴奋,对于这是否正确的方向感到焦虑。但是,我对这个社区同时从深度学习和 NLP 中获得最大的收益充满信心;与时俱进,保持集体智慧。所以,不需要炒作也不要害怕。深度学习既不是 NLP 的终极解决方案也不意味着 NLP 的终结。

本文整合了《Four deep learning trends from ACL 2017 Part One: Linguistic Structure and Word Embeddings》《Four deep learning trends from ACL 2017 Part Two: Interpretability and Attention》的内容,作者:abigail。部分内容有删减。