The Evolved Transformer 学习笔记

摘要

通过neural architecture search的方法提升普通transformer,
速度比普通transformer提升两倍,
效果在机器翻译比普通transformer提升0.7 BLEU

neural architecture search

设计出一些可能的神经网络结构,分别在测试集上评估效果

Search Space

本文搜索空间包括两个stackable cell,一个在transformer模型的encoder,一个在transformer模型的decoder。

每个cell由NASNet-style block组成, 具体通过左右两个block将输入的hidden state转成左右两个hidden state再归并成为一个新的hidden state,作为self-attention的输入。

encoder包括6个block,decoder包括8个block。

block可以由MLP和各种CNN等组成(实际好像还有attention作为layer),里面的normalization, layer, output dimension and activation就是搜索空间

The Evolved Transformer 学习笔记_第1张图片

最终结构

encoder:
The Evolved Transformer 学习笔记_第2张图片
decoder:
The Evolved Transformer 学习笔记_第3张图片
最终结构代码:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/evolved_transformer.py

你可能感兴趣的