Transformer模型中的哪些部分有助于处理长距离依赖关系?
A. Multi-head Attention
B. Feed-forward Neural Network
C. Positional Encoding
D. Layer Normalization 参考答案:A,C 解析:Multi-head Attention 允许模型直接关注输入序列中的任何位置,从而有助于处理长距离的依赖关系。Positional Encoding 则为模型提供了位置信息,帮助模型理解序列中的相对位置。
CDA人工智能社区
工作时间:9:00-19:00
陈老师:13077998983
邮箱: edu_cda_cn@foxmail.com