CDA考试专区 加入小组

844个成员 593个话题 创建时间:2017-12-06

Transformer模型中的哪些部分有助于处理长距离依赖关系?

发表于04-03 355次查看

Transformer模型中的哪些部分有助于处理长距离依赖关系?

A.    Multi-head Attention

B.    Feed-forward Neural Network

C.    Positional Encoding

D.    Layer Normalization
参考答案:A,C
解析:Multi-head Attention 允许模型直接关注输入序列中的任何位置,从而有助于处理长距离的依赖关系。Positional Encoding 则为模型提供了位置信息,帮助模型理解序列中的相对位置。

发表回复
你还没有登录,请先 登录或 注册!
话题作者
一站式数据科学在线教育平台