CDA考试专区 加入小组

846个成员 593个话题 创建时间:2017-12-06

假设你正在使用一个包含6个编码器层的Transformer模型,那么多少次自注意力操作会被执行?

发表于03-27 455次查看

假设你正在使用一个包含6个编码器层的Transformer模型,那么多少次自注意力操作会被执行?

A.    6

B.    12

C.    18

D.    36

参考答案: A

解析:在标准的Transformer模型中,每个编码器层只执行一次自注意力操作。因此,对于6个编码器层,将执行6次自注意力操作。

发表回复
你还没有登录,请先 登录或 注册!
话题作者
一站式数据科学在线教育平台