在大语言模型的fine-tuning过程中，为什么预训练模型的权重被认为是一个可以直接使用的，好的初始化？

CDA竞赛 CDA技术答疑 CDA俱乐部 CDA论坛

CDA考试专区加入小组

1151个成员 594个话题创建时间：2017-12-06

发表于2024-03-28 2132次查看

A. 它们是随机生成的

B. 它们已经在大数据集上进行了预训练，捕获了许多通用特征

C. 它们可以降低训练的复杂性，使fine-tuning得到的模型泛用性更好

D. 它们可以加速模型的收敛速度，并且避免收敛到局部极小值
参考答案： B
解析：预训练模型的权重已经在大量数据上进行了训练，因此它们通常能够捕获许多通用的、跨任务的特征，这为新任务提供了一个良好的初始化。

只看楼主倒序查看

发表回复

你还没有登录，请先登录或注册！

(大小不能超过 2 MB，文件类型支持png ,jpg ,gif ,doc ,xls ,txt ,rar ,zip .)

文件名	描述	金币	操作

话题作者

CDA网校

一站式数据科学在线教育平台

热门小组

1151 594

526 12

417 142