开云(中国)kaiyun网页版登录入口当杂音占比 α 富饶小时-开云「中国」kaiyun体育网址登录入口

传统的大谈话模子西宾需要依赖"生动数据"——那些经过仔细筛选、允洽圭臬语法且逻辑严实的文本。但如若这种严格的数据过滤,并不像咱们联想中那般进击呢?
这就像教孩子学谈话:传统不雅点以为他们应该只听语法竣工的圭臬发音。但履行情况是,孩童恰正是在战斗俚语、语法空虚和配景杂音的经由中,一经简略掌持谈话智力。
来自北大的盘问东说念主员通过在西宾数据中刻意添加就地乱码进行考证。他们试图测试模子在性能受损前能承受些许"坏数据"。
实验完毕标明,即便面临高达 20% 的"垃圾数据",西宾一经不错平方进行,且 Next-token Prediction ( NTP ) loss 受到的影响不及 1%!他们不仅揭示了噪声与模子性能的复杂关系,还提议了一种创新的"局部梯度匹配"方法,让模子在噪声环境中一经保持强劲发达。

是什么:就地杂音会有什么影响?
盘问者运用 OpenWebText 数据集,西宾了多个 GPT-2 一样架构和参数目的谈话模子。他们最初生成了一串界限在 0 到 50256(GPT-2 tokenizer 的大小)的整数,其中每个数王人遵照 0 到 50256 的均匀散布。这么是为了模拟由于解码空虚或网页崩溃导致的就地乱码经过 tokenizer 之后的完毕。之后,盘问团队向 OpenWebText 中注入占比 1%-20% 的就地噪声,平方进行 Next-token Prediction 的预西宾。

实验完毕揭示了一个反直观自负:尽管 NTP loss 受到杂音的影响有些微进步,然而增多幅度远小于杂音占比。即使 20% 的数据被耻辱,模子的下一个词预测蚀本仅高潮约 1%。

更令东说念主诧异的是,在 arXiv 和 Wikipedia 语料测试中,含噪模子致使展现出更低的 NTP loss。

这些反常自负的出现激发了盘问团队的想考。他们想要知说念这种自负出现的背后原因。
为什么:表面角度分析就地杂音
罢免之前的表面责任,盘问团队把 NTP 经由建模成在 ( 给定前缀 , 下一 token ) 的纠合概率散布上的分类任务。用 P^c 暗示干净散布,P^n 暗示杂音散布,作家指出,咱们实在蔼然的不是模子在杂音 P^n 上的蚀本,而是在杂音散布上西宾出来的模子 h 与最优模子 h* 在干净散布 P^c 上的 NTP loss 差距。
为了给出阐发,盘问团队最初珍惜到,在就地乱码中找到一段有益料文本的概率极低。用数学谈话来描摹,这意味着干净散布 P^c 和杂音散布 P^n 的复旧集(support set)的杂乱不错以为是空集。

基于这条假定,盘问团队到手阐发,当杂音占比 α 富饶小时,P^n 的存在不改换 NTP loss 的全局最小值。哪怕 α 富饶大,杂音对蚀本函数带来的影响也远小于其占比。

由于 Assumption 1 并不单在就地杂音时设立,因此论断不错履行到其他情况。最胜仗的场景就是多谈话模子的西宾。较着,在一种谈话(英语)看来,另一种谈话(汉语)就是就地乱码,他们之间的 token 彼此是不重合的,两者对应的散布当然莫得杂乱,也就满足了 Assumption 1。因此,Proposition 1 标明,在多谈话数据集结进行预西宾,单个谈话的性能不会受到太大的影响。这就解释了多谈话模子的到手。此外,Proposition 1 还不错解释为什么在充满配景杂音的数据集上西宾的音频模子不错到手。
为了进一步考试上述表面,盘问团队还就地生成了先验散布遵照高斯散布的就地杂音。由于高斯散布有规章可循,这种杂音对应的 NTP loss 更低。按照 Proposition 1 的论断,更低 NTP loss 的杂音 P^n 对模子性能的影响更小。实验完毕考证了这一预言,也就阐发了 Proposition 1 的正确性。

怎样作念:如何弥补就地杂音的影响
尽管预西宾蚀本变化轻捷,卑劣任务却暴泄露隐患。实验炫耀,在高斯杂音上西宾的模子,尽管其比拟就地杂音对应模子的 NTP loss 更低,但在文分内类卑劣任务中的准确率却下跌高达 1.5%。这种"蚀本 - 性能解耦"自负标明,预西宾缱绻 NTP loss 无法全面反应模子的实质智力。盘问者指出,噪声会诬蔑特征空间的梯度散布,导致微调时模子对隐微扰动过于敏锐。
针对这一挑战,团队提议了一种即插即用的贬责决议——局部梯度匹配蚀本(LGM)。具体来说,由于鄙人游任务应用大模子时险些不会重新预西宾,盘问团队在黑盒模子的假定下提议了 LGM 这一微调方法。其无需看望模子参数,而是通过向特征添加高斯噪声并料理原始 / 扰动特征的梯度互异,胜仗增强分类头的抗噪智力。其中枢想想在于:迫使模子在特征扰动下保持决策一致性,从而弥合噪声导致的特征偏移。对于黑盒模子提真金不怕火的特征 t,最初添加一定进程高斯扰动获得 hat{t},然后将分类头对于 t 和 hat{t} 的梯度差当作蚀本函数


实验部分,团队在 8 个当然谈话默契和 14 个视觉分类数据集上考证了模子性能。
对于受到杂音影响的模子,LGM 不错权贵增强性能。

突如其来的是,当把 LGM 用在干净模子(如 Llama-3、ViT-L)上时,卑劣任务准确率仍可进步 1%-3%。


为了解释 LGM 的到手,盘问团队从 Sharpness-Aware Minimization 的角度,阐发了 LGM 损构怨蚀本函数的光滑进程、对输入的敏锐进程有细腻关系:

启示与估量:数据清洗的新想考
这项盘问为大限制预西宾提供了全新视角:
后果立异:纵容保留就地噪声可镌汰数据清洗资本,尤其对资源有限的团队意料紧要
表面膨大:表面框架可用于解释多谈话模子的到手,还可用于其他模态
数据增强:可控噪声注入或成新式正则化技术,进步模子泛化智力
固然,盘问也存在局限:实验仅基于 GPT-2 限制模子,超大限制模子(如 GPT-4)的噪声耐受性仍需考证。团队策划进一步探索噪声类型与模子容量的动态关系,以及 LGM 在其他模态中的应用。
论文地址 :
https://arxiv.org/abs/2502.06604
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 技俩主页贯穿,以及关系步地哦
咱们会(尽量)实时恢复你

一键关注 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「防范心」
接待在驳斥区留住你的主义!开云(中国)kaiyun网页版登录入口