该图片可能由AI生成
几天前,我发布了一个用4chan数据集微调的模型Assistant_Pepe_8B。本以为只是做个有趣的实验,结果却让我大跌眼镜。
跑完基准测试后,这个模型居然超越了它的基座模型Nvidia Nemotron。这完全违背常识。通常的规律是:你拿一个聪明的基座,在上面微调,然后接受智能损失来换取特定风格。但这次,微调后的模型反而更聪明了。
更诡异的是三个发现:第一,去除对齐限制的基座比原版得分更高;第二,微调版本比两者都高;第三,训练数据是极度嘈杂的4chan内容,按理说模型应该变蠢才对。
这让我想起Yannic Kilcher早年做的gpt4chan,那个模型在真实性测试上得分异常高。
一位做了多年语言学研究的开发者在评论区分享了他的观察:字节对字节,没有任何数据源能比得上4chan。Reddit也不错,但基本可以被维基百科或新闻文章替代。而Twitter数据会主动损害模型能力,加入多少都会让模型效用立刻崩塌。
为什么会这样?
几个假说逐渐浮现。首先是匿名性的力量。Reddit上每个人都在无意识地适应投票系统,写作风格被驯化成特定模式。4chan上所有人都是Anonymous,模型不需要建立用户身份的表征,可以专注于内容和推理本身。
其次是对话结构。Twitter本质上是单向的内心独白倾泻,没有真正的对话。4chan和Reddit是论坛,默认就是在交流。你在论坛上不会只发一篇文章然后走人,你会回应回应。Twitter上只有疯子才会真正讨论问题。
还有一个有趣的观察:4chan的回复结构要求模型必须理解上下文和对话流向才能预测下一个token,这可能迫使它学得更好。
关于所谓的“对齐税”,实验数据似乎证实了它的存在。去除对齐限制后,模型不仅智能提升,甚至政治倾向都从古典自由主义变成了中间派。KL散度小于0.01意味着模型分布几乎相同,但表现却截然不同。要么去对齐操作极其精准,要么我们的基准测试测量的东西比我们以为的更表面。
一位评论者说得精辟:4chan是一群聪明人装傻,Reddit是一群傻子装聪明。当你看到“黑客4chan”干过的那些事,这话就说得通了。
所有闭源实验室都在内部使用4chan数据,只是不会公开承认。他们对4chan进行过度清洗,结果反而失去了大部分好处。讽刺的是,Common Crawl和FineWeb效果好的一个重要原因,就是它们是把真正的4chan数据偷渡进模型的最体面方式。
这个发现的深层含义是:我们对模型训练的理解还很粗浅。聊天模板的选择、对齐方式、数据来源的微妙差异,都可能产生远超预期的影响。真正的智能可能藏在我们急于清洗掉的噪音里。
reddit.com/r/LocalLLaMA/comments/1qsrscu/can_4chan_data_really_improve_a_model_turns_out