4chan数据竟能提升模型智能？一场颠覆常识的实验

AI可可AI生活

2026-02-02 08:00发布于北京科技领域创作者

该图片可能由AI生成

几天前，我发布了一个用4chan数据集微调的模型Assistant_Pepe_8B。本以为只是做个有趣的实验，结果却让我大跌眼镜。

跑完基准测试后，这个模型居然超越了它的基座模型Nvidia Nemotron。这完全违背常识。通常的规律是：你拿一个聪明的基座，在上面微调，然后接受智能损失来换取特定风格。但这次，微调后的模型反而更聪明了。

更诡异的是三个发现：第一，去除对齐限制的基座比原版得分更高；第二，微调版本比两者都高；第三，训练数据是极度嘈杂的4chan内容，按理说模型应该变蠢才对。

这让我想起Yannic Kilcher早年做的gpt4chan，那个模型在真实性测试上得分异常高。

一位做了多年语言学研究的开发者在评论区分享了他的观察：字节对字节，没有任何数据源能比得上4chan。Reddit也不错，但基本可以被维基百科或新闻文章替代。而Twitter数据会主动损害模型能力，加入多少都会让模型效用立刻崩塌。

为什么会这样？

几个假说逐渐浮现。首先是匿名性的力量。Reddit上每个人都在无意识地适应投票系统，写作风格被驯化成特定模式。4chan上所有人都是Anonymous，模型不需要建立用户身份的表征，可以专注于内容和推理本身。

其次是对话结构。Twitter本质上是单向的内心独白倾泻，没有真正的对话。4chan和Reddit是论坛，默认就是在交流。你在论坛上不会只发一篇文章然后走人，你会回应回应。Twitter上只有疯子才会真正讨论问题。

还有一个有趣的观察：4chan的回复结构要求模型必须理解上下文和对话流向才能预测下一个token，这可能迫使它学得更好。

关于所谓的“对齐税”，实验数据似乎证实了它的存在。去除对齐限制后，模型不仅智能提升，甚至政治倾向都从古典自由主义变成了中间派。KL散度小于0.01意味着模型分布几乎相同，但表现却截然不同。要么去对齐操作极其精准，要么我们的基准测试测量的东西比我们以为的更表面。

一位评论者说得精辟：4chan是一群聪明人装傻，Reddit是一群傻子装聪明。当你看到“黑客4chan”干过的那些事，这话就说得通了。

所有闭源实验室都在内部使用4chan数据，只是不会公开承认。他们对4chan进行过度清洗，结果反而失去了大部分好处。讽刺的是，Common Crawl和FineWeb效果好的一个重要原因，就是它们是把真正的4chan数据偷渡进模型的最体面方式。

这个发现的深层含义是：我们对模型训练的理解还很粗浅。聊天模板的选择、对齐方式、数据来源的微妙差异，都可能产生远超预期的影响。真正的智能可能藏在我们急于清洗掉的噪音里。

reddit.com/r/LocalLLaMA/comments/1qsrscu/can_4chan_data_really_improve_a_model_turns_out