可能是目前最好的3B多模态模型,有望做“AI作业帮”

作者:徐浚哲、尹宇阳

我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:

https://huggingface.co/TencentBAC/TBAC-VLR1-3B-preview

图片图片

我们训练了一个3B的“小”模型,使用了强化学习训练方式,增强了推理性能。达到了同级别模型中推理能力第一(SOTA)。

图片

主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~

图片

同时对比了多个banchMark结果,Average第一~

图片
Model
AverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVista
Qwen2-VL-2B
20.5
48.0
16.1
17.5
3.8
10.8
26.6
InternVL2.5-2B
21.2
51.1
14.0
22.3
4.4
8.0
27.3
InternVL3-2B
29.1
57.6
20.2
24.5
14.8
22.9
40.3
Qwen2.5-VL-3B
31.8
61.2
21.9
31.2
13.2
22.9
40.3
VLM-R1-3B-Math-0305
33.4
62.7
21.9
32.2
13.0
30.0
40.5
Taichu-VLR-3B
33.6
64.9
23.1
32.1
12.6
30.4
38.7
VLAA-Thinker-Qwen2.5VL-3B
35.4
61.0
24.4
36.4
18.2
33.8
38.5
TBAC-VLR1-3B-preview35.7
64.8
25.0
33.2
17.7
32.4
40.8

正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。

现在试着撸个自己的“AI作业帮”,帮干活

AI作业助手

要说明的是,AI作业助手,特别是数学作业助手,仅仅有答案还不够,更重要的是给出推导过程。这也是VLR1-3B的重要能力,就是它的推理能力。

下面来看一下搭载了VLR1-3B模型后,我这个丐版的“作业帮”真实的答题效果

多项式计算

先从真题试卷中截取了两道基础计算题进行测试

图片

哪怕是拍照的试卷问题也可以准确的识别,计算过程也清晰,答案正确👌,通过。再试一道:

图片

很好,应用了正确的公式👌,邻居家小孩似乎可以愉快的抄写作业了呢😝

坐标系理解

接下来要稍微上一点难度,看看 VLR1-3B 对平面直角坐标系的理解如何:

图片

不错,一开始就理解了这一题的考点,并告知了题点,横纵坐标都为负的点,然后还分析了每个选项,给出正确答案。解释的有理有据👌。以后还会有家长给熊孩子讲题讲到心梗吗😉

函数计算

下面要进行的是函数计算,依然考验模型从图片中正确的读取函数公式,并依靠推理能力得出函数计算结果:

问题:f(4)等于多少?

图片

函数识别👌,计算过程👌,答案✅。

平面几何

接下来是重中之重的测试,平面几何。先来两道填空题:

问题:△ABC的两内角平分线OB、OC相交于点O,若∠A=110°,则∠BOC=()

图片

表现依然出色,不仅给出了详尽的推理过程,还给出了准确的答案 ✅

接下来再来一题:

问题:如图,在△ABC中,AB=8,BC=12,点D、E分别是边AB、AC的中点,点F是线段DE上的一点,连接AF、BF,若∠AFB=90°,则线段EF的长为()

图片

非常棒平面几何解题能力👌,在应用了正确的公式定理下,还会用“∵”,“∴”等专业的数学推理符号

平面几何是中学数学的重点,与填空和选择不同,模型有可能靠蒙答对题(人也会哈),这种证明类型的题目更考验模型的“真本事”,再来测试一道平面几何的证明题:

图片

没问题,证明过程清晰,测试通过 ✅。

物理

既然 VLR1-3B 在数学方面表现的这么好,何不再挑战一下,做个物理题试试?

图片

哦吼~,物理题也能答,还能解释对自己的选择。

What's more?

从之前的测试来看,VLR1-3B 有确实有着出众的数学能力,从图片的公式理解到答案的推理求解,甚至格式的输出都有着令人满意的效果。既然如此,当然就要“强模型所难”, 考验一下VLR1-3B 在其他通用多模态场景的表现:

先用我最喜欢的猫咪开始测试,询问它图中猫的花纹、品种和年龄:

图片

Bingo,回答很准确~

再来,因为有从事的是自动驾驶算法研究的经验,所以凡是遇到有视觉能力的模型,都会被我拿来测一下:

图片

连自动驾驶车辆都认识,那真实道路场景表现怎么样呢?

图片

相当可以,车辆数量、颜色、类型都判断正确 ✅,同时天气和驾驶环境也准确识别。再来个夜晚场景,问问前方车辆的行驶意图:

图片

看来可以呀,到这,发现这确实是个麻雀虽小,五脏俱全的多模态模型~

结语

总体测试下来,过程中虽然也遇到了该级别模型的常见问题——如思考过程中的幻觉,特别是一些测试中,结果是正确的,但思考过程却明显失误。但在后续更新和实际落地场景中,使用场景数据来Fine-tune后的模型能取得更好的效果。

话又说回来,毕竟是一个只有 3B的模型,它有望成为开源本地 “家庭 AI 作业帮”的的选手,后续会发表详细的技术报告和论文。同时公开更多尺度的模型~