老话说,
时尚是个轮回。
这句话我觉得可能也同样适用在AI领域。
这两天最火的,是两个OCR模型,来自DeepSeek 和 百度。
甚至,在Huggingface的趋势排行榜上,
前四中,有三个都是OCR模型,还有一个是Qwen3 的VL,讲道理都能拿来做OCR了。
X 上刷到有网友甚至评论,这周算得上是OCR的黄金时代。
技术方案实现相信大家都了解的差不多了,
我也上手体验测试了一下这两个模型,看看实际的效果如何。
先上测试链接(因为没有GPU资源,所以用的都是线上版本):
Paddle OCR: https://aistudio.baidu.com/application/detail/98365
DeepSeek OCR: https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO
先来看个虽然简单,但是日常会经常用到的需求,文字提取。
DeepSeek OCR 的效果:
Paddle OCR 的效果:
两个都完成的挺不错的,大体文字识别都没什么问题。但是DeepSeek OCR更细节点,把图片下面的文字也提取到了。
我再提升点难度,加入一些公式之类的。
这次直接转换为 Markdown 格式
DeepSeek OCR 的效果:
Paddle OCR 的效果:
Paddle OCR 的效果更加一步到位,直接贴在Markdown编辑器里就可用。
DeepSeek OCR的效果虽然也是准确,但是多了很多检测框的标记符,还需要后处理脚本去除。
再来看个化学公式的识别提取。
DeepSeek OCR 的效果:
Paddle OCR 的效果:
两个文字识别都没有问题。
如果说这类文字提取,因为字体比较好识别,那手写字体的识别,则又是OCR模型的又一大挑战。
先来个稍微简单点的,
图是我在小红书上随便找的,这可能是最好认的医生笔迹。
DeepSeek OCR 的效果:
Paddle OCR的效果:
果然手写才是最大的挑战。
两个模型都不是百分百正确。
DeepSeek OCR把“患者未诉任何不适“识别错了,识别成了未诉任何不适。
Paddle OCR 也出现了点问题,把“大小便正常”识别成了“大小便异常”
这可得出大事儿...
再来个稍微难点的,手写识别。
全军覆没。
DeepSeek OCR的效果:
Paddle OCR 的效果:
答案揭晓,其实和之前那张图的答案是一模一样的,只不过是个更加潦草的版本。
再来看一个竖版文字识别的case,出自我最喜欢的一首诗。
DeepSeek OCR的效果:
Paddle OCR的效果:
两个模型都有不同程度的错误。
Paddle 我个人觉得稍微好点吧,但是也好不了太多。
事实证明,要想识别的准确率高,本身字写的清楚真的很重要。
不然神仙来了都没卵用。
还有一类经常会用到OCR模型的场景,就是图表识别提取。
比如下面这个:
DeepSeek OCR的效果:
Paddle OCR 的效果:
这个case里,Paddle OCR的牛逼之处就体现出来了。
完全能够理解图表中的内容信息,并且转成markdown正确。
而DeepSeek OCR 看上去像不太能理解图表的样子...
再看一个图表的例子。
DeepSeek OCR的效果:
Paddle OCR的效果:
两个其实都是对的。
把DeepSeek OCR的效果直接贴进Markdown编辑器里能就直接渲染出来。
整体上来看,两个模型的效果其实都还是不错的,识别率都挺高。
DeepSeek OCR 在图表识别上感觉会稍差一些,Paddle OCR表现的还是挺全能的。
毕竟Paddle OCR这个也积累了有些历史了,
虽然我们常说,百度经常起个大早,赶个晚集,
但不代表人家没技术积累~
最后,
开源才是最屌的!