这个最好的黄金时代,属于OCR

问AI · DeepSeek和Paddle OCR识别差异在哪?

老话说,

时尚是个轮回。

这句话我觉得可能也同样适用在AI领域。

这两天最火的,是两个OCR模型,来自DeepSeek 和 百度。

图片

甚至,在Huggingface的趋势排行榜上,

前四中,有三个都是OCR模型,还有一个是Qwen3 的VL,讲道理都能拿来做OCR了。

图片

X 上刷到有网友甚至评论,这周算得上是OCR的黄金时代。

技术方案实现相信大家都了解的差不多了,

我也上手体验测试了一下这两个模型,看看实际的效果如何。

先上测试链接(因为没有GPU资源,所以用的都是线上版本):
Paddle OCR: https://aistudio.baidu.com/application/detail/98365
DeepSeek OCR: https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO

先来看个虽然简单,但是日常会经常用到的需求,文字提取

图片

DeepSeek OCR 的效果:

图片

Paddle OCR 的效果:

图片

两个都完成的挺不错的,大体文字识别都没什么问题。但是DeepSeek OCR更细节点,把图片下面的文字也提取到了。

我再提升点难度,加入一些公式之类的。

图片

这次直接转换为 Markdown 格式

DeepSeek OCR 的效果:

图片

Paddle OCR 的效果:

图片

Paddle OCR 的效果更加一步到位,直接贴在Markdown编辑器里就可用。

DeepSeek OCR的效果虽然也是准确,但是多了很多检测框的标记符,还需要后处理脚本去除。

再来看个化学公式的识别提取。

图片

DeepSeek OCR 的效果:

图片

Paddle OCR 的效果:

图片

两个文字识别都没有问题。

如果说这类文字提取,因为字体比较好识别,那手写字体的识别,则又是OCR模型的又一大挑战。

先来个稍微简单点的,

图是我在小红书上随便找的,这可能是最好认的医生笔迹。

图片

DeepSeek OCR 的效果:

图片

Paddle OCR的效果:

图片

果然手写才是最大的挑战。

两个模型都不是百分百正确。

DeepSeek OCR把“患者未诉任何不适“识别错了,识别成了未诉任何不适。

Paddle OCR 也出现了点问题,把“大小便正常”识别成了“大小便异常”

这可得出大事儿...

再来个稍微难点的,手写识别。

图片

全军覆没。

DeepSeek OCR的效果:

图片

Paddle OCR 的效果:

图片

答案揭晓,其实和之前那张图的答案是一模一样的,只不过是个更加潦草的版本。

再来看一个竖版文字识别的case,出自我最喜欢的一首诗。

图片

DeepSeek OCR的效果:

图片

Paddle OCR的效果:

图片

两个模型都有不同程度的错误。

Paddle 我个人觉得稍微好点吧,但是也好不了太多。

事实证明,要想识别的准确率高,本身字写的清楚真的很重要。

不然神仙来了都没卵用。

还有一类经常会用到OCR模型的场景,就是图表识别提取

比如下面这个:

图片

DeepSeek OCR的效果:

图片

Paddle OCR 的效果:

图片

这个case里,Paddle OCR的牛逼之处就体现出来了。

完全能够理解图表中的内容信息,并且转成markdown正确。

而DeepSeek OCR 看上去像不太能理解图表的样子...

再看一个图表的例子。

图片

DeepSeek OCR的效果:

图片

Paddle OCR的效果:

图片

两个其实都是对的。

把DeepSeek OCR的效果直接贴进Markdown编辑器里能就直接渲染出来。

整体上来看,两个模型的效果其实都还是不错的,识别率都挺高。

DeepSeek OCR 在图表识别上感觉会稍差一些,Paddle OCR表现的还是挺全能的。

毕竟Paddle OCR这个也积累了有些历史了,

虽然我们常说,百度经常起个大早,赶个晚集,

但不代表人家没技术积累~

最后,

开源才是最屌的!