这个最好的黄金时代，属于OCR

BubbleBrain

2025-10-23 16:09发布于上海科技领域创作者

问AI · DeepSeek和Paddle OCR识别差异在哪？

老话说，

时尚是个轮回。

这句话我觉得可能也同样适用在AI领域。

这两天最火的，是两个OCR模型，来自DeepSeek 和百度。

甚至，在Huggingface的趋势排行榜上，

前四中，有三个都是OCR模型，还有一个是Qwen3 的VL，讲道理都能拿来做OCR了。

X 上刷到有网友甚至评论，这周算得上是OCR的黄金时代。

技术方案实现相信大家都了解的差不多了，

我也上手体验测试了一下这两个模型，看看实际的效果如何。

先上测试链接（因为没有GPU资源，所以用的都是线上版本）：
Paddle OCR: https://aistudio.baidu.com/application/detail/98365
DeepSeek OCR: https://huggingface.co/spaces/khang119966/DeepSeek-OCR-DEMO

先来看个虽然简单，但是日常会经常用到的需求，文字提取。

DeepSeek OCR 的效果：

Paddle OCR 的效果：

两个都完成的挺不错的，大体文字识别都没什么问题。但是DeepSeek OCR更细节点，把图片下面的文字也提取到了。

我再提升点难度，加入一些公式之类的。

这次直接转换为 Markdown 格式

DeepSeek OCR 的效果：

Paddle OCR 的效果：

Paddle OCR 的效果更加一步到位，直接贴在Markdown编辑器里就可用。

DeepSeek OCR的效果虽然也是准确，但是多了很多检测框的标记符，还需要后处理脚本去除。

再来看个化学公式的识别提取。

DeepSeek OCR 的效果：

Paddle OCR 的效果：

两个文字识别都没有问题。

如果说这类文字提取，因为字体比较好识别，那手写字体的识别，则又是OCR模型的又一大挑战。

先来个稍微简单点的，

图是我在小红书上随便找的，这可能是最好认的医生笔迹。

DeepSeek OCR 的效果：

Paddle OCR的效果：

果然手写才是最大的挑战。

两个模型都不是百分百正确。

DeepSeek OCR把“患者未诉任何不适“识别错了，识别成了未诉任何不适。

Paddle OCR 也出现了点问题，把“大小便正常”识别成了“大小便异常”

这可得出大事儿...

再来个稍微难点的，手写识别。

全军覆没。

DeepSeek OCR的效果：

Paddle OCR 的效果：

答案揭晓，其实和之前那张图的答案是一模一样的，只不过是个更加潦草的版本。

再来看一个竖版文字识别的case，出自我最喜欢的一首诗。

DeepSeek OCR的效果：

Paddle OCR的效果：

两个模型都有不同程度的错误。

Paddle 我个人觉得稍微好点吧，但是也好不了太多。

事实证明，要想识别的准确率高，本身字写的清楚真的很重要。

不然神仙来了都没卵用。

还有一类经常会用到OCR模型的场景，就是图表识别提取。

比如下面这个：

DeepSeek OCR的效果：

Paddle OCR 的效果：

这个case里，Paddle OCR的牛逼之处就体现出来了。

完全能够理解图表中的内容信息，并且转成markdown正确。

而DeepSeek OCR 看上去像不太能理解图表的样子...

再看一个图表的例子。

DeepSeek OCR的效果：

Paddle OCR的效果：

两个其实都是对的。

把DeepSeek OCR的效果直接贴进Markdown编辑器里能就直接渲染出来。

整体上来看，两个模型的效果其实都还是不错的，识别率都挺高。

DeepSeek OCR 在图表识别上感觉会稍差一些，Paddle OCR表现的还是挺全能的。

毕竟Paddle OCR这个也积累了有些历史了，

虽然我们常说，百度经常起个大早，赶个晚集，

但不代表人家没技术积累～

最后，

开源才是最屌的！