客户端
游戏
无障碍

0

评论

收藏

分享

手机看

微信扫一扫,随时随地看

PDF 数据提取:为何依然是数据专家的噩梦

长期以来,企业、政府和研究人员一直在努力解决一个持续存在的问题:如何从 PDF (便携式文档格式) 文件中提取可用数据。这些数字文档承载着从科学研究到政府记录的各种内容,但其严格的格式往往将数据困在其中,使机器难以读取和分析。
马里兰大学数据与计算新闻学讲师 Derek Willis 在给 Ars Technica 的邮件中写道:"问题的部分原因在于 PDF 是一个印刷布局对出版软件影响很大的时代产物,PDF 更像是一个'印刷'产品而不是数字产品。主要问题是许多 PDF 只是信息的图片,这意味着你需要光学字符识别软件将这些图片转换为数据,尤其是当原始文件陈旧或包含手写内容时。"
计算新闻学是一个将传统报道技术与数据分析、编程和算法思维相结合的领域,旨在发掘可能隐藏在大型数据集中的故事,这使得解锁数据对 Willis 来说尤为重要。
PDF 的挑战在整个数据分析和机器学习领域都代表着一个重要的瓶颈。根据多项研究,全球约 80-90% 的组织数据以非结构化形式存储在文档中,其中大部分被锁在难以提取的格式中。两栏布局、表格、图表和扫描质量差的文档会使这个问题更加严重。
无法可靠地从 PDF 中提取数据影响着众多领域,但对严重依赖文档和历史记录的领域影响最大,包括数字化科学研究、保存历史文件、简化客户服务以及使技术文献更易被 AI 系统访问。
"对于几乎所有 20 年前发布的内容,特别是政府记录来说,这都是一个非常现实的问题," Willis 说。"这不仅影响法院、警察和社会服务等公共机构的运作,也影响依赖这些记录进行报道的记者。这还迫使一些依赖信息的行业,如保险和银行业,投入时间和资源将 PDF 转换为数据。"
OCR 简史
传统的光学字符识别 (OCR) 技术可以将文本图像转换为机器可读文本,这项技术自 1970 年代就已存在。发明家 Ray Kurzweil 开创了 OCR 系统的商业开发,包括 1976 年为盲人开发的 Kurzweil 阅读机,该机器依靠模式匹配算法从像素排列中识别字符。
这些传统的 OCR 系统通常通过识别图像中明暗像素的模式,将其与已知的字符形状匹配,并输出识别出的文本。虽然对于清晰、简单的文档来说很有效,但这些模式匹配系统(本身就是一种 AI)在面对不寻常的字体、多列、表格或低质量扫描时往往会失效。
传统 OCR 之所以在许多工作流程中得以保留,正是因为其局限性是众所周知的——它产生的错误可预测,可以被识别和纠正,有时这种可靠性比新的基于 AI 的解决方案的理论优势更重要。但现在,由于基于 Transformer 的大语言模型 (LLM) 获得了大量资金支持,公司越来越多地转向它们来寻求阅读文档的新方法。
AI 语言模型在 OCR 中的崛起
与基于像素模式识别字符的传统 OCR 方法不同,能够阅读文档的多模态 LLM 是通过将文本和图像转换为称为 token 的数据块并输入大型神经网络来训练的。来自 OpenAI、Google 和 Meta 等公司的具有视觉能力的 LLM 通过识别视觉元素之间的关系和理解上下文线索来分析文档。
例如,如果你通过 AI 助手界面上传 PDF 文件,ChatGPT 就是使用这种"视觉"图像方法来读取的。这是一种与标准 OCR 根本不同的方法,使它们能够更全面地处理文档,同时考虑视觉布局和文本内容。
事实证明,某些供应商的 LLM 在这项任务上比其他供应商做得更好。
"在这些任务上表现良好的 LLM 往往以更符合我手动操作方式的方式运作," Willis 说。他指出一些传统的 OCR 方法非常好,特别是 Amazon 的 Textract,但"它们也受到软件规则的约束,以及在尝试识别不寻常模式时能参考的文本量的限制。"Willis 补充说,"对于 LLM,我认为这种权衡带来了扩展的上下文,这似乎有助于它们更好地预测一个数字是 3 还是 8。"
这种基于上下文的方法使这些模型能够更好地处理复杂布局、解释表格,并区分标题、说明和正文等文档元素——这些都是传统 OCR 解决方案难以处理的任务。
"[LLM] 并不完美,有时需要大量干预才能做好工作,但你可以通过[自定义提示]对它们进行调整这一事实是一个很大的优势," Willis 说。
基于 LLM 的 OCR 新尝试
随着对更好的文档处理解决方案的需求增长,新的 AI 公司正带着专门的产品进入市场。其中一个最近的新入局者特别引起了文档处理专家的注意。
以小型 LLM 闻名的法国 AI 公司 Mistral 最近推出了 Mistral OCR,这是一个专门用于文档处理的 API。根据 Mistral 的资料,他们的系统旨在利用语言模型功能从复杂布局的文档中提取文本和图像。
然而,根据最近的测试,这些宣传声明并不总是与实际性能相符。"我通常是 Mistral 模型的忠实粉丝,但他们上周发布的新 OCR 专用模型表现确实很差," Willis 指出。
"一位同事发给我这个 PDF,问我是否能帮他解析其中的表格," Willis 说。"这是一个包含一些复杂布局元素表格的旧文档。新的[Mistral] OCR 专用模型表现很差,重复城市名称并且搞砸了很多数字。"
AI 应用开发者 Alexander Doria 最近也在 X 上指出了 Mistral OCR 理解手写内容能力的缺陷,他写道:"不幸的是,Mistral-OCR 仍然有通常的视觉语言模型问题:对于具有挑战性的手稿,它完全产生幻觉。"
据 Willis 称,Google 目前在能够阅读文档的 AI 模型领域处于领先地位:"目前对我来说,明显的领导者是 Google 的 Gemini 2.0 Flash Pro Experimental。它处理 Mistral 失败的 PDF 时只出现了很少的错误,我通过它运行了多个混乱的 PDF,包括那些有手写内容的,都取得了成功。"
Gemini 的性能主要源于其处理大量文档的能力(在一种称为"上下文窗口"的短期记忆中),Willis 特别指出这是一个关键优势:"其上下文窗口的大小也有帮助,因为我可以上传大文档并分部分处理。"这种能力,加上对手写内容更强大的处理能力,显然目前让 Google 的模型在实际文档处理任务中比竞争对手具有实际优势。
基于 LLM 的 OCR 的缺点
尽管前景看好,但 LLM 给文档处理带来了几个新问题。其中包括可能产生混淆或幻觉(听起来合理但不正确的信息),意外遵循文本中的指令(认为它们是用户提示的一部分),或者仅仅是对数据的误解。
"最大的[缺点]是它们是概率预测机器,会以不仅仅是'那个词错了'的方式出错," Willis 解释说。"我发现,在布局重复的大型文档中,LLM 有时会跳过一行,而 OCR 不太可能这样做。"
AI 研究员和数据记者 Simon Willison 在与 Ars Technica 的对话中指出了使用 LLM 进行 OCR 的几个关键问题。"我仍然认为最大的挑战是意外遵循指令的风险,"他说,他始终警惕提示注入(在这种情况下是意外的),这可能会向 LLM 输入有害或矛盾的指令。
"还有就是表格解释错误可能是灾难性的," Willison 补充道。"过去我遇到过很多情况,视觉 LLM 将错误的数据行与错误的标题匹配,导致看起来正确但实际上完全是垃圾的结果。还有就是有时如果文本难以辨认,模型可能会编造文本。"
在处理财务报表、法律文件或医疗记录时,这些问题变得特别麻烦,因为错误可能危及某人的生命。可靠性问题意味着这些工具通常需要仔细的人工监督,限制了它们在完全自动化数据提取方面的价值。
未来发展方向
即使在我们看似先进的 AI 时代,仍然没有完美的 OCR 解决方案。从 PDF 中解锁数据的竞赛仍在继续,像 Google 这样的公司现在提供具有上下文感知的生成式 AI 产品。正如 Willis 观察到的,AI 公司解锁 PDF 的部分动机无疑涉及潜在的训练数据获取:"我认为 Mistral 的公告清楚地表明,文档——不仅仅是 PDF——是他们战略的重要组成部分,正是因为它可能提供额外的训练数据。"
无论是对 AI 公司的训练数据有利,还是对分析历史人口普查的历史学家有利,随着这些技术的改进,它们可能会解锁当前被困在主要为人类消费设计的数字格式中的知识库。这可能会带来数据分析的新黄金时代——或者成为难以发现的错误的乐园,这取决于所使用的技术和我们对它的信任程度。
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部