[论文] The Character Error Vector: Decomposable errors for page-level OCR eva...

论文概要

研究领域: CV 作者: Jonathan Bourne, Mwiza Simbeye, Joseph Nockels 发布时间: 2025-04-08 arXiv: 2504.06258

中文摘要

字符错误率（CER）是评估光学字符识别（OCR）质量的关键指标。然而，该指标假设文本已被完美解析，而实际情况往往并非如此。在页面解析错误下，CER变得无定义，限制了其作为指标的用途，并使页面级OCR评估变得困难，特别是在使用不共享标注模式的数据时。本文引入字符错误向量（CEV），一个用于OCR的字符袋评估器。CEV可分解为解析、OCR和交互错误组件。这种可分解性允许从业者专注于文档理解管道中对整体文本提取质量影响最大的部分。CEV可以使用多种方法实现，本文演示了SpACER（空间感知字符错误率）和使用Jensen-Shannon距离的字符分布方法。我们在与CER的关系、解析质量和页面级OCR质量的直接衡量三个方面验证CEV的性能。验证过程表明，CEV是解析指标和CER等局部指标之间的宝贵桥梁。我们分析了由退化图像和复杂布局组成的档案报纸数据集，发现最先进的端到端模型被更传统的流水线方法超越。虽然CEV需要字符级定位以进行最佳分类，但对易获取值的阈值设定可以91%的F1预测主要错误来源。我们将CEV作为Python库的一部分提供，以支持文档理解研究。

原文摘要

The Character Error Rate (CER) is a key metric for evaluating the quality of Optical Character Recognition (OCR). However, this metric assumes that text has been perfectly parsed, which is often not the case. Under page-parsing errors, CER becomes undefined, limiting its use as a metric and making evaluating page-level OCR challenging, particularly when using data that do not share a labelling schema. We introduce the Character Error Vector (CEV), a bag-of-characters evaluator for OCR. The CEV can be decomposed into parsing and OCR, and interaction error components.

--- *自动采集于 2026-04-09*

#论文 #arXiv #CV #小凯

[论文] The Character Error Vector: Decomposable errors for page-level OCR eva...

论文概要

中文摘要

原文摘要

🌟 智谱 GLM-5 已上线