ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting

近年来,文本与图像的联合预训练技术在各种任务中显示出了良好的效果。然而,在光学字符识别 (OCR) 任务中,将文本实例与图像中的对应文本区域对齐存在挑战,因为这不仅需要对图像整体内容的理解,更需要对文本与 OCR-Text (图像中的文本) 的有效对齐。为解决这一问题,论文提出了一种新的预训练方法——OCR-Text 去风格化建模 (ODM)。ODM 方法将图像中不同风格的文本统一为一种风格,从而实现文本与 OCR-Text 之间更好的对齐,使预训练模型能够适应复杂多样的场景文本检测和识别任务。

此外,论文中还为 ODM 设计了一种新的标注生成方法,并结合提出的 Text-Controller 模块,解决了 OCR 任务中高昂的标注成本问题,使更多未标注的数据可以用于预训练。大量公共数据集上的广泛实验表明,该方法大幅提升了性能,并在场景文本检测和识别任务中超越了现有的预训练方法。代码可在 ODM 获取。

主要内容

  1. 论文背景与动机
  2. ODM方法介绍
  3. 实验结果
  4. 技术优势与贡献
  5. 未来展望

总结

本文提出了一种新的预训练技术ODM,通过去风格化建模和引入文本控制模块,改善了OCR任务中的文本对齐问题。实验结果证明ODM在多个场景文本检测和识别数据集上表现优异,展示了其在实际应用中的潜力。