ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting
近年来,文本与图像的联合预训练技术在各种任务中显示出了良好的效果。然而,在光学字符识别 (OCR) 任务中,将文本实例与图像中的对应文本区域对齐存在挑战,因为这不仅需要对图像整体内容的理解,更需要对文本与 OCR-Text (图像中的文本) 的有效对齐。为解决这一问题,论文提出了一种新的预训练方法——OCR-Text 去风格化建模 (ODM)。ODM 方法将图像中不同风格的文本统一为一种风格,从而实现文本与 OCR-Text 之间更好的对齐,使预训练模型能够适应复杂多样的场景文本检测和识别任务。
此外,论文中还为 ODM 设计了一种新的标注生成方法,并结合提出的 Text-Controller 模块,解决了 OCR 任务中高昂的标注成本问题,使更多未标注的数据可以用于预训练。大量公共数据集上的广泛实验表明,该方法大幅提升了性能,并在场景文本检测和识别任务中超越了现有的预训练方法。代码可在 ODM 获取。
主要内容
- 论文背景与动机:
- 光学字符识别(OCR)任务中,文本实例与图像中的文本区域对齐是一个挑战。现有的文本-图像联合预训练技术虽然有希望,但不适用于OCR任务中的文本对齐需求。
- 提出了OCR-Text Destylization Modeling (ODM),通过将图像中的不同风格文本转化为统一风格,实现更好的文本对齐,并适应复杂多样的场景文本检测和识别任务。
- ODM方法介绍:
- 步骤 1:去风格化建模:基于文本提示进行像素级图像重建,把图像中的文本风格去掉,并强化文本与OCR 文本间的对齐。
- 步骤 2:文本控制器模块:引入Text-Controller模块,帮助模型理解OCR文本,便于弱标注数据参与预训练,降低标注成本。
- 步骤 3:符号化标签生成:设计了一种新的标注生成方法,通过字型文件、文本和位置信息生成统一风格的二值图像,解决数据集中像素级标注不足的问题。
- 实验结果:
- 在多个公共数据集上的实验表明,ODM显著改善了场景文本检测和识别任务中的性能,相比现有预训练方法有显著提升。
- 技术优势与贡献:
- 简单有效的预训练方法:ODM通过像素级标签学习OCR文本的特征,提升了文本理解能力,适应各种文本检测和识别。
- 创新的文本控制模块:通过跨注意力机制在文本和图像特征间交互,提高了对OCR文本的理解能力。
- 改进的标注生成方法:有效生成统一风格的二值图像,减少了像素级标注成本。
- 未来展望:
- ODM展示了在OCR任务中特定于文本的预训练方法的潜力,未来可以进一步应用并优化以提升更多场景下的文本检测和识别性能。
总结
本文提出了一种新的预训练技术ODM,通过去风格化建模和引入文本控制模块,改善了OCR任务中的文本对齐问题。实验结果证明ODM在多个场景文本检测和识别数据集上表现优异,展示了其在实际应用中的潜力。