总结

二. 当前挑战:

首先,它与传统 OCR(光学字符识别) 有所区别,因自然场景之中文字变化非常之多,如下图所示:左边是一张典型的 扫描文档图像,右边则是 自然场景 中采集的多张图像。

_images/challenge-1.png

通过对比可以发现:

  • 左图的背景非常 干净,右图的背景非常 杂乱
  • 左边字体非常 规整,右边则 千变万化
  • 左边布局较为 平整统一,右边则 多元复杂,缺乏规范
  • 左边 颜色单调,右边 颜色种类繁多

目前来看,深度学习时代之下的场景文字检测与识别技术依然存在巨大挑战,其主要体现在以下 3 个方面

文字的差异性 :存在着语言、字体、方向、排列等各种各样的形态;

_images/challenge-2.png

背景的复杂性 :比如几乎无法区分的元素(标志、篱笆、墙砖、草地等);

_images/challenge-3.png

干扰的多样性 :诸如噪声、模糊、失真、低分辨率、光照不均匀、部分遮挡等情况。

_images/challenge-4.png

二. 未来机遇:

相应而言,针对上述挑战,文字检测与识别具体研究有着以下 4 个技术趋势

  1. 设计更强大的模型;
  2. 识别多方向、弯曲文字;
  3. 识别多语言文字;
  4. 合成更丰富逼真的数据集。

注解

PixelLink 网络调研相关:

  1. 论文地址:https://arxiv.org/pdf/1801.01315.pdf
  2. 源码地址:https://github.com/ZJULearning/pixel_link
  3. 相关论文:https://arxiv.org/pdf/1703.06520.pdf
  4. 原理解析:https://zhuanlan.zhihu.com/p/38171172

相关网址:

  1. 深度学习时代的文字检测与识别技术: https://zhuanlan.zhihu.com/p/51725259