OCR学习流程(整理中)

文章目录

  • OCR学习
    • 1. 图片预处理
    • 2. 图像分割
    • 3. 文本检测
    • 4. 文本识别

OCR学习

OCR(光学字符识别),即将图片输入,然后识别图中的文字。

1. 图片预处理

图片的预处理主要有:灰度处理、二值化、去噪、倾斜矫正等。
(1)灰度处理
灰度处理就像将图片处理成:仅包含亮度信息而不包含颜色信息的图像。灰度化的实现请这里
(2)二值化
图像二值化就是将图像上的像素点的“灰度值”设置为[0, 0, 0]或[255, 255, 255],即要么纯黑,要么纯白。二值化的详细描述和实现请点这里

2. 图像分割

3. 文本检测

基于深度学习的自然场景文本检测与识别方法
1.数据集
2.文本检测方法
3.文本识别方法
4.端到端的文本识别方法
5.文本检测性能评估
ICDAR2003_英文_509个样本_线性_检识
ICDAR2013_英文_462个样本_线性_检识
ICDAR2015_英文_1500个样本_线性_检识
MSRA-TD500_中英文_500个样本_线性_检测
ICDARMLT_混合_487个样本_线性_检识
COCO-Text_英文_63686个样本_线性_检识
SVT_英文_350个样本_线性_检识
RCTW-2017_中文_12263个样本_线性_检识
CTW_中文_32285个样本_线性_检识
CTW-1500_中英_1500个样本_线弯_检识
Total-Text_英文_1555个样本_线弯_检识
基于区域建议的方法
基于语义分割的方法
区域建议+语义分割
基于朴素CNN的方法
基于时序特征分类的方法
基于编码器和解码器的方法
基于文本区域建议的方法
基于文本组件建议的方法
基于直接边框回归的方法
基于分类预测的方法
基于边界特诊检测的方法
TextBoxes++,RRD
CTPN,SegLink
EAST,AF-RPN
PixelLink,PSENet
TextField,TextMountain
FTSN,PixelAnchor
DICT,CHAR,NGRAM,CHAR+NGRAM
CRNN,DTRN
SCAN,AON,EP
TextSpotter,DeepTextSpotter,TE-CRNN,FOTS,MaskTextSpotter
召回率Recall
准确率Precision
调和平均F-measure

4. 文本识别

你可能感兴趣的