什么是 OCR(光学字符识别)?

光学字符识别 (OCR) 是指将文本图像转换为机器可读文本格式的流程。例如,如果您扫描一个表单或收据,则计算机会将扫描保存为图像文件。您无法使用文本编辑器对图像文件中的文字进行编辑、搜索或计数。但是,您可以使用 OCR 将图像转换为文本文档并将内容存储为文本数据。

为什么 OCR 很重要?

大部分业务工作流都涉及通过印刷媒介获取信息。纸质表单、发票、扫描的法律文档和打印的合同都是业务流程的组成部分。对这些海量文书进行存储和管理耗费了大量的时间和空间。尽管无纸化文档管理是大势所趋,但将文档扫描为图像仍然充满挑战。这一过程需要人工干预,繁琐且缓慢。

除此以外,文档内容的数字化会导致出现隐藏有文字的图像文件。文字处理软件无法像处理文本文档一样处理图像中的文本。OCR 技术通过将文本图像转换为可供其他商业软件分析的文本数据解决该问题。然后,您可以使用数据进行分析、改善运营、自动化流程并提升生产效率。

OCR 如何工作?

OCR 引擎或 OCR 软件通过以下步骤工作:

图像采集

扫描仪读取文档并将这些文档转换为二进制数据。OCR 软件分析扫描的图像,将淡色区域分类为背景,将深色区域分类为文本。

预处理

OCR 软件首先清理图像并删除错误,以为读取做好准备。以下为其使用的一些清理技术:

  • 扫描期间,对扫描文档进行轻微的偏移校正或倾斜,以修复对齐问题。
  • 去除杂点、移除数字图像斑点或平滑文本图像边缘。
  • 清理图像中的边框和线条。
  • 多语言 OCR 技术的脚本识别

文本识别

OCR 软件用于文本识别的 OCR 算法或软件流程的两个主要类型为模式匹配和特征提取。

模式匹配

模式匹配分离字符图像(称为标志符号),并将其与存储的类似标志符号进行对比。模式匹配仅在存储的标志符号与输入的标志符号具有类似字体和大小时才能发挥作用。对于以已知字体输入的文档的扫描图像,此方法效果很好。

特征提取

特征提取将标志符号分割或分解为线条、闭环、线条方向和线条焦点等特征。然后,其使用这些特征在存储的多种标志符号中查找最佳匹配或最相近的匹配。

后处理

分析后,系统将提取的文本数据转换为计算机化的文件。某些 OCR 系统可以创建带注释的 PDF 文件,内含扫描文档的扫描前后版本。

OCR 有哪些类型?

数据科学家根据 OCR 技术的用途和应用将该技术分类为不同的类型。以下是几个示例:

简单光学字符识别软件

简单 OCR 引擎存储许多不同的字体和文本图像模式作为模板。OCR 软件使用模式匹配算法将文本图像与其内部数据库进行逐字符对比。如果系统逐字匹配文本,则称为光学文字识别。此解决方案存在限制,因为字体和手写风格几乎无限多,数据库中无法捕获和存储每个单独类型。

智能字符识别软件

现代 OCR 系统使用智能字符识别 (ICR) 技术,以像人类一样阅读文本。其使用机器学习软件,采用训练机器像人类一样行为的高级方法。机器学习系统,又称神经网络,在多个级别分析文本并反复处理图像。其查找不同的图像属性(例如曲线、线条、交点和环),并结合所有这些不同级别的分析结果获得最终结果。即使 ICR 在处理图像时每次通常只处理一个字符,但速度很快,数秒内即可获得结果。

智能文字识别

智能文字识别系统与 ICR 的工作原理相同,但其处理的是整个文字图像,而不是将图像预处理为字符。

光学标记识别

光学标记识别识别文档中的徽标、水印和其他文本符号。

OCR 有哪些优势?

数据科学家根据 OCR 技术的用途和应用将该技术分类为不同的类型。以下是几个示例:

简单光学字符识别软件

简单 OCR 引擎存储许多不同的字体和文本图像模式作为模板。OCR 软件使用模式匹配算法将文本图像与其内部数据库进行逐字符对比。如果系统逐字匹配文本,则称为光学文字识别。此解决方案存在限制,因为字体和手写风格几乎无限多,数据库中无法捕获和存储每个单独类型。

智能字符识别软件

现代 OCR 系统使用智能字符识别 (ICR) 技术,以像人类一样阅读文本。其使用机器学习软件,采用训练机器像人类一样行为的高级方法。机器学习系统,又称神经网络,在多个级别分析文本并反复处理图像。其查找不同的图像属性(例如曲线、线条、交点和环),并结合所有这些不同级别的分析结果获得最终结果。即使 ICR 在处理图像时每次通常只处理一个字符,但速度很快,数秒内即可获得结果。

智能文字识别

智能文字识别系统与 ICR 的工作原理相同,但其处理的是整个文字图像,而不是将图像预处理为字符。

光学标记识别

光学标记识别识别文档中的徽标、水印和其他文本符号。

OCR 有哪些优势?

以下为 OCR 技术的主要优势:

可搜索的文本

企业可以将其现有的和新的文档转换为完全可搜索的知识归档。也可以使用数据分析软件自动处理文本数据库,进行进一步的知识处理。

运营高效

您可以使用 OCR 软件自动集成企业内的文档工作流和数字工作流,进而提高效率。以下是 OCR 软件的一些应用示例:

  • 扫描手填表格,用于自动化验证、审核、编辑和分析。这节省了手动文档处理和数据输入所需的时间。
  • 通过快速搜索数据库中的字词查找需要的文档,而不必手动寻找文件盒中的文件。
  • 将手写备注转换为可编辑的文本和文档。
     

人工智能解决方案

OCR 通常是企业可能实施的其他人工智能解决方案的组成部分。例如,其在自动驾驶汽车中扫描和读取车牌号和路牌,检测社交媒体文章中的品牌徽标,或者识别广告图像中的产品包装。这些人工智能技术帮助企业做出更好的营销和运营决策,从而降低费用和提升客户体验。

OCR 有哪些用途?

以下为众多行业的一些常见 OCR 使用场景:

银行

银行业使用 OCR 处理和验证贷款文件、存款支票和其他金融交易的文书。该验证增强了对欺诈的预防,提升了交易安全。例如,BlueVine 是一家向中小企业提供金融服务的金融技术公司。其使用基于云的 OCR 服务 Amazon Textract,为美国小企业开发产品,以便这些企业快速获得属于 COVID-19 纾困刺激方案组成部分的薪资保护计划 (PPP) 贷款。Amazon Textract 每天自动处理和分析数以万计份 PPP 表格,以便 BlueVine 帮助数千家企业获得资金,同时挽救了 40 多万个工作岗位。

医疗保健

医护行业使用 OCR 处理患者记录,包括治疗、检验、医院记录和保险支付。OCR 帮助改善工作流,减少医院手动工作,同时保持记录及时更新。例如,nib Group 向 100 多万澳大利亚人提供健康和医疗保险,每天都收到数以千计的医疗索赔。客户可以对其医疗发票进行拍照,然后通过 nib 移动应用程序进行提交。Amazon Textract 自动处理这些图像,以便公司可以快速批准索赔。

物流

物流公司使用 OCR 高效跟踪包裹标签、发票、收据和其他文档。例如,Foresight Group 使用 Amazon Textract 自动化 SAP 中的发票处理流程。手动输入这些业务文档不仅耗时,而且容易出错,因为 Foresight 员工必须在多个核算系统中输入数据。借助 Amazon Textract,Foresight 软件可以精确读取许多不同布局中的字符,从而提升业务效率。

AWS 如何通过 OCR 提供帮助?

AWS 提供两项服务,从而帮助您在业务中实施 OCR:

Amazon Textract 是一项机器学习(ML)服务,其使用 OCR 从扫描的文档(例如 PDF)中自动提取文本、手写内容和数据。它可以高速读取数以千计种不同的文档,涵盖多种布局和格式。当从文档提取信息时,Amazon Textract 会针对其识别的所有内容返回置信度,以便您在如何使用结果方面做出明智的决定。

Amazon Rekognition 可在数分钟内分析数以百万计的图像和视频,并使用人工智能增强人工目视审核任务。您可以使用 Amazon Rekognition API 从图像和视频中提取文本。您可以从路牌、社交媒体文章和产品包装的图像和视频中提取歪斜和扭曲的文本。

立即创建 AWS 账户开始使用 AWS 上的 OCR。

AWS 的后续步骤