PP-Structure智能图片识别表格
摘要:PP-Structure智能图片识别表格;PP-Structure是PaddleOCR团队自研的智能文档分析系统,旨在帮助开发者更好的完成版面分析、表格识别等文档理解相关任务。PP-StructureV2系统文档图像首先经过图像矫正模块,判断整图方向并完成转正。随后可以完成版面信息分析与关键信息抽取2类任务。
PP-Structure智能图片识别表格;PP-Structure是PaddleOCR团队自研的智能文档分析系统,旨在帮助开发者更好的完成版面分析、表格识别等文档理解相关任务。
PP-StructureV2系统文档图像首先经过图像矫正模块,判断整图方向并完成转正。随后可以完成版面信息分析与关键信息抽取2类任务。
版面分析任务中,图像首先经过版面分析模型,将图像划分为文本、表格、图像等不同区域,随后对这些区域分别进行识别,如,将表格区域送入表格识别模块进行结构化识别,将文本区域送入OCR引擎进行文字识别,最后使用版面恢复模块将其恢复为与原始图像布局一致的word或者pdf格式的文件;
关键信息抽取任务中,首先使用OCR引擎提取文本内容,然后由语义实体识别模块获取图像中的语义实体,最后经关系抽取模块获取语义实体之间的对应关系,从而提取需要的关键信息。

扫一扫,联系辉耀
8