文档解析PP-StructureV3:PDF秒变高质量Markdown文件来源,百度AI。

文档解析PP-StructureV3:PDF秒变高质量Markdown文件


■ 背景介绍


在大模型与 RAG 技术快速发展的当下,结构化数据对于智能系统的重要性日益凸显。将文档图像、PDF 等非结构化数据精准地转换成结构化数据(如 Markdown、JSON)已成为行业待解决的关键问题。


目前众多开源方案在处理复杂文档情形时,都会遇到文字识别能力差、阅读顺序无法正确恢复、表格识别不准、长难公式无法解析等问题。基于广大用户的反馈和对行业痛点的分析,飞桨团队从文档解析的多个模块全栈优化,打造了新一代文档解析利器——PP-StructureV3,即使面对复杂文档场景,依旧游刃有余,为解决大模型训练微调的数据缺失和大模型的落地问题,提供强有力的保障。该方案已随着 PaddleOCR3.0的发布,全面开源!



01


PP-StructureV3优势



精度高:PP-StructureV3支持多种场景、多种版式文档图像或 PDF 文件的高精度解析,可以将文档图像或者 PDF 文件无缝转换为带图像、文本、表格、阅读顺序等内容的 Markdown 文件和带文字、段落等坐标信息的 JSON 文件。PP-StructureV3在 OmniDocBench 基准测试中领先众多开源和闭源方案。




注:以上精度信息除 PP-StructureV3和 MinerU-1.3.11为自测精度外,均来自 OmniDocBench



多项专精能力: PP-StructureV3除了在 OmniDocBench 上的精度指标更高之外,还拥有很多其他开源文档解析方案没有的专精能力,如:印章识别、图表解析、含公式/图片的表格识别、竖排文本解析、中文公式、化学方程式及复杂表格识别等——这些能力是很多重要场景 AI 应用落地的刚需。



02


效果速览



▎文档解析效果速览



论文





左右滑动查看更多图片



财报





左右滑动查看更多图片



杂志





左右滑动查看更多图片



复杂公式





左右滑动查看更多图片



中文公式/化学方程式





左右滑动查看更多图片



竖版文字





左右滑动查看更多图片



含公式/图像表格





左右滑动查看更多图片



在文档解析任务中,阅读顺序恢复能力尤为重要,飞桨团队自研了全新的阅读顺序恢复解决方案,不仅可以应对常规文档,也可以应对报纸、复杂布局的杂志、试卷等较难的文档场景。对于复杂布局的文档,PP-StructureV3的阅读顺序恢复能力远超其他文档解析方案。



▎复杂文档阅读顺序效果速览



杂志





左右滑动查看更多图片



报纸





左右滑动查看更多图片



试卷





左右滑动查看更多图片



竖版文本





左右滑动查看更多图片



此外,如前文所述,PP-StructureV3也支持将图表转换为表格,图表中的关键数据的获取不再困难。



▎图表转表效果速览





左右滑动查看更多图片



03


算法介绍



PP-StructureV3采用了一种精细化的模型组合策略,通过高效协调不同模型的输入输出,来实现高精度的文档解析。首先,文档图像经过文档预处理(可选),然后执行版面区域分析和文字识别。接下来,版面区域分析和文字识别的融合结果会基于其所属的不同版面类型被分别传送到表格识别、公式识别、图表解析和印章识别等多个子模块。最后,阅读顺序恢复模块对不同版面区域的识别结果基于人类阅读顺序进行排序,生成最终的文档解析结果——对应的 Markdown 文档和 JSON 文件。以上各个模块涉及的模型算法,飞桨团队均进行了全栈自研,并对关键模块做了细致优化。





其中几个重要模块的核心能力升级优化点如下:



文档图像方向分类:优化了预处理步骤中的文档图像方向分类模型的准确性,大大提升了纯表格文档场景、少文字文档场景、其他语言文档场景的方向分类准确性,整体方向分类的准确率大于99%。


文字识别:自研 PP-OCRv5,实现单一模型支持中文简体、中文繁体、中文拼音、英语、日语五大文字类型,同时升级了中英手写体、竖排文本、生僻字等复杂场景的识别能力,较 PP-OCRv4端到端提升13个点。OCR 模型的升级,可以让 PP-StructureV3无缝高精度识别中、英、日三种文档的文字内容。


版面区域检测:升级了 PP-DocLayout 在复杂布局文档的版面区域检测能力,包含多栏打印/手写试卷、嵌套表格、研报、竖版报纸和杂志等,相比于上一代,精度显著提升。版面区域检测模块的升级,为处理繁杂多样的文档提供了重要布局分析的能力。


版面分块检测:为了应对复杂版面的阅读顺序恢复问题,研发了版面分块检测模型 PP-DocBlockLayout,可以将复杂报纸、杂志中不同的文章内容进行分块区分,从而有效降低相近位置区域的相互干扰,从而提升阅读顺序恢复的可靠性。


表格识别:表格识别解决方案 PP-TableMagic 全新升级,新增单元格直转 HTML、OCR 文本单元格切分、表格方向矫正等多个重要能力,对旋转表格、复杂有线表等表格的识别准确率显著提升。


公式识别:升级了 PP-FormulaNet 在复杂公式的识别能力,同时新增了中文公式识别、化学方程式识别的能力。


图表解析:自研图表解析方案 PP-Chart2Table,可以将直方图、饼图、折线图等多样化且复杂的图表转换为表格,为图表中的关键数据提取提供强有力的保障。


阅读顺序恢复:自研全新的复杂版面阅读顺序恢复解决方案,强化了对杂志、试卷、报纸和竖版文字等复杂版面场景的阅读顺序恢复能力,可以在多场景中,将多版式的文档段落阅读顺序进行恢复。


Markdown 后处理:支持不同层级标题的区分,支持跨段、跨页文本内容的合并,支持根据真实文档的图片尺寸缩放图像,支持居中显示图、表等,支持在识别的表格中插入公式、图像等内容。



04


使用方式



为了方便开发者使用 PP-StructureV3,我们提供了极简 API 方案,可快速实现本地推理和服务化部署:



▎本地推理



本地推理提供了两种方式,即 CLI 预测和 Python API 的方式,其中 CLI 预测方式如下:



# 支持传入URL、图片路径、文件夹路径、PDF文件、PDF文件夹路径等


paddleocr pp_structurev3 -i pp_structure_v3_demo.png



Python API 预测方式如下:



from paddleocr import PPStructureV3


pipeline = PPStructureV3()


output = pipeline.predict("./pp_structure_v3_demo.png")


for res in output:


res.print() ## 打印预测的结构化输出


res.save_to_json(save_path="output") ## 保存当前图像的结构化json结果


res.save_to_markdown(save_path="output") ## 保存当前图像的markdown格式的结果



经过预测后,会通过 save_to_json()和 save_to_markdown()方法将文档图像的结构化 JSON 结果和 Markdown 结果保存在 save_path 中。



▎服务化部署



PaddleX 提供了 PaddleOCR 的服务化部署能力,可以通过 PaddleX 快速完成 PP-StructureV3的服务启动。



CLI 一键启动服务:



paddlex--installserving


paddlex--serve--pipelinePP-StrcutureV3



服务启动后,客户端通过少量代码即可调用服务。



import base64


import requests


import pathlib


API_URL = "http://localhost:8080/layout-parsing"# 服务URL


image_path = "./pp_structure_v3_demo.png"


# 对本地图像进行Base64编码


with open(image_path, "rb") as file:


image_bytes = file.read()


image_data = base64.b64encode(image_bytes).decode("ascii")


payload = {


"file": image_data, # Base64编码的文件内容或者文件URL


"fileType": 1, # 文件类型,1表示图像文件


}


# 调用API


response = requests.post(API_URL, json=payload)


# 处理接口返回数据


assert response.status_code == 200


result = response.json()["result"]


print (result)



关于 PP-StrutureV3的其他介绍,详见 PaddleOCR 官方文档:



▎方案介绍:



https://paddlepaddle.github.io/PaddleOCR/latest/version3.x/algorithm/PP-StructureV3/PP-StructureV3.html



▎使用教程:



https://paddlepaddle.github.io/PaddleOCR/latest/version3.x/pipeline_usage/PP-StructureV3.html



▎精彩课程预告



为了帮助您迅速且深入地了解 PP-StructureV3全流程解决方案,百度研发工程师将于6月19日(周四)19:00为您深度解析本次技术升级。此外,我们还将开设针对 PP-StructureV3的产业场景实战营,手把手带您体验 PP-StructureV3的调试和部署。机会难得,立即扫描下方二维码预约吧!

发表于:2025-06-17 19:06
0个回复
  • 消灭零回复
您还没有登录,登录后才可回复。 登录 注册