PaddleOCR：文字识别与文档解析的开发套件

文档处理已成为企业、开发者和研究者日常工作中不可或缺的一部分。无论是扫描的PDF文件、手机拍摄的文档照片，还是各种格式的电子文档，如何高效、准确地提取其中的文字和结构信息，一直是个技术挑战。而PaddleOCR，作为开源OCR和文档AI引擎，正为这一问题提供了解决方案。

什么是PaddleOCR？

PaddleOCR是一个强劲、轻量级的OCR工具包，旨在将PDF或图像文档转换为AI友善的结构化数据（如JSON和Markdown格式）。自发布以来，凭借其学术前沿算法和产业落地实践，PaddleOCR已受到产学研各方的喜爱，被广泛应用于Umi-OCR、OmniParser、MinerU、RAGFlow等知名开源项目中，已成为广大开发者心中的开源OCR领域的首选工具。

2025年5月20日，飞桨团队正式发布了PaddleOCR 3.0，全面适配飞桨框架3.0，进一步提升了文字识别精度，支持多文字类型识别和手写体识别，满足大模型应用对复杂文档高精度解析的旺盛需求。

PaddleOCR：文字识别与文档解析的开发套件

PaddleOCR 3.0的核心能力

PaddleOCR 3.0的核心特色能力主要体目前以下几个方面：

1. PaddleOCR-VL：多语种文档解析的SOTA模型

PaddleOCR-VL是2025年10月16日开源的先进文档解析模型，其核心组件PaddleOCR-VL-0.9B是一种紧凑而强劲的视觉语言模型（VLM），由NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型组成。它支持109种语言，能在识别复杂元素（如文本、表格、公式和图表）方面表现出色，同时保持极低的资源消耗。在页级文档解析与元素级识别方面均达到SOTA（State-Of-The-Art）表现。

2. PP-OCRv5：全场景文字识别

PP-OCRv5是PaddleOCR的文本识别核心模型，单模型支持五种文字类型（简中、繁中、英文、日文及拼音），精度相比前代提升13个百分点。它解决了多语言混合文档的识别难题，特别适合处理包含多种语言的文档。

3. PP-StructureV3：复杂文档解析

PP-StructureV3将复杂PDF和文档图像智能转换为保留原始结构的Markdown文件和JSON文件。在公开评测中，它领先众多商业方案，完美保持文档版式和层次结构。它支持印章识别、图表转表格、表格识别（包括嵌套公式和图片）、垂直文本文档解析和复杂表格结构分析等功能。

4. PP-ChatOCRv4：智能信息抽取

PP-ChatOCRv4原生集成ERNIE 4.5，从海量文档中精准提取关键信息，精度较上一代提升15个百分点。它让文档”听懂”您的问题并给出准确答案，是智能文档理解的利器。

快速上手PaddleOCR

安装PaddleOCR超级简单，只需一行命令：

# 基础功能（文本识别）
pip install paddleocr

# 全功能（包含文档解析、信息提取等）
pip install "paddleocr[all]"

基本使用示例

1. 文本识别（PP-OCRv5）

from paddleocr import PaddleOCR

# 初始化OCR模型
ocr = PaddleOCR(
    use_doc_orientation_classify=False,  # 关闭文档方向分类
    use_doc_unwarping=False,            # 关闭文档矫正
    use_textline_orientation=False       # 关闭文本行方向分类
)

# 进行OCR识别
result = ocr.predict(
    input="https://example.com/document.jpg"
)

# 打印结果
for line in result:
    print(line[1][0])  # 打印识别出的文字

2. 文档解析（PP-StructureV3）

from paddleocr import PPStructureV3

# 初始化文档解析模型
pipeline = PPStructureV3(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False
)

# 进行文档解析
output = pipeline.predict(
    input="https://example.com/document.pdf"
)

# 保存为Markdown和JSON格式
for res in output:
    res.save_to_markdown("output")
    res.save_to_json("output")

3. 智能信息抽取（PP-ChatOCRv4）

from paddleocr import PPChatOCRv4Doc

# 初始化智能文档理解模型
pipeline = PPChatOCRv4Doc(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False
)

# 进行智能信息抽取
result = pipeline.chat(
    key_list=["驾驶室准乘人数"],
    input="https://example.com/vehicle_certificate.jpg"
)

print(result)  # 打印提取的关键信息