开源

📄 OCRmyPDF：让扫描文档秒变可搜索的PDF神器！

⭐️⭐️⭐️⭐️⭐️

MPL-2.0

30.3k

2.1k

OCRmyPDF 是一款开源的 PDF 处理工具，通过添加 OCR 文本层，使扫描文件变成可搜索、可复制的文档。其基于 Tesseract 技术，支持多语言，并具有自动旋转、去歪斜等强大功能。GitHub 上广受好评，是一款值得尝试的文档自动化处理利器。

OCRmyPDF 是一款开源工具，它的核心功能是为扫描 PDF 添加一个 OCR 文本层，使得原本无法搜索的扫描文件变得可编辑、可复制。是不是很神奇？✨

🎯 **主要功能**：

- 支持多语言 OCR，轻松应对不同语种的文档 🌍。

- 自动旋转页面和校正倾斜图像 🔁。

- 保留原始分辨率和图片质量，输出更小的 PDF 文件 💾。

- 支持 PDF/A 格式，确保长期保存 ✅。

- 可并行处理多个任务，充分利用多核 CPU ⚡。

💡 **使用场景**：

- 学术研究中需要整理大量纸质文献 📚。

- 企业档案管理，将旧文档数字化 🧾。

- 个人用户快速提取扫描件中的文本内容 📄。

🔥 **优势亮点**：

- 开源免费，支持跨平台（Linux / Windows / macOS）。

- 基于成熟的 Tesseract OCR 引擎，准确率高。

- 容易集成到自动化流程中，适合开发者使用。

📈 **热度与反馈**：

- GitHub 上超过 3 万颗星标，社区活跃度高。

- 衍生项目和 GUI 工具不断涌现，生态逐渐丰富。

- 用户普遍认为它解决了实际问题，操作简单且高效。

总之，OCRmyPDF 是一款实用又强大的工具，如果你经常处理扫描文档，不妨试试看吧！🚀

Python 文档理解 Linux