OCRmyPDF 是一款開源的命令行工具,用于將掃描的 PDF 文件轉(zhuǎn)換為可搜索、可復制的文檔。它通過疊加 OCR 文本層來實現(xiàn)這一功能,從而讓原本無法編輯或搜索的 PDF 文件變得可編輯和可搜索 。OCRmyPDF 支持多種語言,包括超過 100 種語言,并且能夠修復旋轉(zhuǎn)錯誤的頁面、校正傾斜的 PDF,以及更改輸出元數(shù)據(jù) 。該工具使用 Tesseract OCR 引擎進行文字識別,支持多語言處理,并且能夠生成 PDF/A 格式的文件,以確保文檔的長期保存和可訪問性 。
- OCRmyPDF官網(wǎng)入口網(wǎng)址:https://ocrmypdf.readthedocs.io/
- OCRmyPDF開源項目地址:https://github.com/ocrmypdf/OCRmyPDF

OCRmyPDF 的安裝和使用相對簡單,用戶只需安裝 Python、Tesseract OCR 和 Ghostscript,然后通過命令行安裝 OCRmyPDF 即可 。該工具支持 Linux、macOS 和 Windows 系統(tǒng),并且可以通過多種方式安裝,包括包管理器或 Docker 鏡像 。OCRmyPDF 的許可遵循 Mozilla Public License 2.0(MPL-2.0),允許與其他代碼集成,但要求發(fā)布源代碼級修改 。
OCRmyPDF 的主要功能包括:將掃描的 PDF 文件轉(zhuǎn)換為可搜索的 PDF 文件,支持多語言處理,優(yōu)化 PDF 圖像,保持原始圖像分辨率,以及支持批量處理和多核處理以提高處理速度 。OCRmyPDF 還支持插件和自定義處理步驟,以滿足不同用戶的需求。
OCRmyPDF 是一個強大且易于使用的工具,適用于個人用戶、學術研究者和法律專業(yè)人士,能夠顯著提升文檔處理和搜索的效率 。OCRmyPDF 的 GitHub 倉庫提供了詳細的文檔和社區(qū)支持,用戶可以通過 GitHub 問題頁面報告問題并獲得響應 。
OCRmyPDF 是一款功能強大、開源且易于使用的工具,能夠幫助用戶將掃描的 PDF 文件轉(zhuǎn)換為可搜索、可復制的文檔,提高文檔處理和搜索的效率。