olmOCR-7B-thai-v1開源OCR模型 - 高效將PDF圖像內容精準轉為文本

首頁

Olmocr 7B Thai V1

由Adun開發

olmOCR是一款基於Qwen2-VL-7B-Instruct微調的光學字符識別模型，專注於將PDF等圖像內容轉換為文本，並通過微調提升特定場景下的識別準確率。

文字識別

Safetensors

其他#PDF文本識別 #多接口OCR #VLM微調優化

下載量 1,730

發布時間 : 4/19/2025

模型概述

olmOCR是一款光學字符識別（OCR）模型，能夠將PDF文件等圖像中的內容轉換為文本（TEXT），並通過微調進一步提升其在特定場景下的識別準確率和性能。

模型特點

高度可定製

通過微調，可根據不同的業務需求和場景，對模型進行定製化調整。

開源共享

提供模型權重、微調數據集和推理代碼，方便開發者進行二次開發和研究。

大量微調數據

基於Vision Language Model進行了250K的微調，使模型具有更好的泛化能力。

多接口支持

支持API和CLI兩種使用方式，可通過命令行或API（如vLLM、SGlang）調用模型。

模型能力

圖像轉文本

PDF內容提取

特定場景OCR優化

使用案例

文檔數字化

PDF轉文本

將掃描的PDF文檔轉換為可編輯的文本內容。

提高文檔處理效率和可搜索性。

業務自動化

發票識別

自動識別和提取發票中的關鍵信息。

減少人工輸入錯誤，提高處理速度。

屬性	詳情
基礎模型	Qwen2 - VL - 7B - Instruct
模型類型	光學字符識別（OCR）模型
GitHub 鏈接	https://github.com/allenai/olmocr

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Olmocr 7B Thai V1

模型概述

模型特點

模型能力

使用案例

🚀 微調 olmOCR

✨ 主要特性

📋 模型信息

📞 聯繫信息