A

Arabic Large Nougat

由MohamedRashad開發
專為阿拉伯語設計的端到端結構化光學字符識別系統,可將書籍頁面圖像轉換為結構化文本(Markdown格式)
下載量 537
發布時間 : 10/18/2024

模型概述

該模型基於新型分詞器從頭訓練,採用基礎Nougat架構,適用於阿拉伯文獻數字化和印刷材料文本提取等領域。

模型特點

阿拉伯語專用OCR
專門針對阿拉伯語文本優化的光學字符識別系統
結構化輸出
能夠生成Markdown格式的結構化文本輸出
端到端解決方案
直接從圖像到文本的完整處理流程,無需中間步驟
書籍處理優化
特別適合處理阿拉伯語書籍頁面

模型能力

阿拉伯語文本識別
英語文本識別
書籍頁面處理
Markdown格式生成

使用案例

文獻數字化
阿拉伯古籍數字化
將印刷版阿拉伯古籍轉換為可搜索的數字化文本
保留原始文本結構和格式
教育
教材內容提取
從阿拉伯語教材中提取文本內容用於電子化學習
結構化輸出便於後續處理
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase