N

Nanonets OCR S GGUF

Developed by unsloth
Nanonets-OCR-s是一款先進的圖像轉Markdown光學字符識別(OCR)模型,能夠將文檔轉換為結構化的Markdown格式,具備智能內容識別和語義標記功能。
Downloads 2,300
Release Time : 6/16/2025

Model Overview

Nanonets-OCR-s是一款強大的OCR模型,專為將文檔轉換為結構化的Markdown格式而設計。它不僅能夠提取文本,還能識別和標記LaTeX公式、圖像、簽名、水印等複雜內容,非常適合供大語言模型(LLM)進行下游處理。

Model Features

LaTeX公式識別
自動將數學方程和公式轉換為格式正確的LaTeX語法,可區分行內公式和顯示公式。
智能圖像描述
使用結構化的<img>標籤描述文檔內的圖像,便於大語言模型處理。
簽名檢測與分離
識別並分離文檔中的簽名,將其輸出到<signature>標籤內。
水印提取
檢測並提取文檔中的水印文本,將其放置在<watermark>標籤內。
智能複選框處理
將表單中的複選框和單選按鈕轉換為標準化的Unicode符號。
複雜表格提取
準確提取文檔中的複雜表格,並將其轉換為Markdown和HTML表格格式。

Model Capabilities

文檔OCR
LaTeX公式識別
圖像內容描述
簽名檢測
水印提取
表格提取
複選框處理

Use Cases

文檔處理
學術論文處理
將包含數學公式和表格的學術論文轉換為結構化Markdown格式。
保留原始文檔的結構和語義,便於後續分析和處理。
商業合同處理
提取合同中的文本、簽名和水印信息。
自動化處理法律文檔,提高效率。
表單處理
識別和轉換表單中的複選框和單選按鈕。
標準化表單數據,便於後續分析。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase