結構化數據提取

# 結構化數據提取

Visionocr 3B 061125 GGUF

基於Qwen2.5-VL-3B-Instruct微調的視覺OCR模型，專注於文檔級OCR、長上下文視覺語言理解和數學LaTeX格式轉換

圖像生成文本

Transformers 英語

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_det 是一個高精度的表格單元格檢測模型，專為表格識別任務設計，能夠準確定位和標記表格圖像中的每個單元格區域。

文字識別支持多種語言

RT DETR L Wired Table Cell Det

RT-DETR-L_wired_table_cell_det 是表格識別任務中的關鍵模塊，主要負責定位和標記表格圖像中的每個單元格區域。

文字識別支持多種語言

Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct 是一個強大的視覺語言模型，具備增強的數學和問題解決能力，適用於多模態任務。

圖像生成文本英語

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL是Qwen家族最新推出的視覺語言模型，具備強大的視覺理解和多模態處理能力，支持圖像、視頻分析和結構化輸出。

圖像生成文本英語

Qwen2.5 VL 3B Instruct GGUF

Qwen2.5-VL是Qwen家族的最新視覺語言模型，具備強大的視覺理解和多模態處理能力。

圖像生成文本英語

Docscopeocr 7B 050425 Exp

docscopeOCR-7B-050425-exp 是基於 Qwen/Qwen2.5-VL-7B-Instruct 微調的模型，專注於文檔級 OCR、長上下文視覺語言理解和數學 LaTeX 格式的精確圖像到文本轉換。

圖像生成文本

Transformers 支持多種語言

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新視覺語言模型，具備強大的多模態理解和生成能力，支持圖像、視頻和文本的交互。

文本生成圖像

Transformers 英語

christopherthompson81

Qwen2.5 VL Instruct 3B Geo

Qwen2.5-VL是Qwen家族的最新視覺語言模型，專注於增強視覺理解和代理能力。

文本生成圖像

Transformers 英語

Qwen2.5 VL 72B Instruct AWQ Fix

Qwen2.5-VL 是 Qwen 家族的最新視覺語言模型，具備強大的視覺理解和代理能力，支持多格式視覺定位和結構化輸出生成。

圖像生成文本

Transformers 英語

Qwen2.5 VL 72B Instruct AWQ

Qwen2.5-VL是通義千問團隊推出的多模態大語言模型，具備強大的視覺理解和智能代理能力，支持圖像、視頻、文本等多種輸入格式。

文本生成圖像

Transformers 英語

Qwen2.5 VL 72B Instruct Pointer AWQ

Qwen2.5-VL是Qwen家族的最新視覺語言模型，具備增強的視覺理解、代理能力和結構化輸出生成功能。

圖像生成文本

Transformers 英語

Qwen2.5 VL 7B Instruct AWQ

Qwen2.5-VL是通義千問推出的多模態視覺語言模型，具備強大的圖像理解和文本生成能力。

圖像生成文本

Transformers 英語

Qwen2.5 VL 3B Instruct 4bit

Qwen2.5-VL是Qwen家族的最新視覺語言模型，具備增強的視覺理解、智能體功能和長視頻處理能力。

文本生成圖像

Transformers 英語

Gemma 2 2B TR Knowledge Graph

Gemma-2-2B-TR-Knowledge-Graph 是基於 gemma-2-2b-it 微調的模型，專注於從文檔內容生成結構化知識圖譜。

Safetensors 其他

基於LayoutLM架構的金融表格問答模型，專門用於從金融表格中提取和回答結構化問題。

Transformers 英語

Output LayoutLMv3 V7

基於microsoft/layoutlmv3-base微調的文檔理解模型，擅長處理文檔佈局分析任務

Table Transformer Detection Custom Ale

基於DETR架構的表格檢測模型，專門用於從文檔中識別表格區域

該模型是基於microsoft/layoutlmv2-base-uncased在generator數據集上微調的版本，適用於文檔理解和佈局分析任務。

大型語言模型

Donut Receipt V2

基於naver-clova-ix/donut-base微調的模型，可能用於收據識別或文檔理解任務

大型語言模型

CORD-v2 是一個用於圖像轉文本任務的模型，主要用於從圖像中提取和識別文本內容。

基於naver-clova-ix/donut-base-finetuned-cord-v2微調的文檔圖像理解模型

圖像生成文本

Donut Base Finetuned Cord V2

Donut是一個基於Swin Transformer的視覺文檔理解模型，專門針對CORD數據集進行了微調，能夠從圖像中提取結構化文本信息。

圖像生成文本

Table Detection

基於DETR架構的表格檢測模型，專門用於從非結構化文檔中識別和提取表格

Donut Base Sroie

基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型，具體用途未明確說明

基於naver-clova-ix/donut-base微調的模型，具體用途和功能需要更多信息

圖像生成文本

Donut Base Receipt V3

基於naver-clova-ix/donut-base微調的收據識別模型

大型語言模型

基於philschmid/donut-base-sroie微調的模型，適用於圖像處理任務

Donut Base Finetuned Latvian Receipts V2

基於Donut架構的模型，專門針對拉脫維亞收據數據進行了微調

Donut Base Finetuned Latvian Receipts

該模型是基於donut-base在拉脫維亞收據數據集上微調的版本，主要用於收據圖像處理任務

Yolov8n Table Extraction

基於YOLOv8的表格檢測模型，能夠識別文檔中的表格區域，支持帶邊框和無邊框兩種表格類型。

Donut Base Sroie

該模型是基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的版本，適用於文檔理解任務。

Donut Base Sroie

基於philschmid/donut-base-sroie微調的文檔理解模型

Donut Base Medical Handwritten Blocks Data Extraction

基於Donut架構的模型，專門用於從醫療手寫文檔中提取結構化數據

DETR Table Detection

Table Transformer是一個基於DETR架構的表格檢測模型，專門用於從文檔圖像中檢測和識別表格結構。

Transformers 英語

Donut Base Sroie

基於naver-clova-ix/donut-base微調的文檔理解模型，適用於圖像文本提取任務

Layoutlmv3 Finetuned Invoice

基於LayoutLMv3-base在SROIE數據集上微調的發票信息提取模型，在標記分類任務上表現優異

Layoutlmv3 Finetuned Cord

基於LayoutLMv3在CORD數據集上微調的文檔理解模型，擅長文檔標記分類任務

Layoutlmv2 Finetuned Sroie

基於LayoutLMv2架構在SROIE數據集上微調的文檔信息提取模型，擅長從收據文檔中提取關鍵字段

Theivaprakasham

Layoutlmv2 Finetuned Sroie Mod

基於microsoft/layoutlmv2-base-uncased微調的文檔理解模型，適用於結構化文檔信息提取任務

大型語言模型

Theivaprakasham

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase