V

VARCO VISION 14B HF

由NCSOFT開發
VARCO-VISION-14B是一款強大的英韓視覺語言模型,支持圖像和文本輸入,生成文本輸出,具備定位、指代和OCR功能。
下載量 449
發布時間 : 11/27/2024

模型概述

VARCO-VISION-14B是一款多模態視覺語言模型,支持英語和韓語,能夠處理圖像和文本輸入,生成文本輸出。該模型具備定位、指代和光學字符識別(OCR)功能,適用於多種視覺語言任務。

模型特點

多模態支持
支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
定位功能
能夠識別圖像中的特定位置,並通過邊界框提供精確的定位信息。
指代功能
能夠理解上下文並專注於指定位置的對象,通過邊界框標記對象位置。
OCR功能
支持光學字符識別(OCR),能夠識別圖像中的文本內容。

模型能力

圖像描述
定位
指代
光學字符識別(OCR)
多模態對話

使用案例

圖像理解
圖像描述
輸入一張圖像,模型生成詳細的圖像描述。
生成包含圖像中對象和場景的詳細描述。
定位
輸入圖像和問題,模型識別圖像中的特定位置並提供邊界框信息。
生成包含對象位置信息的詳細描述。
文本識別
OCR
輸入包含文本的圖像,模型識別並提取圖像中的文本內容。
生成圖像中文本的識別結果及其位置信息。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase