vit - gpt2 - image - captioning開源圖像描述模型 - 免費將圖像轉換為自然語言描述

首頁

Vit Gpt2 Image Captioning

由Xenova開發

基於ViT和GPT2架構的圖像描述生成模型，可將輸入的圖像轉換為自然語言描述。

圖像生成文本

Transformers

#網頁端圖像描述生成 #ONNX格式適配 #視覺-語言多模態

下載量 2,163

發布時間 : 5/2/2023

模型概述

該模型結合了視覺Transformer(ViT)和GPT2語言模型，能夠自動為輸入圖像生成簡潔準確的文字描述。適用於需要圖像理解與文本生成結合的應用場景。

模型特點

視覺-語言聯合建模

結合視覺Transformer和GPT2語言模型，實現圖像到文本的端到端生成

ONNX格式支持

提供適配Transformers.js的ONNX權重版本，便於網頁端部署

輕量級部署

模型經過優化，適合在Web環境中運行

模型能力

圖像理解

自然語言生成

圖像到文本轉換

使用案例

無障礙技術

圖像輔助描述

為視障用戶自動生成圖像的文字描述

提升視障用戶對圖像內容的理解

內容管理

自動圖像標註

為大量圖像自動生成描述性標籤

提高圖像檢索和管理效率

屬性	詳情
基礎模型	nlpconnect/vit - gpt2 - image - captioning
庫名稱	transformers.js
任務類型	圖像到文本
標籤	圖像描述

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Vit Gpt2 Image Captioning

模型概述

模型特點

模型能力

使用案例

🚀 圖像到文本模型

🚀 快速開始

📚 詳細文檔

模型信息

注意事項