FuseCap開源圖像描述框架 - 免費用大模型生成語義豐富的圖像描述

首頁

Fusecap Image Captioning

由noamrot開發

FuseCap是一個專為生成語義豐富圖像描述而設計的框架，利用大型語言模型生成融合圖像描述。

圖像生成文本

Transformers

開源協議:MIT #圖像描述生成 #語義豐富描述 #LLM增強

下載量 2,771

發布時間 : 5/31/2023

模型概述

FuseCap是一個圖像轉文本模型，旨在生成語義豐富的圖像描述。它通過融合大型語言模型的能力，提供更詳細和準確的圖像描述。

模型特點

語義豐富的圖像描述

利用大型語言模型生成更詳細和準確的圖像描述。

融合描述

通過融合多種描述來源，生成更全面的圖像描述。

基於BLIP架構

使用BLIP架構進行訓練和推理，確保模型的高效性和準確性。

模型能力

圖像描述生成

語義豐富的文本輸出

多模態融合

使用案例

圖像理解

自動圖像標註

為圖像生成詳細的描述，用於自動標註和分類。

生成語義豐富的描述，提升標註質量。

輔助視覺障礙人士

為視覺障礙人士提供詳細的圖像描述，幫助他們理解圖像內容。

提供更準確和詳細的圖像描述，提升用戶體驗。

🚀 FuseCap：利用大語言模型生成豐富的融合圖像描述

FuseCap 是一個旨在生成語義豐富的圖像描述的框架，能夠為圖像提供更精準、豐富的文本描述。

🚀 快速開始

我們基於 BLIP 的模型可以使用以下代碼運行：

import requests
from PIL import Image
from transformers import BlipProcessor, BlipForConditionalGeneration
import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
processor = BlipProcessor.from_pretrained("noamrot/FuseCap")
model = BlipForConditionalGeneration.from_pretrained("noamrot/FuseCap").to(device)

img_url = 'https://huggingface.co/spaces/noamrot/FuseCap/resolve/main/bike.jpg' 
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

text = "a picture of "
inputs = processor(raw_image, text, return_tensors="pt").to(device)

out = model.generate(**inputs, num_beams = 3)
print(processor.decode(out[0], skip_special_tokens=True))

✨ 主要特性

FuseCap 框架專為生成語義豐富的圖像描述而設計，能夠藉助大語言模型的能力，為圖像生成更具深度和豐富度的描述信息。

📚 詳細文檔

資源鏈接

💻 項目頁面：如需更多詳情，請訪問官方項目頁面。
📝 閱讀論文：你可以在這裡找到相關論文。
🚀 演示體驗：可以嘗試我們基於 BLIP 並使用 FuseCap 訓練的模型演示。
📂 代碼倉庫：FuseCap 的代碼可以在 GitHub 倉庫中找到。
🗃️ 數據集：融合描述數據集可以從這裡獲取。

即將更新內容

該項目的官方代碼庫、數據集和訓練好的模型即將發佈。

BibTeX 引用

@inproceedings{rotstein2024fusecap,
  title={Fusecap: Leveraging large language models for enriched fused image captions},
  author={Rotstein, Noam and Bensa{\"\i}d, David and Brody, Shaked and Ganz, Roy and Kimmel, Ron},
  booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision},
  pages={5689--5700},
  year={2024}
}