🚀 BRAHMAI-CLIP-v0.1
BRAHMAI-CLIP-v0.1 是一款用於零樣本圖像分類的模型,採用 ViT-L/14 Transformer 架構作為圖像編碼器,掩碼自注意力 Transformer 作為文本編碼器,通過對比損失進行訓練,可助力研究者開展相關學術研究。
🚀 快速開始
環境準備
確保你已經安裝了必要的庫,可以使用以下命令進行安裝:
pip install pillow requests transformers
代碼示例
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model_id = "brahmairesearch/brahmai-clip-v0.1"
model = CLIPModel.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)
image_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)
descriptions = ["a cat's photograph", "a dog's photograph"]
inputs = processor(text=descriptions, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
print(probs)
✨ 主要特性
- 架構先進:圖像編碼器採用 ViT-L/14 Transformer 架構,文本編碼器採用掩碼自注意力 Transformer 架構。
- 對比訓練:通過對比損失進行訓練,最大化圖像和文本對之間的相似度。
- 研究導向:專為學術和研究社區設計,有助於研究零樣本、任意圖像分類及跨學科研究。
📦 安裝指南
使用以下命令安裝所需的依賴庫:
pip install pillow requests transformers
💻 使用示例
基礎用法
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model_id = "brahmairesearch/brahmai-clip-v0.1"
model = CLIPModel.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)
image_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)
descriptions = ["a cat's photograph", "a dog's photograph"]
inputs = processor(text=descriptions, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
print(probs)
📚 詳細文檔
模型使用
預期用途
該模型旨在作為學術和研究社區的研究工具,幫助研究人員深入研究零樣本、任意圖像分類,並探索此類模型的潛在影響的跨學科研究。CLIP 論文通過討論潛在的下游影響提供了這些分析的示例。
主要預期用戶:
我們期望研究人員使用此模型來深入瞭解計算機視覺模型的魯棒性、泛化能力、性能、偏差和侷限性。
非預期使用場景
- 部署使用場景:目前,模型的任何部署(無論是商業部署還是非商業部署)都不在預期範圍內。非部署使用,如在受控環境中的圖像搜索,也不建議,除非已經使用特定的、固定的類別分類法進行了徹底的領域內測試。由於 CLIP 在不同類別分類法下的性能差異,如我們的安全評估中所強調的,因此需要謹慎使用。
- 監控和人臉識別:涉及監控和人臉識別的使用場景始終不在預期範圍內。鑑於目前缺乏測試規範和公平性檢查,在這些領域過早應用 AI 可能會造成潛在危害。
- 非英語語言:該模型尚未針對英語以外的語言進行專門訓練或評估。因此,其使用應限於英語應用。
侷限性
CLIP 及其分析存在一些侷限性。該模型目前在細粒度分類和對象計數等任務上存在困難。此外,CLIP 在公平性和偏差方面引發了擔憂,我們在論文中進行了討論,並在下一節中簡要提及。我們測試方法的一個重要侷限性是使用線性探針來評估 CLIP 的性能,因為有證據表明線性探針可能會低估模型性能。
偏差和公平性
CLIP 的性能和特定偏差可能會根據類別設計以及包含或排除類別的選擇而有很大差異。我們通過將 Fairface 數據集中的人物圖像分類為與犯罪相關和非人類動物類別,評估了某些類型詆譭的風險。在種族和性別方面發現了顯著差異,這些差異可能會根據類別構建而發生變化。這些發現的詳細信息記錄在論文的更廣泛影響部分。
我們還使用 Fairface 數據集評估了 CLIP 在性別、種族和年齡分類方面的性能。對於性別分類,我們發現所有種族的準確率均高於 96%,其中“中東人”的準確率最高(98.4%),“白人”的準確率最低(96.5%)。對於種族分類,CLIP 的平均準確率約為 93%,對於年齡分類,平均準確率約為 63%。我們對性別、種族和年齡分類以及詆譭危害的評估旨在評估模型在不同人群中的性能,並突出潛在風險,而不是認可或推廣此類任務。
📄 許可證
本項目採用 MIT 許可證。