A

Align Base

由kakaobrain開發
ALIGN是一個視覺-語言雙編碼器模型,通過對比學習實現圖像與文本表徵的對齊,利用大規模噪聲數據實現先進的跨模態表徵效果。
下載量 78.28k
發布時間 : 2/24/2023

模型概述

ALIGN採用EfficientNet作為視覺編碼器,BERT作為文本編碼器,通過對比學習在COYO-700M數據集上訓練,支持零樣本圖像分類和多模態嵌入檢索。

模型特點

噪聲數據訓練
利用海量噪聲圖文對數據(COYO-700M),證明簡單方法結合大規模數據可實現最先進的表徵效果
雙編碼器架構
視覺與文本分支獨立編碼,通過對比損失實現模態對齊,兼顧效率與靈活性
豐富元數據支持
基於COYO數據集訓練,提供美學評分、水印檢測、人臉計數等元數據,增強下游應用控制能力

模型能力

零樣本圖像分類
圖文相似度計算
跨模態嵌入檢索
多模態表徵學習

使用案例

圖像理解
零樣本圖像分類
無需微調即可對任意類別圖像進行分類
在標準基準測試中達到與專用分類模型相當的性能
跨模態檢索
圖文匹配
檢索與文本描述最相關的圖像,或為圖像生成匹配文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase