Cultureclip
基於CLIP-ViT-B/32微調的視覺語言模型,適用於圖像-文本匹配任務
文本生成圖像
Transformers

C
lukahh
20
0
Hermesflow
Apache-2.0
赫爾墨斯流是一個通用的多模態大語言模型對齊框架,能夠自主生成同源偏好數據,並通過自我博弈迭代優化與配對DPO技術,無縫彌合多模態理解與生成的鴻溝。
圖像生成文本
H
Gen-Verse
218
4
Resnet50x64 Clip Gap.openai
Apache-2.0
基於ResNet50架構的CLIP模型圖像編碼器,具有64倍寬度擴展,使用全局平均池化(GAP)策略
圖像分類
Transformers

R
timm
107
0
Resnet50x16 Clip Gap.openai
Apache-2.0
基於CLIP框架的ResNet50x16變體模型,專注於圖像特徵提取
圖像分類
Transformers

R
timm
129
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基於CLIP架構的ViT-Huge圖像編碼器,由蘋果公司發佈的DFN5B-CLIP模型,適用於視覺特徵提取任務。
圖像分類
Transformers

V
timm
128
0
Vit So400m Patch14 Siglip 224.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
圖像分類
Transformers

V
timm
123
1
AA Chameleon 7b Plus
這是一個強大的文本-圖像交錯輸入輸出模型,通過對齊萬物算法進行了深度對齊,提升了圖像生成能力和人類偏好對齊能力。
文本生成圖像
Transformers 英語

A
PKU-Alignment
34
5
Hpt Base
HPT是一種將不同實體對齊到共享潛在空間的變換器模型,專注於策略學習中的擴展行為研究。
多模態對齊
Transformers

H
liruiw
70
10
Owlvit Tiny Non Contiguous Weight
MIT
OWL-ViT 是一個基於視覺Transformer的開放詞彙目標檢測模型,能夠檢測圖像中未在訓練集中出現的類別。
文本生成圖像
Transformers

O
fxmarty
337
0
Languagebind Video Huge V1.5 FT
MIT
LanguageBind 是一種通過語言實現多模態語義對齊的預訓練模型,能夠將視頻、音頻、深度、熱成像等多種模態與語言進行綁定,實現跨模態的理解和檢索。
多模態對齊
Transformers

L
LanguageBind
2,711
4
Languagebind Audio FT
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態間的紐帶實現語義對齊。
多模態對齊
Transformers

L
LanguageBind
12.59k
1
Languagebind Video FT
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現視頻、紅外、深度、音頻等多種模態的語義對齊。
多模態對齊
Transformers

L
LanguageBind
22.97k
4
Languagebind Video Merge
MIT
LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型,獲得了ICLR 2024的接收。
多模態對齊
Transformers

L
LanguageBind
10.96k
4
Languagebind Image
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現語義對齊。
多模態對齊
Transformers

L
LanguageBind
25.71k
11
Languagebind Depth
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現視頻、紅外、深度、音頻等多種模態的語義對齊。
多模態對齊
Transformers

L
LanguageBind
898
0
Languagebind Video
MIT
LanguageBind是一種通過語言語義對齊將視頻-語言預訓練擴展至N模態的多模態預訓練框架,被ICLR 2024收錄。
多模態對齊
Transformers

L
LanguageBind
166
2
Languagebind Audio
MIT
LanguageBind 是一種以語言為中心的多模態預訓練方法,通過語言語義對齊將視頻-語言預訓練擴展至N模態,實現了高性能的多模態理解與對齊。
多模態對齊
Transformers

L
LanguageBind
271
3
Languagebind Thermal
MIT
LanguageBind是一個通過語言作為紐帶實現多模態語義對齊的預訓練框架,支持視頻、紅外、深度、音頻等多種模態與語言的聯合學習。
多模態對齊
Transformers

L
LanguageBind
887
1
Tinysapbert From TinyPubMedBERT V1.0
TinySapBERT是一個基於SapBERT框架訓練的微型生物醫學實體表示模型,專為生物醫學命名實體識別任務設計。
大型語言模型
Transformers

T
dmis-lab
16.93k
0
Distilbert Base Turkish Cased Clip
基於dbmdz/distilbert-base-turkish-cased微調的土耳其語文本編碼器,用於與CLIP的ViT-B/32圖像編碼器配合使用
文本生成圖像
Transformers

D
mys
2,354
1
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98