多模態對齊

# 多模態對齊

基於CLIP-ViT-B/32微調的視覺語言模型，適用於圖像-文本匹配任務

文本生成圖像

赫爾墨斯流是一個通用的多模態大語言模型對齊框架，能夠自主生成同源偏好數據，並通過自我博弈迭代優化與配對DPO技術，無縫彌合多模態理解與生成的鴻溝。

圖像生成文本

Resnet50x64 Clip Gap.openai

基於ResNet50架構的CLIP模型圖像編碼器，具有64倍寬度擴展，使用全局平均池化(GAP)策略

Resnet50x16 Clip Gap.openai

基於CLIP框架的ResNet50x16變體模型，專注於圖像特徵提取

Vit Huge Patch14 Clip 224.dfn5b

基於CLIP架構的ViT-Huge圖像編碼器，由蘋果公司發佈的DFN5B-CLIP模型，適用於視覺特徵提取任務。

Vit So400m Patch14 Siglip 224.webli

基於SigLIP的視覺Transformer模型，僅包含圖像編碼器部分，採用原始注意力池化機制

AA Chameleon 7b Plus

這是一個強大的文本-圖像交錯輸入輸出模型，通過對齊萬物算法進行了深度對齊，提升了圖像生成能力和人類偏好對齊能力。

文本生成圖像

Transformers 英語

HPT是一種將不同實體對齊到共享潛在空間的變換器模型，專注於策略學習中的擴展行為研究。

多模態對齊

Owlvit Tiny Non Contiguous Weight

OWL-ViT 是一個基於視覺Transformer的開放詞彙目標檢測模型，能夠檢測圖像中未在訓練集中出現的類別。

文本生成圖像

Languagebind Video Huge V1.5 FT

LanguageBind 是一種通過語言實現多模態語義對齊的預訓練模型，能夠將視頻、音頻、深度、熱成像等多種模態與語言進行綁定，實現跨模態的理解和檢索。

多模態對齊

Languagebind Audio FT

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態間的紐帶實現語義對齊。

多模態對齊

Languagebind Video FT

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現視頻、紅外、深度、音頻等多種模態的語義對齊。

多模態對齊

Languagebind Video Merge

LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型，獲得了ICLR 2024的接收。

多模態對齊

Languagebind Image

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現語義對齊。

多模態對齊

Languagebind Depth

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現視頻、紅外、深度、音頻等多種模態的語義對齊。

多模態對齊

Languagebind Video

LanguageBind是一種通過語言語義對齊將視頻-語言預訓練擴展至N模態的多模態預訓練框架，被ICLR 2024收錄。

多模態對齊

Languagebind Audio

LanguageBind 是一種以語言為中心的多模態預訓練方法，通過語言語義對齊將視頻-語言預訓練擴展至N模態，實現了高性能的多模態理解與對齊。

多模態對齊

Languagebind Thermal

LanguageBind是一個通過語言作為紐帶實現多模態語義對齊的預訓練框架，支持視頻、紅外、深度、音頻等多種模態與語言的聯合學習。

多模態對齊

Tinysapbert From TinyPubMedBERT V1.0

TinySapBERT是一個基於SapBERT框架訓練的微型生物醫學實體表示模型，專為生物醫學命名實體識別任務設計。

大型語言模型

Distilbert Base Turkish Cased Clip

基於dbmdz/distilbert-base-turkish-cased微調的土耳其語文本編碼器，用於與CLIP的ViT-B/32圖像編碼器配合使用

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase