多模態融合

# 多模態融合

Wan2.1 T2V 14B FusionX GGUF

這是一個文本到視頻的量化模型，將基礎模型轉換為GGUF格式，可在ComfyUI中使用，為文本到視頻生成提供更多選擇。

文本生成視頻英語

Wan2.1 14B T2V FusionX FP8 GGUF

這是一個基於vrgamedevgirl84/Wan14BT2VFusionX模型的GGUF轉換版本，主要用於文本到視頻生成任務。

文本生成視頻

Videollama2.1 7B AV CoT

VideoLLaMA2.1-7B-AV是一款多模態大語言模型，專注於視聽問答任務，能夠同時處理視頻和音頻輸入，提供高質量的問答和描述生成能力。

視頻生成文本

Transformers 英語

Hunyuanvideo I2V

混元視頻-I2V是一個全新的圖像轉視頻生成框架，基於騰訊混元視頻模型擴展，支持從靜態圖像生成高質量視頻內容。

Vit Bart Image Captioner

基於BART-Large和ViT的視覺語言模型，用於生成圖像的英文描述文本。

圖像生成文本

Safetensors 英語

SD3.5 Large IP Adapter

這是一個基於SD3.5-Large模型的IP適配器，能夠將圖像作為輸入條件，與文本提示共同生成新圖像。

文本生成圖像英語

Sdxl.ip Adapter

IP-Adapter是一種用於文本到圖像擴散模型的圖像提示適配器，能夠將圖像提示與文本提示結合使用，增強生成圖像的相關性和質量。

文本生成圖像其他

AA Chameleon 7b Base

支持圖文交錯輸入輸出的多模態模型，基於變色龍7B模型並通過對齊萬物框架增強圖像生成能力

文本生成圖像

Transformers 英語

LinFusion 是一個基於擴散模型的文本生成圖像模型，能夠根據輸入的文本描述生成高質量的圖像。

文本生成圖像

基於MuAViC數據集的多語言視聽語音識別模型，結合音頻和視覺模態實現魯棒性能

音頻生成文本

Chattime 1 7B Base

ChatTime是一個創新的多模態時間序列基礎模型，將時間序列建模為外語，統一處理時間序列與文本的雙模態輸入/輸出。

多模態融合

ConsistentID是一個多模態細粒度身份保持的肖像生成模型，能夠生成具有極高身份保真度的肖像，同時不犧牲多樣性和文本可控性。

文本生成圖像其他

Music Generation Model

這是一個通過合併文本生成模型和音樂生成模型創建的混合模型，能夠處理文本生成和音樂生成任務。

文本生成音頻

Instructblip Flan T5 Xxl 8bit

BLIP-2是基於Flan T5-xxl的視覺-語言模型，通過凍結圖像編碼器與大型語言模型進行預訓練，支持圖像描述生成、視覺問答等任務。

圖像生成文本

Transformers 英語

Mediocreatmybest

YOLO LLaMa 7B VisNav

本項目整合了YOLO目標檢測模型與LLaMa 2 7b大語言模型，旨在為視障人士的日常出行提供輔助導航支持。

多模態融合

Timesformer Bert Video Captioning

基於Timesformer和BERT架構的視頻字幕生成模型，能夠為視頻內容生成描述性字幕。

視頻生成文本

Blip2 Flan T5 Xxl

BLIP-2是一種視覺語言模型，結合了圖像編碼器和大型語言模型，用於圖像到文本的任務。

圖像生成文本

Transformers 英語

LanguageMachines

Fusecap Image Captioning

FuseCap是一個專為生成語義豐富圖像描述而設計的框架，利用大型語言模型生成融合圖像描述。

圖像生成文本

Raos Virtual Try On Model

基於穩定擴散框架構建的虛擬試穿系統，融合DreamBooth訓練、EfficientNetB3特徵提取和OpenPose姿態檢測技術

BBS-Net是一種用於RGB-D顯著目標檢測的深度學習模型，採用分叉骨幹策略網絡結構，能夠有效處理RGB和深度圖像數據。

Blip2 Opt 2.7b Coco

BLIP-2是一個視覺-語言預訓練模型，通過凍結圖像編碼器和大型語言模型來引導語言-圖像預訓練。

圖像生成文本

Transformers 英語

Blip2 Flan T5 Xxl

BLIP-2是一種視覺語言模型，結合了圖像編碼器和大型語言模型Flan T5-xxl，用於圖像到文本任務。

圖像生成文本

Transformers 英語

BLIP-2是基於OPT-6.7b的視覺語言模型，通過凍結圖像編碼器和大型語言模型進行預訓練，支持圖像到文本生成和視覺問答等任務。

圖像生成文本

Transformers 英語

Blip2 Flan T5 Xl

BLIP-2是基於Flan T5-xl的視覺語言模型，通過凍結圖像編碼器和大型語言模型進行預訓練，支持圖像描述生成和視覺問答等任務。

圖像生成文本

Transformers 英語

基於穩定擴散的文本到圖像生成模型，支持創意圖像生成

圖像生成英語

Lilt Infoxlm Base

LiLT-InfoXLM 是一種語言無關的佈局變換器模型，通過將預訓練的InfoXLM與語言無關佈局變換器（LiLT）結合而成，適用於結構化文檔理解任務。

多模態融合

Wav2vec2 2 Bart Large

該模型是基於wav2vec2-large-lv60和bart-large在librispeech_asr - clean數據集上微調的自動語音識別(ASR)模型

patrickvonplaten

Macbert Ngram Miao

一個基於Transformer架構的大語言模型，支持多種自然語言處理任務

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase