Wan2.1 T2V 14B FusionX GGUF
Apache-2.0
這是一個文本到視頻的量化模型,將基礎模型轉換為GGUF格式,可在ComfyUI中使用,為文本到視頻生成提供更多選擇。
文本生成視頻 英語
W
QuantStack
563
2
Wan2.1 14B T2V FusionX FP8 GGUF
Apache-2.0
這是一個基於vrgamedevgirl84/Wan14BT2VFusionX模型的GGUF轉換版本,主要用於文本到視頻生成任務。
文本生成視頻
W
lym00
490
4
Videollama2.1 7B AV CoT
Apache-2.0
VideoLLaMA2.1-7B-AV是一款多模態大語言模型,專注於視聽問答任務,能夠同時處理視頻和音頻輸入,提供高質量的問答和描述生成能力。
視頻生成文本
Transformers 英語

V
lym0302
34
0
Hunyuanvideo I2V
其他
混元視頻-I2V是一個全新的圖像轉視頻生成框架,基於騰訊混元視頻模型擴展,支持從靜態圖像生成高質量視頻內容。
H
tencent
3,272
305
Vit Bart Image Captioner
Apache-2.0
基於BART-Large和ViT的視覺語言模型,用於生成圖像的英文描述文本。
圖像生成文本
Safetensors 英語
V
SrujanTopalle
15
1
SD3.5 Large IP Adapter
其他
這是一個基於SD3.5-Large模型的IP適配器,能夠將圖像作為輸入條件,與文本提示共同生成新圖像。
文本生成圖像 英語
S
InstantX
1,474
106
Sdxl.ip Adapter
Apache-2.0
IP-Adapter是一種用於文本到圖像擴散模型的圖像提示適配器,能夠將圖像提示與文本提示結合使用,增強生成圖像的相關性和質量。
文本生成圖像 其他
S
refiners
18
0
AA Chameleon 7b Base
支持圖文交錯輸入輸出的多模態模型,基於變色龍7B模型並通過對齊萬物框架增強圖像生成能力
文本生成圖像
Transformers 英語

A
PKU-Alignment
105
8
Linfusion XL
LinFusion 是一個基於擴散模型的文本生成圖像模型,能夠根據輸入的文本描述生成高質量的圖像。
文本生成圖像
L
Yuanshi
37
7
AV HuBERT
基於MuAViC數據集的多語言視聽語音識別模型,結合音頻和視覺模態實現魯棒性能
音頻生成文本
Transformers

A
nguyenvulebinh
683
3
Chattime 1 7B Base
Apache-2.0
ChatTime是一個創新的多模態時間序列基礎模型,將時間序列建模為外語,統一處理時間序列與文本的雙模態輸入/輸出。
多模態融合
Transformers

C
ChengsenWang
700
4
Consistentid
MIT
ConsistentID是一個多模態細粒度身份保持的肖像生成模型,能夠生成具有極高身份保真度的肖像,同時不犧牲多樣性和文本可控性。
文本生成圖像 其他
C
JackAILab
176
8
Music Generation Model
Apache-2.0
這是一個通過合併文本生成模型和音樂生成模型創建的混合模型,能夠處理文本生成和音樂生成任務。
文本生成音頻
Transformers

M
nagayama0706
27
1
Instructblip Flan T5 Xxl 8bit
MIT
BLIP-2是基於Flan T5-xxl的視覺-語言模型,通過凍結圖像編碼器與大型語言模型進行預訓練,支持圖像描述生成、視覺問答等任務。
圖像生成文本
Transformers 英語

I
Mediocreatmybest
18
1
YOLO LLaMa 7B VisNav
其他
本項目整合了YOLO目標檢測模型與LLaMa 2 7b大語言模型,旨在為視障人士的日常出行提供輔助導航支持。
多模態融合
Transformers

Y
LearnItAnyway
19
1
Timesformer Bert Video Captioning
基於Timesformer和BERT架構的視頻字幕生成模型,能夠為視頻內容生成描述性字幕。
視頻生成文本
Transformers

T
AlexZigma
83
3
Blip2 Flan T5 Xxl
MIT
BLIP-2是一種視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的任務。
圖像生成文本
Transformers 英語

B
LanguageMachines
22
1
Fusecap Image Captioning
MIT
FuseCap是一個專為生成語義豐富圖像描述而設計的框架,利用大型語言模型生成融合圖像描述。
圖像生成文本
Transformers

F
noamrot
2,771
22
Raos Virtual Try On Model
Openrail
基於穩定擴散框架構建的虛擬試穿系統,融合DreamBooth訓練、EfficientNetB3特徵提取和OpenPose姿態檢測技術
圖像生成
R
gouthaml
258
41
Bbsnet
MIT
BBS-Net是一種用於RGB-D顯著目標檢測的深度學習模型,採用分叉骨幹策略網絡結構,能夠有效處理RGB和深度圖像數據。
圖像分割
Transformers

B
RGBD-SOD
21
3
Blip2 Opt 2.7b Coco
MIT
BLIP-2是一個視覺-語言預訓練模型,通過凍結圖像編碼器和大型語言模型來引導語言-圖像預訓練。
圖像生成文本
Transformers 英語

B
Salesforce
3,900
9
Blip2 Flan T5 Xxl
MIT
BLIP-2是一種視覺語言模型,結合了圖像編碼器和大型語言模型Flan T5-xxl,用於圖像到文本任務。
圖像生成文本
Transformers 英語

B
Salesforce
6,419
88
Blip2 Opt 6.7b
MIT
BLIP-2是基於OPT-6.7b的視覺語言模型,通過凍結圖像編碼器和大型語言模型進行預訓練,支持圖像到文本生成和視覺問答等任務。
圖像生成文本
Transformers 英語

B
Salesforce
5,871
76
Blip2 Flan T5 Xl
MIT
BLIP-2是基於Flan T5-xl的視覺語言模型,通過凍結圖像編碼器和大型語言模型進行預訓練,支持圖像描述生成和視覺問答等任務。
圖像生成文本
Transformers 英語

B
Salesforce
91.77k
68
Wavyfusion
Openrail
基於穩定擴散的文本到圖像生成模型,支持創意圖像生成
圖像生成 英語
W
wavymulder
454
170
Lilt Infoxlm Base
MIT
LiLT-InfoXLM 是一種語言無關的佈局變換器模型,通過將預訓練的InfoXLM與語言無關佈局變換器(LiLT)結合而成,適用於結構化文檔理解任務。
多模態融合
Transformers

L
SCUT-DLVCLab
110
5
Wav2vec2 2 Bart Large
該模型是基於wav2vec2-large-lv60和bart-large在librispeech_asr - clean數據集上微調的自動語音識別(ASR)模型
語音識別
Transformers

W
patrickvonplaten
31
5
Macbert Ngram Miao
一個基於Transformer架構的大語言模型,支持多種自然語言處理任務
大型語言模型
M
miaomiaomiao
22
0
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98