# 多任務統一框架

Q Sit Mini
MIT
Q-SiT是一款基於大語言模型的圖像質量評分與解析系統,能夠同步執行圖像質量評估和解析任務。
圖像生成文本 Transformers
Q
zhangzicheng
371
0
Inspiremusic 1.5B
Apache-2.0
InspireMusic是一個專注於音樂生成、歌曲生成和音頻生成的統一框架,支持高音質和長篇幅音樂生成。
音頻生成 英語
I
FunAudioLLM
31
6
Lotus Depth D V1 0
Apache-2.0
Lotus是一個基於擴散模型的視覺基礎模型,專注於高質量的密集預測任務。
3D視覺
L
jingheya
135
4
Yayi Uie
Apache-2.0
雅意IE大模型是基於百萬級人工標註的高質量信息抽取數據進行指令微調的統一大模型,支持通用領域及多個垂直領域的信息抽取任務。
大型語言模型 Transformers
Y
wenge-research
108
27
Blip Image Captioning Base Football Finetuned
Bsd-3-clause
基於COCO預訓練並在足球數據集微調的視覺-語言模型,擅長生成圖像描述
圖像生成文本 Transformers
B
ybelkada
71
2
Mask2former Swin Large Mapillary Vistas Panoptic
其他
基於Swin骨幹網絡的Mask2Former大尺寸版本,專為全景分割任務設計,在Mapillary Vistas數據集上訓練
圖像分割 Transformers
M
facebook
2,750
2
Mask2former Swin Large Mapillary Vistas Semantic
其他
基於Swin骨幹網絡的大規模Mask2Former模型,專為通用圖像分割任務設計,統一處理實例分割、語義分割和全景分割。
圖像分割 Transformers
M
facebook
5,539
3
Mask2former Swin Small Cityscapes Panoptic
其他
基於Swin骨幹網絡的小型Mask2Former模型,專為Cityscapes數據集的全景分割任務優化
圖像分割 Transformers
M
facebook
568
0
Mask2former Swin Small Coco Panoptic
其他
基於Swin骨幹網絡的Mask2Former小規模版本,專為COCO數據集全景分割任務優化
圖像分割 Transformers
M
facebook
240
1
Mask2former Swin Large Coco Panoptic
其他
基於Swin骨幹網絡的Mask2Former大型版本,專為COCO數據集全景分割任務訓練的統一圖像分割模型
圖像分割 Transformers
M
facebook
37.67k
30
Ul2
Apache-2.0
UL2是一個統一的預訓練模型框架,採用混合去噪器(MoD)作為預訓練目標,結合多種預訓練範式,在各種數據集和設置中表現普遍有效。
大型語言模型 Transformers 英語
U
google
463
177
T5 Large
Apache-2.0
T5-Large是Google開發的文本到文本轉換Transformer模型,具有7.7億參數,支持多種NLP任務。
大型語言模型 支持多種語言
T
google-t5
422.02k
204
T5 3b
Apache-2.0
T5-3B是由Google開發的30億參數文本到文本轉換Transformer模型,採用統一的文本到文本框架處理多種NLP任務。
大型語言模型 Transformers 支持多種語言
T
google-t5
340.75k
46
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
Ke T5 Base
Apache-2.0
KE-T5是基於T5架構的文本到文本轉換模型,由韓國電子技術研究院開發,支持多種NLP任務。
大型語言模型 支持多種語言
K
KETI-AIR
3,197
22
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase