多任務統一框架

# 多任務統一框架

Q-SiT是一款基於大語言模型的圖像質量評分與解析系統，能夠同步執行圖像質量評估和解析任務。

圖像生成文本

Inspiremusic 1.5B

InspireMusic是一個專注於音樂生成、歌曲生成和音頻生成的統一框架，支持高音質和長篇幅音樂生成。

音頻生成英語

Lotus Depth D V1 0

Lotus是一個基於擴散模型的視覺基礎模型，專注於高質量的密集預測任務。

雅意IE大模型是基於百萬級人工標註的高質量信息抽取數據進行指令微調的統一大模型，支持通用領域及多個垂直領域的信息抽取任務。

大型語言模型

Blip Image Captioning Base Football Finetuned

基於COCO預訓練並在足球數據集微調的視覺-語言模型，擅長生成圖像描述

圖像生成文本

Mask2former Swin Large Mapillary Vistas Panoptic

基於Swin骨幹網絡的Mask2Former大尺寸版本，專為全景分割任務設計，在Mapillary Vistas數據集上訓練

Mask2former Swin Large Mapillary Vistas Semantic

基於Swin骨幹網絡的大規模Mask2Former模型，專為通用圖像分割任務設計，統一處理實例分割、語義分割和全景分割。

Mask2former Swin Small Cityscapes Panoptic

基於Swin骨幹網絡的小型Mask2Former模型，專為Cityscapes數據集的全景分割任務優化

Mask2former Swin Small Coco Panoptic

基於Swin骨幹網絡的Mask2Former小規模版本，專為COCO數據集全景分割任務優化

Mask2former Swin Large Coco Panoptic

基於Swin骨幹網絡的Mask2Former大型版本，專為COCO數據集全景分割任務訓練的統一圖像分割模型

UL2是一個統一的預訓練模型框架，採用混合去噪器（MoD）作為預訓練目標，結合多種預訓練範式，在各種數據集和設置中表現普遍有效。

大型語言模型

Transformers 英語

T5-Large是Google開發的文本到文本轉換Transformer模型，具有7.7億參數，支持多種NLP任務。

大型語言模型支持多種語言

T5-3B是由Google開發的30億參數文本到文本轉換Transformer模型，採用統一的文本到文本框架處理多種NLP任務。

大型語言模型

Transformers 支持多種語言

T5基礎版是由Google開發的文本到文本轉換Transformer模型，參數規模2.2億，支持多語言NLP任務。

大型語言模型支持多種語言

KE-T5是基於T5架構的文本到文本轉換模型，由韓國電子技術研究院開發，支持多種NLP任務。

大型語言模型支持多種語言

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase