Cosmos Predict2 2B Video2World
其他
Cosmos-Predict2是一套高性能的預訓練世界基礎模型,專為物理AI開發而設計,可生成具有物理感知的圖像、視頻和世界狀態。
文本生成視頻
C
nvidia
314
8
Cosmos Predict2 14B Text2Image
其他
Cosmos-Predict2是一系列高性能的預訓練世界基礎模型,專為物理AI開發生成具備物理感知的圖像、視頻和世界狀態而設計。
文本生成圖像
C
nvidia
312
15
Cosmos Predict2 2B Text2Image
其他
Cosmos-Predict2是一系列高性能的預訓練世界基礎模型,專為生成具備物理感知的圖像、視頻和世界狀態而設計,可用於物理AI的開發。
文本生成圖像
C
nvidia
473
19
Cosmos 1.0 Diffusion 7B Text2World
其他
NVIDIA開發的基於擴散架構的多模態世界基礎模型,能夠根據文本輸入生成高質量物理感知視頻
文本生成視頻
C
nvidia
5,011
220
Cogact Small
MIT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
多模態融合
Transformers 英語

C
CogACT
405
4
Cogact Large
MIT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
多模態融合
Transformers 英語

C
CogACT
122
3
Rdt 1b Test
MIT
基於robotics-diffusion-transformer/rdt-1b衍生的RDT模型,專注於機器人技術領域。
文本生成圖像
Transformers 英語

R
Ethan-pooh
0
0
Gligen Inpainting Text Image
Openrail
GLIGEN是一種基於擴散的接地文本到圖像生成模型,能夠根據文本提示、邊界框和參考圖像生成逼真圖像。
文本生成圖像
G
anhnct
108
1
Ldm3d 4c
Openrail
LDM3D是一個能從文本提示生成圖像和深度圖數據的潛在擴散模型,支持3D內容創作
文本生成圖像 英語
L
Intel
1,086
39
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98