Granite Speech 3.3 2b
Apache-2.0
Granite-speech-3.3-2b是IBM開發的緊湊高效語音語言模型,專為自動語音識別(ASR)和自動語音翻譯(AST)設計,採用雙通設計提高模塊化和安全性。
語音識別
Transformers 英語

G
ibm-granite
4,363
7
VARGPT LLaVA V1
Apache-2.0
VARGPT是一個統一的多模態模型,結合了視覺理解和生成能力,通過預測下一標記實現理解,預測下一尺度實現生成。
文本生成圖像
Transformers 英語

V
VARGPT-family
4,291
5
Videorefer 7B
Apache-2.0
VideoRefer-7B是一個多模態大語言模型,專注於視頻問答任務,能夠理解和分析視頻中的時空物體關係。
文本生成視頻
Transformers 英語

V
DAMO-NLP-SG
87
4
Pixtral 12b
Pixtral-12B 是一個與 transformers 庫兼容的多模態模型,能夠處理圖像和文本輸入並生成文本輸出,適用於圖像理解和描述任務。
圖像生成文本
Transformers

P
mgoin
1,943
1
Videollama2 8x7B Base
Apache-2.0
VideoLLaMA 2是新一代視頻大語言模型,專注於提升時空建模能力和音頻理解能力,支持多模態視頻問答和描述任務。
文本生成視頻
Transformers 英語

V
DAMO-NLP-SG
20
2
Heron Preliminary Git Llama 2 70b V0
一個通過圖像-文本對進行預訓練的視覺語言模型,基於Llama-2 70B架構,適用於圖像描述生成任務。
圖像生成文本
Transformers 日語

H
turing-motors
14
1
Idefics 80b
其他
IDEFICS-9B是一個90億參數的多模態模型,能夠處理圖像和文本輸入並生成文本輸出,是Deepmind Flamingo模型的開源復現版本。
圖像生成文本
Transformers 英語

I
HuggingFaceM4
70
70
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98