# 大语言模型集成

Granite Speech 3.3 2b
Apache-2.0
Granite-speech-3.3-2b是IBM开发的紧凑高效语音语言模型,专为自动语音识别(ASR)和自动语音翻译(AST)设计,采用双通设计提高模块化和安全性。
语音识别 Transformers 英语
G
ibm-granite
4,363
7
VARGPT LLaVA V1
Apache-2.0
VARGPT是一个统一的多模态模型,结合了视觉理解和生成能力,通过预测下一标记实现理解,预测下一尺度实现生成。
文本生成图像 Transformers 英语
V
VARGPT-family
4,291
5
Videorefer 7B
Apache-2.0
VideoRefer-7B是一个多模态大语言模型,专注于视频问答任务,能够理解和分析视频中的时空物体关系。
文本生成视频 Transformers 英语
V
DAMO-NLP-SG
87
4
Pixtral 12b
Pixtral-12B 是一个与 transformers 库兼容的多模态模型,能够处理图像和文本输入并生成文本输出,适用于图像理解和描述任务。
图像生成文本 Transformers
P
mgoin
1,943
1
Videollama2 8x7B Base
Apache-2.0
VideoLLaMA 2是新一代视频大语言模型,专注于提升时空建模能力和音频理解能力,支持多模态视频问答和描述任务。
文本生成视频 Transformers 英语
V
DAMO-NLP-SG
20
2
Heron Preliminary Git Llama 2 70b V0
一个通过图像-文本对进行预训练的视觉语言模型,基于Llama-2 70B架构,适用于图像描述生成任务。
图像生成文本 Transformers 日语
H
turing-motors
14
1
Idefics 80b
其他
IDEFICS-9B是一个90亿参数的多模态模型,能够处理图像和文本输入并生成文本输出,是Deepmind Flamingo模型的开源复现版本。
图像生成文本 Transformers 英语
I
HuggingFaceM4
70
70
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase