Granite Speech 3.3 2b
Apache-2.0
Granite-speech-3.3-2b是IBM开发的紧凑高效语音语言模型,专为自动语音识别(ASR)和自动语音翻译(AST)设计,采用双通设计提高模块化和安全性。
语音识别
Transformers 英语

G
ibm-granite
4,363
7
VARGPT LLaVA V1
Apache-2.0
VARGPT是一个统一的多模态模型,结合了视觉理解和生成能力,通过预测下一标记实现理解,预测下一尺度实现生成。
文本生成图像
Transformers 英语

V
VARGPT-family
4,291
5
Videorefer 7B
Apache-2.0
VideoRefer-7B是一个多模态大语言模型,专注于视频问答任务,能够理解和分析视频中的时空物体关系。
文本生成视频
Transformers 英语

V
DAMO-NLP-SG
87
4
Pixtral 12b
Pixtral-12B 是一个与 transformers 库兼容的多模态模型,能够处理图像和文本输入并生成文本输出,适用于图像理解和描述任务。
图像生成文本
Transformers

P
mgoin
1,943
1
Videollama2 8x7B Base
Apache-2.0
VideoLLaMA 2是新一代视频大语言模型,专注于提升时空建模能力和音频理解能力,支持多模态视频问答和描述任务。
文本生成视频
Transformers 英语

V
DAMO-NLP-SG
20
2
Heron Preliminary Git Llama 2 70b V0
一个通过图像-文本对进行预训练的视觉语言模型,基于Llama-2 70B架构,适用于图像描述生成任务。
图像生成文本
Transformers 日语

H
turing-motors
14
1
Idefics 80b
其他
IDEFICS-9B是一个90亿参数的多模态模型,能够处理图像和文本输入并生成文本输出,是Deepmind Flamingo模型的开源复现版本。
图像生成文本
Transformers 英语

I
HuggingFaceM4
70
70
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98