大语言模型集成

# 大语言模型集成

Granite Speech 3.3 2b

Granite-speech-3.3-2b是IBM开发的紧凑高效语音语言模型，专为自动语音识别（ASR）和自动语音翻译（AST）设计，采用双通设计提高模块化和安全性。

Transformers 英语

VARGPT LLaVA V1

VARGPT是一个统一的多模态模型，结合了视觉理解和生成能力，通过预测下一标记实现理解，预测下一尺度实现生成。

文本生成图像

Transformers 英语

VideoRefer-7B是一个多模态大语言模型，专注于视频问答任务，能够理解和分析视频中的时空物体关系。

文本生成视频

Transformers 英语

Pixtral-12B 是一个与 transformers 库兼容的多模态模型，能够处理图像和文本输入并生成文本输出，适用于图像理解和描述任务。

图像生成文本

Videollama2 8x7B Base

VideoLLaMA 2是新一代视频大语言模型，专注于提升时空建模能力和音频理解能力，支持多模态视频问答和描述任务。

文本生成视频

Transformers 英语

Heron Preliminary Git Llama 2 70b V0

一个通过图像-文本对进行预训练的视觉语言模型，基于Llama-2 70B架构，适用于图像描述生成任务。

图像生成文本

Transformers 日语

IDEFICS-9B是一个90亿参数的多模态模型，能够处理图像和文本输入并生成文本输出，是Deepmind Flamingo模型的开源复现版本。

图像生成文本

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase