Model Selection

大语言模型驱动

# 大语言模型驱动

Cosyvoice2 0.5B GGUF

CosyVoice2 是一个专注于文本转语音功能的模型，基于 FunAudioLLM 开发，参数规模为 0.5B。

Spark-TTS 是一个先进的文本转语音系统，利用大语言模型（LLM）的强大能力，实现高准确度和自然流畅的语音合成。

Vi SparkTTS 0.5B

Spark-TTS 是一款先进的文本转语音系统，利用大语言模型（LLM）的强大能力实现高精度且自然流畅的语音合成。

DragonLineageAI

Q-SiT是一款基于大语言模型的图像质量评分与解析系统，能够同步执行图像质量评估和解析任务。

图像生成文本

Videollama2 72B

VideoLLaMA 2是一个多模态大语言模型，专注于视频理解和时空建模，支持视频和图像输入，能够进行视觉问答和对话任务。

文本生成视频

Transformers English

Videollama2 8x7B

VideoLLaMA 2是一个多模态大语言模型，专注于视频理解和音频处理，能够处理视频和图像输入并生成自然语言响应。

文本生成视频

Transformers English

Blip2 Opt 6.7b Coco

BLIP-2是一种视觉语言模型，结合了图像编码器和大型语言模型，用于图像到文本生成和视觉问答任务。

图像生成文本

Transformers English

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers English

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase