G

Granite Speech 3.3 2b

由 ibm-granite 开发
Granite-speech-3.3-2b是IBM开发的紧凑高效语音语言模型,专为自动语音识别(ASR)和自动语音翻译(AST)设计,采用双通设计提高模块化和安全性。
下载量 4,363
发布时间 : 4/28/2025

模型简介

该模型专注于将语音转换为文本(ASR)和语音翻译(AST),采用模块化设计,首次调用转录音频,二次调用处理文本,支持多语言任务。

模型特点

双通设计
与单通集成模型不同,先独立转录音频,再处理文本,提高模块化和安全性。
多任务支持
同时支持语音识别和语音翻译任务,适应多种应用场景。
高效架构
结合Conformer编码器、q-former下采样器和Granite大语言模型,平衡性能与效率。
LoRA适配
采用秩为64的LoRA适配器优化查询和值投影矩阵,提升模型灵活性。

模型能力

语音转文本
跨语言语音翻译
长音频处理(支持128k上下文)

使用案例

语音转录
会议记录自动化
将会议录音实时转换为文字记录
高准确率的英文转录输出
实时翻译
多语言语音翻译
将英语语音实时翻译为7种目标语言
支持德语/西班牙语/法语/意大利语/日语/葡萄牙语/中文输出
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase