S

Speechgpt 7B Cm

由fnlp開發
SpeechGPT是一個具備內在跨模態對話能力的大型語言模型,能夠感知和生成多模態內容,支持語音與文本的交互。
下載量 47
發布時間 : 9/14/2023

模型概述

SpeechGPT通過離散語音表示和三階段訓練策略(模態適應預訓練、跨模態指令微調、模態鏈式指令微調),實現了語音與文本的對齊,能夠處理多種跨模態任務。

模型特點

跨模態對話能力
能夠同時處理語音和文本輸入輸出,實現跨模態交互。
三階段訓練策略
通過模態適應預訓練、跨模態指令微調和模態鏈式指令微調三個階段,逐步提升模型性能。
大規模語音指令數據集
構建了SpeechInstruct數據集,包含跨模態指令和模態鏈式指令。

模型能力

語音識別
語音合成
跨模態對話
文本生成
多模態指令跟隨

使用案例

個人助理
語音問答
通過語音提問獲取信息回答
提供準確的語音或文本響應
教育
語言學習
幫助學習者練習英語聽說能力
提供語音交互和發音反饋
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase