S

Speechgpt 7B Ma

fnlpによって開発
SpeechGPTは、人間の指示に基づいてマルチモーダルコンテンツを認識・生成できる内在的なクロスモーダル対話能力を備えた大規模言語モデルです。
ダウンロード数 37
リリース時間 : 9/14/2023

モデル概要

SpeechGPTは離散音声表現を用いてクロスモーダル音声指示データセットを構築し、3段階のトレーニング戦略を採用することで、優れたマルチモーダル人間指示追従能力を実現しています。

モデル特徴

クロスモーダル対話能力
音声とテキストの入出力を同時に処理し、真のクロスモーダルインタラクションを実現
3段階トレーニング戦略
モーダル適応事前学習、クロスモーダル指示ファインチューニング、モーダル連鎖指示ファインチューニングの3段階アプローチを採用
大規模音声指示データセット
約900万組のユニット-テキストデータを含むSpeechInstructデータセットを構築

モデル能力

音声認識
音声合成
クロスモーダル対話
テキスト生成
指示追従

使用事例

個人アシスタント
音声Q&A
音声で質問し情報回答を得る
質問を正確に理解し音声またはテキストで回答を生成可能
教育
言語学習
学習者の英語リスニング・スピーキング能力向上を支援
音声インタラクティブな学習体験を提供可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase