S

Speechgpt 7B Cm

fnlpによって開発
SpeechGPTは内在的なクロスモーダル対話能力を備えた大規模言語モデルで、マルチモーダルコンテンツの知覚と生成が可能であり、音声とテキストのインタラクションをサポートします。
ダウンロード数 47
リリース時間 : 9/14/2023

モデル概要

SpeechGPTは離散音声表現と3段階のトレーニング戦略(モーダル適応事前トレーニング、クロスモーダル命令ファインチューニング、モーダルチェーン命令ファインチューニング)により、音声とテキストの整合を実現し、さまざまなクロスモーダルタスクを処理できます。

モデル特徴

クロスモーダル対話能力
音声とテキストの入出力を同時に処理し、クロスモーダルインタラクションを実現します。
3段階トレーニング戦略
モーダル適応事前トレーニング、クロスモーダル命令ファインチューニング、モーダルチェーン命令ファインチューニングの3段階を経て、モデルの性能を段階的に向上させます。
大規模音声命令データセット
クロスモーダル命令とモーダルチェーン命令を含むSpeechInstructデータセットを構築しました。

モデル能力

音声認識
音声合成
クロスモーダル対話
テキスト生成
マルチモーダル命令追従

使用事例

個人アシスタント
音声Q&A
音声で質問し情報の回答を得る
正確な音声またはテキスト応答を提供
教育
言語学習
学習者の英語リスニング・スピーキング能力の練習を支援
音声インタラクションと発音フィードバックを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase