X

Xphonebert Base

vinaiによって開発
XPhoneBERTはテキスト音声変換(TTS)向けの音素表現事前学習多言語モデルとして初めて開発され、BERT-baseアーキテクチャを基盤とし、約100言語の3億3千万の音素レベル文で訓練されています。
ダウンロード数 7,561
リリース時間 : 4/13/2023

モデル概要

XPhoneBERTはテキスト音声変換(TTS)タスク向けに設計された事前学習済み多言語音素表現モデルで、TTSモデルの自然さと韻律面での性能向上が可能です。

モデル特徴

多言語サポート
約100言語と地域の音素表現学習をサポート
音素レベル事前学習
3億3千万の音素レベル文で事前学習し、TTSタスクの性能を最適化
TTS品質向上
入力音素エンコーダーとして使用することで、TTSモデルの自然さと韻律表現を大幅に向上
低リソース適応
限られた訓練データでも比較的高品質な音声を生成可能

モデル能力

音素シーケンスエンコーディング
多言語テキストから音素への変換
TTSモデル性能向上

使用事例

音声合成
高品質TTSシステム
フロントエンド音素エンコーダーとしてTTSシステムに統合
合成音声の自然さと韻律表現を向上
低リソース言語TTS
訓練データが限られた言語でTTSシステムを構築
比較的高品質な音声出力を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase