wav2vec2-large-robust-ft-libritts-voxpopuliオープンソース音声認識モデル - 句読点付きの転写テキストを生成し、TTS構築をサポート

ホーム

Wav2vec2 Large Robust Ft Libritts Voxpopuli

jbetkerによって開発

wav2vec2-largeに基づく音声認識モデルで、句読点付きの転写テキストを生成するために設計され、TTSモデルの構築に適しています。

音声認識

Transformers

#TTS韵律最適化 #句読点転写 #純粋オーディオ適合

ダウンロード数 339.01k

リリース時間 : 3/2/2022

モデル概要

このモデルは、facebook/wav2vec2-large-robust-ft-libri-960hのチェックポイントを微調整し、句読点の語彙表を追加して、句読点付きの転写テキストの生成に特化しており、特に韵律表現が必要なTTSアプリケーションに適しています。

モデル特徴

句読点生成

句読点付きの転写テキストを生成するために設計され、TTSモデルの韵律表現にとって重要です。

高い正確性

librispeech検証セットで4.45%の単語誤り率（WER）を達成し、ベースラインモデルの4.3%に近いです。

純粋オーディオ最適化

librittsやvoxpopuliなどの純粋オーディオデータセットで微調整され、高品質オーディオの転写に適しています。

モデル能力

音声からテキストへの変換

句読点の挿入

高品質オーディオの転写

使用事例

テキストから音声への変換（TTS）

TTSモデルの転写構築

TTSモデルに句読点付きの転写テキストを生成し、韵律表現を向上させます。

TTS出力の自然さと表現力を改善します。

音声転写

高品質オーディオの転写

librittsなどの純粋オーディオの転写タスクに適しています。

4.45%の単語誤り率（WER）。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Large Robust Ft Libritts Voxpopuli

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声文字起こしモデル

🚀 クイックスタート

✨ 主な機能

🔧 技術詳細

💻 使用例