W

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Plus Data Augmentation Portuguese

Edressonによって開発
これはFacebookのWav2vec2 Large 100k Voxpopuliモデルをベースに、Common Voice 7.0とTTSポルトガル語データセットでファインチューニングし、データ拡張技術を適用したポルトガル語音声認識モデルです。
ダウンロード数 22
リリース時間 : 3/2/2022

モデル概要

このモデルはポルトガル語音声認識タスクに特化しており、データ拡張と追加TTSデータセットによるファインチューニングで認識精度を向上させています。

モデル特徴

データ拡張ファインチューニング
TTS生成データと音声変換技術を使用したデータ拡張により、モデル性能を向上
複数データセット訓練
Common Voice 7.0と専用TTSポルトガル語データセットを組み合わせて訓練
高性能認識
Common Voice 7.0テストセットで20.20%の単語誤り率を達成

モデル能力

ポルトガル語音声認識
音声からテキストへの変換
自動音声認識

使用事例

音声文字起こし
ポルトガル語音声から文字へ
ポルトガル語音声コンテンツを文字に変換
単語誤り率20.20%
音声アシスタント
ポルトガル語音声コマンド認識
ポルトガル語音声アシスタントシステム向け音声コマンド認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase