B

Bp500 Base100k Voxpopuli

lgrisによって開発
ブラジルポルトガル語に最適化された音声認識モデル、7つの公開データセット計453時間の音声でトレーニング
ダウンロード数 23
リリース時間 : 3/2/2022

モデル概要

このモデルはWav2vec 2.0アーキテクチャに基づくブラジルポルトガル語自動音声認識(ASR)システムで、複数の公開データセットで微調整され、言語モデル非使用と4-gram言語モデル強化の2モードをサポートします。

モデル特徴

複数データセットトレーニング
7つのブラジルポルトガル語データセット(CETUC/Common Voice/MLS等)計453時間のトレーニングデータを統合
言語モデルサポート
オプションで4-gram言語モデルを追加可能、平均WERが0.155から0.157に改善
分野横断適応性
朗読音声(CETUC)と自然音声(TEDx)など異なるシナリオで安定した性能

モデル能力

ブラジルポルトガル語音声テキスト変換
16kHzサンプリングレート音声処理対応
バッチ音声認識

使用事例

音声書き起こし
教育コンテンツ書き起こし
ポルトガル語教育音声を文字原稿に変換
朗読音声データセットでWERは0.052と低い
会議議録自動化
ブラジルポルトガル語会議内容をリアルタイム書き起こし
自然音声データセットでWER約0.317
音声アシスタント
ブラジルポルトガル語音声コマンド認識
ローカライズされたスマートデバイス向け音声インタラクションをサポート
短いコマンドデータセットで優れた性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase