W

Wav2vec2 Xls R Tf Left Right Trainer

hrdiptoによって開発
facebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、左右チャンネルの処理に対応しています。
ダウンロード数 30
リリース時間 : 3/2/2022

モデル概要

このモデルはwav2vec2-xls-r-300mアーキテクチャをファインチューニングした音声認識モデルで、左右チャンネルのオーディオ処理能力を特別に最適化しています。

モデル特徴

左右チャンネル処理の最適化
左右チャンネルのオーディオ入力に対して特別に最適化された処理を行います。
効率的なファインチューニング
事前学習された大規模なwav2vec2-xls-rモデルを基に効率的にファインチューニングを行います。
低単語誤り率
評価セットで0.0037の低い単語誤り率を達成しました。

モデル能力

音声認識
左右チャンネルのオーディオ処理
高精度な文字起こし

使用事例

音声文字起こし
会議録音の文字起こし
会議の録音を文字記録に変換します。
高い正確率での文字起こし結果
オーディオ内容分析
オーディオ内容を分析し、重要な情報を抽出します。
支援技術
リアルタイム字幕生成
動画やライブ配信に対してリアルタイムで字幕を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase