W

Wav2vec2 Base 10k Voxpopuli

facebookによって開発
VoxPopuliコーパスの1万時間の未ラベルデータで事前学習された音声認識ベースモデル、多言語音声処理をサポート
ダウンロード数 2,504
リリース時間 : 3/2/2022

モデル概要

Facebookが開発したWav2Vec2音声認識ベースモデル、自己教師あり学習により生の音声から音響特徴を抽出、多言語自動音声認識タスクに適応

モデル特徴

多言語サポート
VoxPopuli多言語コーパスで学習、複数言語の音声認識をサポート
自己教師あり事前学習
1万時間の未ラベル音声データを使用した自己教師あり学習により、効果的に音響特徴を捕捉
ファインチューニング可能なアーキテクチャ
ベースモデルアーキテクチャを提供、特定言語やドメイン向けにファインチューニング可能

モデル能力

自動音声認識
音響特徴抽出
多言語音声処理

使用事例

音声からテキストへ
会議議録の自動化
会議録音を自動的にテキスト記録に変換
字幕生成
動画コンテンツに自動的に字幕を生成
音声分析
音声コンテンツ分析
音声データからキー情報を抽出して分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase