W

Wav2vec Osr

Developed by iamtarun
The Sound Of AIオープンソース研究グループの音声からテキストへのモジュール用にファインチューニングされたFacebookのwav2vec2モデル
Downloads 22
Release Time : 3/2/2022

Model Overview

wav2vec2ベースの音声認識モデルで、音声をテキストに変換することをサポートします。オリジナルモデルはLibrispeechの960時間の音声データで事前学習とファインチューニングが行われ、16kHzサンプリングの音声入力に適しています。

Model Features

効率的な音声認識
限られたラベル付きデータでも高品質な音声認識を実現
事前学習とファインチューニングの組み合わせ
まず大量のラベルなし音声データで事前学習し、その後ラベル付きデータでファインチューニング
対照学習
潜在空間マスキングと対照タスクを使用して音声表現を学習

Model Capabilities

音声からテキストへ
英語音声認識

Use Cases

音声文字起こし
会議議事録
会議の録音を自動的に文字起こし
音声メモ
音声メモを検索可能なテキストに変換
支援技術
聴覚支援
聴覚障害者向けにリアルタイムで音声を文字に変換するサービスを提供
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase