W

Wav2vec2 Base Cv 10000

jiobiala24によって開発
wav2vec2-base-cvをベースに汎用音声データセットでファインチューニングした音声認識モデルで、評価セットで36.84%の単語誤り率を達成しました。
ダウンロード数 28
リリース時間 : 3/8/2022

モデル概要

このモデルは音声認識モデルで、wav2vec2アーキテクチャをベースに汎用音声データセットでファインチューニングされており、音声からテキストへの変換タスクに適しています。

モデル特徴

低単語誤り率
評価セットで36.84%の単語誤り率を達成し、良好な性能を示しています。
wav2vec2アーキテクチャ採用
wav2vec2-baseアーキテクチャを採用しており、優れた音声特徴抽出能力を備えています。
ファインチューニング最適化
汎用音声データセットで30エポックのファインチューニングを行い、モデル性能を最適化しました。

モデル能力

音声認識
音声からテキストへの変換

使用事例

音声文字起こし
会議議事録
会議の音声をリアルタイムで文字記録に変換
約63.16%の精度(36.84%の単語誤り率に基づく)
音声メモ
音声メモを編集可能なテキストに変換
支援技術
音声制御
音声制御アプリケーションにテキスト変換機能を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase