オープンソース base_10k_8khz_ptモデル - 8kHzに対応し、高精度なポルトガル語自動音声認識を実現

ホーム

Base 10k 8khz Pt

lgrisによって開発

facebook/wav2vec2-base-10k-voxpopuliをファインチューニングしたポルトガル語自動音声認識モデル、8kHzサンプリングレートをサポート

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ブラジルポルトガル語ASR #マルチソースデータセットのファインチューニング #低サンプリングレート適応

ダウンロード数 28

リリース時間 : 3/2/2022

モデル概要

これはポルトガル語に最適化された自動音声認識(ASR)モデルで、Wav2vec 2.0アーキテクチャに基づき、複数のポルトガル語音声データセットでファインチューニングされています。

モデル特徴

マルチデータセットファインチューニング

CETUC、Common Voice、Lapsbmなどの複数ポルトガル語音声データセットを使用してファインチューニングし、認識精度を向上

8kHzサンプリングレートサポート

8kHzサンプリングレートの音声入力を最適化サポート、より多くの実用シナリオに対応

ブラジルポルトガル語最適化

特にブラジルポルトガル語変種に最適化、より良い認識効果

モデル能力

ポルトガル語音声認識

音声からテキストへの変換

8kHzサンプリングレート入力サポート

使用事例

音声書き起こし

会議議事録自動書き起こし

ポルトガル語会議録音を自動的に文字記録に変換

音声メモ変換

ポルトガル語音声メモを編集可能なテキストに変換

アクセシビリティアプリケーション

リアルタイム字幕生成

ポルトガル語動画コンテンツにリアルタイム字幕を生成

🚀 Wav2vec 2.0 for Portuguese in 8kHz

このモデルは、facebook/wav2vec2-base-10k-voxpopuli をファインチューニングしたものです。音声認識の分野において、ポルトガル語の音声データに対して高精度な認識を実現することを目指しています。

✨ 主な機能

ポルトガル語の音声を高精度に認識することができます。
8kHzの音声データに最適化されています。

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

原READMEにコード例が記載されていないため、このセクションは省略されます。

📚 詳細ドキュメント

データセット

このモデルのファインチューニングに使用されたデータセットは以下の通りです。

CETUC：約145時間のブラジルポルトガル語の音声データが含まれており、50人の男性と50人の女性の話者に分散されています。各話者は、CETEN - Folhaコーパスから選択された約1,000の音韻的にバランスの取れた文を発音しています。
Common Voice 7.0：Mozilla Foundationによって提案されたプロジェクトで、様々な言語のオープンデータセットを作成することを目的としています。このプロジェクトでは、ボランティアが公式サイトを使用して音声を寄付し、検証しています。
Lapsbm："Falabrasil - UFPA" は、Fala Brasilグループがブラジルポルトガル語の自動音声認識（ASR）システムのベンチマークに使用するデータセットです。35人の話者（10人の女性）がそれぞれ20の固有の文を発音し、合計700のブラジルポルトガル語の発話が含まれています。音声は22.05kHzで環境制御なしで録音されています。
Multilingual Librispeech (MLS)：多くの言語で利用可能な大規模なデータセットです。MLSは、LibriVoxのようなパブリックドメインのオーディオブックの録音に基づいています。このデータセットには、多くの言語で合計6,000時間の文字起こしデータが含まれています。この研究で使用されたポルトガル語のセット（主にブラジルバリアント）には、62人の話者によって読まれた55冊のオーディオブックから得られた約284時間の音声が含まれています。
Multilingual TEDx：8つの言語のTEDxトークの音声録音のコレクションです。ポルトガル語のセット（主にブラジルポルトガル語のバリアント）には、164時間の文字起こしされた音声が含まれています。
Sidney (SID)：17歳から59歳までの72人の話者（20人の女性）によって録音された5,777の発話が含まれており、生まれた場所、年齢、性別、教育、職業などの情報が付与されています。
VoxForge：音響モデルのためのオープンデータセットを構築することを目的としたプロジェクトです。このコーパスには、約100人の話者と4,130のブラジルポルトガル語の発話が含まれており、サンプルレートは16kHzから44.1kHzまで様々です。
VoxPopuli：具体的な説明は原READMEに記載されていません。