X

Xlsr En Punctuation

borisによって開発
facebook/wav2vec2-large-xlsr-53をベースに、英語汎用音声データセットで微調整した自動音声認識モデルで、句読点予測に対応しています。
ダウンロード数 30.28k
リリース時間 : 3/2/2022

モデル概要

これは英語の自動音声認識(ASR)に使用するWav2Vec2モデルで、音声をテキストに変換し、自動的に句読点を付けることができます。

モデル特徴

多言語事前学習
XLSR - 53多言語モデルをベースに微調整されており、強力な言語間表現能力を持っています。
句読点予測
音声内容を認識するだけでなく、自動的に句読点を予測して付けることができます。
高い正確性
汎用音声英語テストセットで1.0%の単語誤り率(WER)を達成しています。

モデル能力

英語音声認識
自動句読点予測
16kHzオーディオ処理

使用事例

音声文字起こし
会議記録の自動生成
会議の録音を自動的に句読点付きの文字記録に変換します。
正確性が高く、人手による校正作業を減らします。
ポッドキャスト字幕の生成
英語のポッドキャストに自動的に句読点付きの字幕ファイルを生成します。
SRTなどの一般的な字幕形式での出力に対応しています。
支援技術
音声入力システム
障害者に高精度の音声入力ソリューションを提供します。
入力効率と正確性を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase