W

Whisperfile

cjpaisによって開発
Whisperは、音声認識と翻訳タスクに使用されるTransformerベースのエンコーダ-デコーダモデルで、多言語処理に対応しています。
ダウンロード数 353
リリース時間 : 5/17/2024

モデル概要

Whisperは強力な自動音声認識(ASR)システムで、複数の言語の音声文字起こしと翻訳タスクを処理できます。これは100万時間の弱ラベル付き音声と400万時間の疑似ラベル付き音声で学習され、優れたロバスト性と精度を持っています。

モデル特徴

多言語対応
複数の言語の音声認識と翻訳をサポートし、新たに広東語のサポートも含まれます。
高いロバスト性
アクセント、背景雑音、専門用語に対してより強いロバスト性を持っています。
効率的な分塊処理
分塊アルゴリズムを用いて長音声を処理し、従来の順次アルゴリズムより9倍速です。
タイムスタンプサポート
文レベルと単語レベルのタイムスタンプ情報を取得できます。

モデル能力

音声認識
音声翻訳
多言語処理
長音声処理
タイムスタンプ生成

使用事例

音声文字起こし
会議記録
会議の録音を自動的に文字起こしします。
高い精度の文字起こし
ポッドキャストの文字起こし
ポッドキャストの内容を検索可能な文字に起こします。
複数の言語とアクセントに対応
音声翻訳
リアルタイム翻訳
ある言語の音声をリアルタイムで別の言語の文字に翻訳します。
現行の最先端レベルに近い翻訳精度
支援ツール
バリアフリーアプリ
聴覚障害者に音声を文字に変換するサービスを提供します。
情報のアクセス可能性を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase