W

Whisper Base

Developed by openai
Whisperは事前訓練された自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータで訓練されており、強力な汎化能力を備えています。
Downloads 491.35k
Release Time : 9/26/2022

Model Overview

WhisperはTransformerベースのエンコーダ-デコーダモデルで、微調整なしでさまざまなデータセットやドメインに適応可能な多言語音声認識および翻訳タスクをサポートします。

Model Features

大規模事前訓練
68万時間の注釈付き音声データで訓練され、強力な汎化能力を備えています
多言語サポート
99言語の音声認識および翻訳タスクをサポート
ゼロショット学習
微調整なしでさまざまなデータセットやドメインに適応可能
多機能タスク
音声認識と音声翻訳の2つのタスクモードを同時にサポート

Model Capabilities

英語音声認識
多言語音声認識
言語間音声翻訳
音声書き起こし
音声からテキストへ

Use Cases

音声書き起こし
会議議事録
会議録音を自動的に文字記録に変換
LibriSpeechクリーンテストセットでWER5.01
ポッドキャスト書き起こし
ポッドキャストコンテンツを検索可能なテキストに変換
音声翻訳
リアルタイム翻訳
ある言語の音声を別の言語のテキストにリアルタイムで翻訳
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase