faster-whisper-baseオープンソース音声認識モデル - 無料で多言語の音声を文字に変換をサポート

ホーム

Faster Whisper Base

guillaumeklnによって開発

Whisper基礎モデルはOpenAIが開発した自動音声認識（ASR）モデルで、複数の言語の音声を文字に変換するタスクをサポートしています。

音声認識複数言語対応オープンソースライセンス:MIT #多言語音声認識 #高効率推論加速 #軽量モデル

ダウンロード数 8,493

リリース時間 : 3/23/2023

モデル概要

これはTransformerアーキテクチャに基づく音声認識モデルで、音声をテキストに変換することができ、複数の言語をサポートしています。

モデル特徴

多言語サポート

90種以上の言語の音声認識をサポートします

高効率推論

CTranslate2で最適化され、より高速な推論速度を提供します

軽量

基礎版モデルはリソースが限られた環境に適しています

モデル能力

音声をテキストに変換

多言語認識

音声文字起こし

使用事例

音声文字起こし

会議記録

会議の録音を自動的に文字記録に変換します

字幕生成

ビデオコンテンツに自動的に字幕を生成します

音声アシスタント

音声指令認識

ユーザーの音声指令を認識してテキストに変換します

🚀 CTranslate2用Whisperベースモデル

このリポジトリには、openai/whisper-baseをCTranslate2のモデル形式に変換したものが含まれています。

このモデルは、CTranslate2またはCTranslate2をベースとしたプロジェクト（例：faster-whisper）で使用できます。

🚀 クイックスタート

このモデルは、CTranslate2またはCTranslate2をベースとしたプロジェクトで使用できます。

✨ 主な機能

複数の言語をサポート：英語、中国語、ドイツ語、スペイン語、ロシア語など、多くの言語に対応しています。
自動音声認識：音声ファイルからテキストを抽出することができます。

💻 使用例

基本的な使用法

from faster_whisper import WhisperModel

model = WhisperModel("base")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

🔧 技術詳細

変換詳細

元のモデルは以下のコマンドで変換されました。

ct2-transformers-converter --model openai/whisper-base --output_dir faster-whisper-base \
    --copy_files tokenizer.json --quantization float16

なお、モデルの重みはFP16で保存されています。この型は、モデルを読み込む際にCTranslate2のcompute_typeオプションを使用して変更することができます。

📚 ドキュメント

元のモデルに関する詳細情報は、モデルカードを参照してください。

📄 ライセンス

このプロジェクトはMITライセンスの下で提供されています。

属性	详情
サポート言語	英語、中国語、ドイツ語、スペイン語、ロシア語、韓国語、フランス語、日本語、ポルトガル語、トルコ語、ポーランド語、カタルーニャ語、オランダ語、アラビア語、スウェーデン語、イタリア語、インドネシア語、ヒンディー語、フィンランド語、ベトナム語、ヘブライ語、ウクライナ語、ギリシャ語、マレー語、チェコ語、ルーマニア語、デンマーク語、ハンガリー語、タミル語、ノルウェー語、タイ語、ウルドゥー語、クロアチア語、ブルガリア語、リトアニア語、ラテン語、マオリ語、マラヤーラム語、ウェールズ語、スロバキア語、テルグ語、ペルシア語、ラトビア語、ベンガル語、セルビア語、アゼルバイジャン語、スロベニア語、カンナダ語、エストニア語、マケドニア語、ブルトン語、バスク語、アイスランド語、アルメニア語、ネパール語、モンゴル語、ボスニア語、カザフ語、アルバニア語、スワヒリ語、ガリシア語、マラーティー語、パンジャーブ語、シンハラ語、クメール語、ショナ語、ヨルバ語、ソマリ語、アフリカーンス語、オック語、ジョージア語、ベラルーシ語、タジク語、サンスクリット語、グジャラート語、アムハラ語、イディッシュ語、ラオス語、ウズベク語、フェロー語、ハイチ語、パシュトー語、トルクメン語、ニーノルウェー語、マルタ語、サンスクリット語、ルクセンブルク語、ミャンマー語、チベット語、タガログ語、マダガスカル語、アッサム語、タタール語、ハワイ語、リンガラ語、ハウサ語、バシキール語、ジャワ語、スンダ語
モデルタイプ	音声認識モデル
ライセンス	MIT
ライブラリ名	ctranslate2