faster-whisper-mediumオープンソース音声認識モデル - 様々な音声認識タスクを効率的に完了する

ホーム

Faster Whisper Medium

Systranによって開発

これはOpenAI Whisperの中規模モデルのCTranslate2変換バージョンで、効率的な音声認識タスクに使用されます。

音声認識複数言語対応オープンソースライセンス:MIT #多言語音声認識 #リアルタイム音声書き起こし #FP16効率的推論

ダウンロード数 155.87k

リリース時間 : 11/23/2023

モデル概要

このモデルはOpenAI Whisperの中規模モデルのCTranslate2形式変換バージョンで、自動音声認識(ASR)に特化しており、多言語をサポートし、効率的な音声からテキストへの変換が必要なアプリケーションシナリオに適しています。

モデル特徴

効率的推論

CTranslate2変換により、元のPyTorchモデルよりも高速な推論速度を提供

多言語サポート

100以上の言語の音声認識をサポート

FP16量子化

モデル重みをFP16形式で保存し、精度と性能のバランスを実現

容易な統合

faster-whisperなどのCTranslate2ベースのプロジェクトとシームレスに統合可能

モデル能力

音声からテキストへ

多言語認識

リアルタイム書き起こし

オーディオファイル処理

使用事例

メディア書き起こし

ポッドキャスト書き起こし

ポッドキャストの音声コンテンツを自動的に文字原稿に変換

効率的で正確な多言語書き起こし

動画字幕生成

動画コンテンツに自動的に字幕を生成

多言語字幕作成をサポート

会議記録

会議リアルタイム書き起こし

会議中にリアルタイムで文字記録を生成

会議のアクセシビリティと記録効率の向上

音声アシスタント

音声コマンド認識

スマートデバイスに音声インタラクション機能を提供

多言語音声制御をサポート

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Faster Whisper Medium

モデル概要

モデル特徴

モデル能力

使用事例

🚀 CTranslate2用Whisperミディアムモデル

🚀 クイックスタート

💻 使用例

基本的な使用法

🔧 技術詳細

変換詳細

📚 ドキュメント

📄 ライセンス