faster-whisper-large-v2-japanese-5k-stepsオープンソースモデル - 高効率の日本語自動音声認識、無料で使用可能

ホーム

Faster Whisper Large V2 Japanese 5k Steps

zh-plusによって開発

Whisper Large V2モデルに基づく日本語自動音声認識(ASR)モデルで、CTranslate2で最適化変換され、効率的な推論をサポートします。

音声認識

Transformers

日本語オープンソースライセンス:MIT #日本語音声認識 #低遅延推論 #高精度書き起こし

ダウンロード数 280

リリース時間 : 7/3/2023

モデル概要

これは日本語に最適化された自動音声認識モデルで、OpenAIのWhisper Large V2アーキテクチャを基に、5,000ステップの微調整トレーニングを経て、CTranslate2で効率的な推論フォーマットに変換されています。

モデル特徴

効率的な推論

CTranslate2とfaster-whisperを使用して最適化され、元のWhisperモデルに比べてより高速な推論を提供します

日本語最適化

日本語音声認識に特化して微調整されており、日本語の認識精度を向上させます

低リソース要件

複数の計算精度(float16など)をサポートし、様々なハードウェア構成で効率的に動作します

モデル能力

日本語音声からテキストへの変換

音声認識

多言語検出

タイムスタンプ生成

使用事例

音声書き起こし

日本語会議議事録

日本語の会議録音を自動的に文字記録に変換します

検索可能な会議テキスト記録を効率的に生成

日本語ポッドキャスト書き起こし

日本語ポッドキャストコンテンツを文字原稿に変換します

コンテンツの索引付けと検索が容易に

支援ツール

リアルタイム字幕生成

日本語動画やライブ配信にリアルタイムで字幕を生成します

コンテンツのアクセシビリティ向上

属性	详情
パイプラインタグ	自動音声認識
データセット	mozilla-foundation/common_voice_11_0
言語	ja
タグ	pytorch、faster-whisper、whisper、CTranslate2
評価指標	wer

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Faster Whisper Large V2 Japanese 5k Steps

モデル概要

モデル特徴

モデル能力

使用事例

🚀 zh-plus/faster-whisper-large-v2-japanese-5k-steps

🚀 クイックスタート

📦 インストール

💻 使用例

基本的な使用法

📄 ライセンス