Whisper Mediumオープンソース音声認識モデル - 無料で多言語自動音声認識をサポート

ホーム

Whisper Medium

Xenovaによって開発

Whisper MediumはOpenAIが開発した中規模の音声認識モデルで、多言語の自動音声認識（ASR）タスクをサポートしています。

音声認識

Transformers

#音声テキスト変換 #多言語対応 #ウェブ対応

ダウンロード数 871

リリース時間 : 5/31/2023

モデル概要

Whisper MediumはTransformerアーキテクチャに基づく音声認識モデルで、音声をテキストに変換し、多言語をサポートします。

モデル特徴

多言語対応

多言語の音声認識をサポートし、国際的なアプリケーションシーンに適しています。

高精度

Transformerアーキテクチャに基づき、高精度な音声テキスト変換を提供します。

ONNX互換

ONNX形式をサポートし、ウェブや他のプラットフォームでの展開が容易です。

モデル能力

音声認識

多言語文字起こし

リアルタイム音声テキスト変換

使用事例

音声文字起こし

会議議事録

会議の録音を自動的にテキストに変換し、後からの参照や分析を容易にします。

高精度な文字起こしで、多言語会議をサポートします。

字幕生成

動画コンテンツに自動的に字幕を生成し、アクセシビリティを向上させます。

多言語の字幕生成をサポートします。

音声アシスタント

音声入力

音声アシスタントに音声テキスト変換機能を提供し、自然言語インタラクションを実現します。

低遅延で高精度な音声認識。

属性	详情
ベースモデル	openai/whisper-medium
ライブラリ名	transformers.js

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Whisper Medium

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ウィスパーミディアムモデルのONNX対応版

🚀 クイックスタート