EnglishSpeechToTextオープンソース英語音声認識モデル - 無料でデプロイして高精度で文字起こし

ホーム

Englishspeechtotext

Foxasdfによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングした英語音声認識モデル

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #英語音声からテキストへの変換 #wav2vec2ファインチューニング #低リソース最適化

ダウンロード数 24

リリース時間 : 2/21/2023

モデル概要

このモデルは英語音声認識(ASR)モデルで、英語音声をテキストに変換できます。wav2vec2-xls-r-300mアーキテクチャをベースにファインチューニングされており、英語音声の文字起こしタスクに適しています。

モデル特徴

wav2vec2-xls-rアーキテクチャ採用

Facebookの強力なwav2vec2-xls-r-300mモデルアーキテクチャをファインチューニング

英語音声認識

英語音声に特化して最適化された認識モデル

効率的なトレーニング

勾配累積などの技術を使用してトレーニングプロセスを最適化

モデル能力

英語音声認識

音声からテキストへの変換

リアルタイム音声文字起こし

使用事例

音声文字起こし

会議議事録

英語会議の録音を自動的に文字記録に変換

字幕生成

英語動画コンテンツに自動的に字幕を生成

音声アシスタント

音声コマンド認識

英語音声コマンドを認識して実行可能なコマンドに変換

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Englishspeechtotext

モデル概要

モデル特徴

モデル能力

使用事例

🚀 EnglishSpeechToText

🚀 クイックスタート

🔧 技術詳細

トレーニングハイパーパラメータ

フレームワークのバージョン

📄 ライセンス