wav2vec2-base-960hオープンソース音声認識モデル - ブラウザで簡単に音声を認識できる

ホーム

Wav2vec2 Base 960h

Xenovaによって開発

Facebookのwav2vec2-base-960hモデルをONNX形式に変換したバージョンで、Transformers.js向けに設計されており、ブラウザ上での音声認識をサポート

音声認識

Transformers

#英語音声認識 #ONNX形式 #ウェブ対応

ダウンロード数 117

リリース時間 : 7/26/2023

モデル概要

このモデルは自動音声認識(ASR)モデルで、音声入力をテキスト出力に変換し、英語音声の書き起こしタスクに適しています

モデル特徴

ブラウザ互換性

ONNX形式により、サーバー側の処理なしでブラウザ環境で直接実行可能

軽量

基本バージョンのモデルはリソースが限られた環境での展開に適しています

高精度

960時間の英語音声データでトレーニングされており、良好な認識精度を備えています

モデル能力

英語音声認識

リアルタイム音声書き起こし

ブラウザ上での音声処理

使用事例

音声書き起こし

会議議録の自動化

会議の録音を自動的に文字記録に変換

書き起こしの精度例は90%以上に達する

音声制御アプリケーション

Webアプリケーションに音声制御機能を追加

支援ツール

リアルタイム字幕生成

動画やライブコンテンツのためのリアルタイム字幕を生成

属性	详情
ベースモデル	facebook/wav2vec2-base-960h
ライブラリ名	Transformers.js

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Base 960h

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声認識モデル（wav2vec2-base-960h for Transformers.js）

🚀 クイックスタート

📦 インストール

💻 使用例

基本的な使用法

🔧 注意事項

情報一覧