psst-fairseq-rirオープンソース自動音声認識モデル - 無料でデプロイし、音声内容の高精度な認識をサポート

ホーム

Psst Fairseq Rir

birgermoellによって開発

このモデルはWav2vec 2.0基本アーキテクチャをファインチューニングした自動音声認識(ASR)モデルで、ルームインパルス応答(RIR)で強化されたTIMITサブセットで訓練されています

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #ルームインパルス応答の強化 #音素エラー率21.8%#TIMITサブセットのファインチューニング

ダウンロード数 30

リリース時間 : 4/15/2022

モデル概要

英語音素認識のための音声認識モデルで、ノイズ強化環境下で良好な性能を発揮します

モデル特徴

ノイズ耐性

RIR強化データで訓練されており、ノイズ環境下での音声認識に強い耐性を持っています

音素レベル認識

単語や文ではなく、音素レベルの音声認識タスクに特化しています

Wav2vec 2.0ベース

Wav2vec 2.0の自己教師あり学習能力を活用し、小規模な注釈データでも良好な性能を発揮します

モデル能力

英語音素認識

ノイズ環境下の音声処理

使用事例

音声技術研究

音素認識ベンチマークテスト

音素認識タスクの比較用ベンチマークモデルとして使用可能

PER: 21.8%, FER: 9.6%

教育技術

発音評価

言語学習における発音精度の評価に使用

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Psst Fairseq Rir

モデル概要

モデル特徴

モデル能力

使用事例

🚀 自動音声認識モデル

🚀 クイックスタート

📄 ライセンス