ひそひそ - fairseq - larger - rirオープンソース自動音声認識モデル、微調整データで精度の高い認識を支援

ホーム

Psst Fairseq Larger Rir

birgermoellによって開発

このモデルはWav2vec 2.0アーキテクチャに基づく自動音声認識(ASR)モデルで、ルームインパルス応答(RIR)で強化されたTIMITデータセットのサブセットを使用して微調整されています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #ルームインパルス応答の強化 #音素レベルの認識 #低フレームエラーレート

ダウンロード数 30

リリース時間 : 4/15/2022

モデル概要

音素認識タスクに最適化された音声認識モデルで、騒がしい環境での音声処理に適しています

モデル特徴

RIR強化トレーニングデータ

ルームインパルス応答で強化されたTIMITデータセットを使用し、実環境でのモデルのロバスト性を向上させています

Wav2vec 2.0ベース

強力なWav2vec 2.0アーキテクチャに基づいて微調整されており、優れた音声特徴抽出能力を継承しています

音素レベル認識

音素レベルの音声認識タスクに特化しており、詳細な音声分析が必要なアプリケーションシナリオに適しています

モデル能力

英語音声認識

音素レベル分析

騒がしい環境での音声処理

使用事例

音声技術研究

音素認識ベンチマークテスト

音素認識タスクのベンチマークモデルとして比較研究に使用できます

PER: 21.0%, FER: 9.2%

音声強化アプリケーション

騒がしい環境での音声認識

会議室や公共の場など、反響やノイズがある環境での音声認識に適しています

属性	详情
模型类型	自動音声認識モデル
训练数据	PSST Challengeデータと、Room Impulse Response (RIR) を用いて拡張されたTIMITのサブセット

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Psst Fairseq Larger Rir

モデル概要

モデル特徴

モデル能力

使用事例

🚀 自動音声認識モデル

🚀 クイックスタート

📄 ライセンス

📦 モデル情報