FireRedASR - AED - Lオープンソース音声認識モデル。多言語対応で、歌詞認識が超強力！

Fireredasr AED L

FireRedTeamによって開発

FireRedASRは、標準中国語、中国語方言、英語をサポートするオープンソースの産業用自動音声認識（ASR）モデルシリーズです。公開されている標準中国語ASRベンチマークテストで最新最優（SOTA）レベルを達成し、優れた歌詞認識能力も備えています。

音声認識複数言語対応オープンソースライセンス:Apache-2.0 #産業用音声認識 #多言語・方言サポート #歌詞認識の最適化

ダウンロード数 216

リリース時間 : 1/24/2025

モデル概要

FireRedASRは、優れた性能と最高の効率に対するさまざまなアプリケーションシナリオの多様なニーズを満たすために、2種類のバリアントを設計しています：FireRedASR-LLMとFireRedASR-AED。前者はエンコーダー-アダプター-大規模言語モデルフレームワークを採用し、SOTA性能を実現し、エンドツーエンドの音声インタラクションをサポートすることを目的としています。後者は注意メカニズムに基づくエンコーダー-デコーダーアーキテクチャを採用し、高性能と計算効率のバランスを取り、LLMベースの音声モデルにおける効率的な音声表現モジュールとして機能します。

モデル特徴

多言語サポート

標準中国語、中国語方言、英語の自動音声認識をサポート

産業用性能

公開標準中国語ASRベンチマークテストでSOTAレベルを達成

優れた歌詞認識能力

優れた歌詞認識性能を備えています

2つのアーキテクチャ選択

LLMとAEDの2つのアーキテクチャを提供し、さまざまなシナリオのニーズを満たします

モデル能力

標準中国語音声認識

中国語方言音声認識

英語音声認識

歌詞認識

使用事例

音声からテキストへ

会議議事録

会議の録音をテキスト記録に変換

ws_meetingデータセットでCERが4.67%

音声アシスタント

インテリジェント音声アシスタントの音声認識モジュールとして使用

マルチメディア処理

字幕生成

ビデオコンテンツに自動的に字幕を生成

歌詞認識

音楽から歌詞を認識

優れた歌詞認識能力を備えています

🚀 FireRedASR: オープンソースの産業用自動音声認識モデル

FireRedASRは、中国語（標準語と方言）および英語をサポートするオープンソースの産業用自動音声認識（ASR）モデル群です。公開されている中国語ASRベンチマークで新たな最先端（SOTA）性能を達成し、優れた歌詞認識能力も備えています。

[コード] [論文] [モデル] [ブログ]

🚀 クイックスタート

モデルファイルをhuggingfaceからダウンロードし、pretrained_modelsフォルダに配置します。

FireRedASR-LLM-Lを使用する場合は、Qwen2-7B-Instructもダウンロードし、pretrained_modelsフォルダに配置します。その後、FireRedASR-LLM-Lフォルダに移動して、$ ln -s ../Qwen2-7B-Instructを実行します。

セットアップ

Python環境を作成し、依存関係をインストールします。

$ git clone https://github.com/FireRedTeam/FireRedASR.git
$ conda create --name fireredasr python=3.10
$ pip install -r requirements.txt

LinuxのPATHとPYTHONPATHを設定します。

$ export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH
$ export PYTHONPATH=$PWD/:$PYTHONPATH

オーディオを16kHz 16ビットPCM形式に変換します。

ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav

クイックスタート

$ cd examples/
$ bash inference_fireredasr_aed.sh
$ bash inference_fireredasr_llm.sh

コマンドラインでの使用

$ speech2text.py --help
$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "aed" --model_dir pretrained_models/FireRedASR-AED-L
$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L

Pythonでの使用

from fireredasr.models.fireredasr import FireRedAsr

batch_uttid = ["BAC009S0764W0121"]
batch_wav_path = ["examples/wav/BAC009S0764W0121.wav"]

# FireRedASR-AED
model = FireRedAsr.from_pretrained("aed", "pretrained_models/FireRedASR-AED-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "nbest": 1,
        "decode_max_len": 0,
        "softmax_smoothing": 1.0,
        "aed_length_penalty": 0.0,
        "eos_penalty": 1.0
    }
)
print(results)


# FireRedASR-LLM
model = FireRedAsr.from_pretrained("llm", "pretrained_models/FireRedASR-LLM-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "decode_max_len": 0,
        "decode_min_len": 0,
        "repetition_penalty": 1.0,
        "llm_length_penalty": 0.0,
        "temperature": 1.0
    }
)
print(results)

✨ 主な機能

FireRedASRは、様々なアプリケーションにおける高い性能と最適な効率の多様な要件を満たすように設計されています。2つのバリエーションから構成されています。

FireRedASR-LLM: 最先端（SOTA）の性能を達成し、シームレスなエンドツーエンドの音声インタラクションを可能にするように設計されています。大規模言語モデル（LLM）の機能を活用したEncoder-Adapter-LLMフレームワークを採用しています。
FireRedASR-AED: 高い性能と計算効率のバランスをとり、LLMベースの音声モデルにおける効果的な音声表現モジュールとして機能するように設計されています。AttentionベースのEncoder-Decoder（AED）アーキテクチャを利用しています。

📚 ドキュメント

🔥 ニュース

[2025/02/17] FireRedASR-LLM-Lモデルの重みを公開しました。
[2025/01/24] 技術レポート、ブログ、およびFireRedASR-AED-Lモデルの重みを公開しました。

評価

結果は、中国語の場合は文字誤り率（CER%）、英語の場合は単語誤り率（WER%）で報告されています。

公開中国語ASRベンチマークでの評価

モデル	#パラメータ	aishell1	aishell2	ws_net	ws_meeting	4つの平均
FireRedASR-LLM	8.3B	0.76	2.15	4.60	4.67	3.05
FireRedASR-AED	1.1B	0.55	2.52	4.88	4.76	3.18
Seed-ASR	12B+	0.68	2.27	4.66	5.69	3.33
Qwen-Audio	8.4B	1.30	3.10	9.50	10.87	6.19
SenseVoice-L	1.6B	2.09	3.04	6.01	6.73	4.47
Whisper-Large-v3	1.6B	5.14	4.96	10.48	18.87	9.86
Paraformer-Large	0.2B	1.68	2.85	6.74	6.97	4.56

wsはWenetSpeechを意味します。

公開中国語方言および英語ASRベンチマークでの評価

テストセット	KeSpeech	LibriSpeech test-clean	LibriSpeech test-other
FireRedASR-LLM	3.56	1.73	3.67
FireRedASR-AED	4.48	1.93	4.44
以前のSOTA結果	6.70	1.82	3.50

使用上のヒント

バッチビームサーチ

FireRedASR-LLMでバッチビームサーチを行う場合は、発話の入力長が似ていることを確認してください。発話長に大きな差がある場合、短い発話に繰り返し問題が発生する可能性があります。データセットを長さでソートするか、batch_sizeを1に設定して繰り返し問題を回避できます。

入力長の制限

FireRedASR-AEDは最大60秒のオーディオ入力をサポートしています。60秒を超える入力は幻聴問題を引き起こす可能性があり、200秒を超える入力は位置符号化エラーを引き起こします。
FireRedASR-LLMは最大30秒のオーディオ入力をサポートしています。それ以上の入力に対する動作は現在不明です。