FireRedASR - AED - L開源語音識別模型，支持多語言，歌詞識別超厲害！

Fireredasr AED L

由FireRedTeam開發

FireRedASR是一系列支持普通話、漢語方言和英語的開源工業級自動語音識別（ASR）模型，在公開普通話ASR基準測試中達到最新最優（SOTA）水平，同時具備卓越的歌詞識別能力。

語音識別支持多種語言開源協議:Apache-2.0 #工業級語音識別 #多語言方言支持 #歌詞識別優化

下載量 216

發布時間 : 1/24/2025

模型概述

FireRedASR為滿足不同應用場景對卓越性能和最優效率的多樣化需求，設計了兩類變體：FireRedASR-LLM和FireRedASR-AED。前者採用編碼器-適配器-大語言模型框架，旨在實現SOTA性能並支持端到端語音交互；後者基於注意力機制的編碼器-解碼器架構，平衡高性能與計算效率，可作為基於LLM的語音模型中的高效語音表徵模塊。

模型特點

多語言支持

支持普通話、漢語方言和英語的自動語音識別

工業級性能

在公開普通話ASR基準測試中達到SOTA水平

卓越的歌詞識別能力

具備優秀的歌詞識別性能

兩種架構選擇

提供LLM和AED兩種架構，滿足不同場景需求

模型能力

普通話語音識別

漢語方言語音識別

英語語音識別

歌詞識別

使用案例

語音轉文字

會議記錄

將會議錄音轉換為文字記錄

在ws_meeting數據集上CER為4.67%

語音助手

用於智能語音助手中的語音識別模塊

多媒體處理

字幕生成

為視頻內容自動生成字幕

歌詞識別

從音樂中識別歌詞

具備卓越的歌詞識別能力

🚀 FireRedASR：開源工業級自動語音識別模型

FireRedASR是一系列開源的工業級自動語音識別（ASR）模型，支持普通話、中文方言和英語。該模型在公開的普通話ASR基準測試中達到了新的最優水平（SOTA），同時還具備出色的歌詞識別能力。

🚀 快速開始

下載模型

從 huggingface 下載模型文件，並將其放置在 pretrained_models 文件夾中。

如果你想使用 FireRedASR-LLM-L，還需要下載 Qwen2-7B-Instruct 並將其放置在 pretrained_models 文件夾中。然後，進入 FireRedASR-LLM-L 文件夾並運行 $ ln -s ../Qwen2-7B-Instruct。

環境搭建

創建Python環境並安裝依賴：

$ git clone https://github.com/FireRedTeam/FireRedASR.git
$ conda create --name fireredasr python=3.10
$ pip install -r requirements.txt

設置Linux的PATH和PYTHONPATH：

$ export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH
$ export PYTHONPATH=$PWD/:$PYTHONPATH

將音頻轉換為16kHz 16位PCM格式：

ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav

快速啟動

$ cd examples/
$ bash inference_fireredasr_aed.sh
$ bash inference_fireredasr_llm.sh

命令行使用

$ speech2text.py --help
$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "aed" --model_dir pretrained_models/FireRedASR-AED-L
$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L

Python使用示例

基礎用法

from fireredasr.models.fireredasr import FireRedAsr

batch_uttid = ["BAC009S0764W0121"]
batch_wav_path = ["examples/wav/BAC009S0764W0121.wav"]

# FireRedASR-AED
model = FireRedAsr.from_pretrained("aed", "pretrained_models/FireRedASR-AED-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "nbest": 1,
        "decode_max_len": 0,
        "softmax_smoothing": 1.0,
        "aed_length_penalty": 0.0,
        "eos_penalty": 1.0
    }
)
print(results)


# FireRedASR-LLM
model = FireRedAsr.from_pretrained("llm", "pretrained_models/FireRedASR-LLM-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "decode_max_len": 0,
        "decode_min_len": 0,
        "repetition_penalty": 1.0,
        "llm_length_penalty": 0.0,
        "temperature": 1.0
    }
)
print(results)

✨ 主要特性

FireRedASR旨在滿足各種應用中對卓越性能和最佳效率的多樣化需求。它包含兩個變體：

FireRedASR-LLM：旨在實現最優性能（SOTA），並實現無縫的端到端語音交互。它採用了編碼器 - 適配器 - 大語言模型（LLM）框架，充分利用了大語言模型的能力。
FireRedASR-AED：旨在平衡高性能和計算效率，並作為基於大語言模型的語音模型中的有效語音表示模塊。它採用了基於注意力機制的編碼器 - 解碼器（AED）架構。

📚 詳細文檔

評估指標

結果以中文的字符錯誤率（CER%）和英文的單詞錯誤率（WER%）報告。

公開普通話ASR基準測試評估

模型	參數數量	aishell1	aishell2	ws_net	ws_meeting	四項平均
FireRedASR-LLM	83億	0.76	2.15	4.60	4.67	3.05
FireRedASR-AED	11億	0.55	2.52	4.88	4.76	3.18
Seed-ASR	120億+	0.68	2.27	4.66	5.69	3.33
Qwen-Audio	84億	1.30	3.10	9.50	10.87	6.19
SenseVoice-L	16億	2.09	3.04	6.01	6.73	4.47
Whisper-Large-v3	16億	5.14	4.96	10.48	18.87	9.86
Paraformer-Large	2億	1.68	2.85	6.74	6.97	4.56