FireRedASR - AED - L开源语音识别模型，支持多语言，歌词识别超厉害！

Fireredasr AED L

由 FireRedTeam 开发

FireRedASR是一系列支持普通话、汉语方言和英语的开源工业级自动语音识别（ASR）模型，在公开普通话ASR基准测试中达到最新最优（SOTA）水平，同时具备卓越的歌词识别能力。

语音识别支持多种语言开源协议:Apache-2.0 #工业级语音识别 #多语言方言支持 #歌词识别优化

下载量 216

发布时间 : 1/24/2025

模型简介

FireRedASR为满足不同应用场景对卓越性能和最优效率的多样化需求，设计了两类变体：FireRedASR-LLM和FireRedASR-AED。前者采用编码器-适配器-大语言模型框架，旨在实现SOTA性能并支持端到端语音交互；后者基于注意力机制的编码器-解码器架构，平衡高性能与计算效率，可作为基于LLM的语音模型中的高效语音表征模块。

模型特点

多语言支持

支持普通话、汉语方言和英语的自动语音识别

工业级性能

在公开普通话ASR基准测试中达到SOTA水平

卓越的歌词识别能力

具备优秀的歌词识别性能

两种架构选择

提供LLM和AED两种架构，满足不同场景需求

模型能力

普通话语音识别

汉语方言语音识别

英语语音识别

歌词识别

使用案例

语音转文字

会议记录

将会议录音转换为文字记录

在ws_meeting数据集上CER为4.67%

语音助手

用于智能语音助手中的语音识别模块

多媒体处理

字幕生成

为视频内容自动生成字幕

歌词识别

从音乐中识别歌词

具备卓越的歌词识别能力

🚀 FireRedASR：开源工业级自动语音识别模型

FireRedASR是一系列开源的工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。该模型在公开的普通话ASR基准测试中达到了新的最优水平（SOTA），同时还具备出色的歌词识别能力。

🚀 快速开始

下载模型

从 huggingface 下载模型文件，并将其放置在 pretrained_models 文件夹中。

如果你想使用 FireRedASR-LLM-L，还需要下载 Qwen2-7B-Instruct 并将其放置在 pretrained_models 文件夹中。然后，进入 FireRedASR-LLM-L 文件夹并运行 $ ln -s ../Qwen2-7B-Instruct。

环境搭建

创建Python环境并安装依赖：

$ git clone https://github.com/FireRedTeam/FireRedASR.git
$ conda create --name fireredasr python=3.10
$ pip install -r requirements.txt

设置Linux的PATH和PYTHONPATH：

$ export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH
$ export PYTHONPATH=$PWD/:$PYTHONPATH

将音频转换为16kHz 16位PCM格式：

ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav

快速启动

$ cd examples/
$ bash inference_fireredasr_aed.sh
$ bash inference_fireredasr_llm.sh

命令行使用

$ speech2text.py --help
$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "aed" --model_dir pretrained_models/FireRedASR-AED-L
$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L

Python使用示例

基础用法

from fireredasr.models.fireredasr import FireRedAsr

batch_uttid = ["BAC009S0764W0121"]
batch_wav_path = ["examples/wav/BAC009S0764W0121.wav"]

# FireRedASR-AED
model = FireRedAsr.from_pretrained("aed", "pretrained_models/FireRedASR-AED-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "nbest": 1,
        "decode_max_len": 0,
        "softmax_smoothing": 1.0,
        "aed_length_penalty": 0.0,
        "eos_penalty": 1.0
    }
)
print(results)


# FireRedASR-LLM
model = FireRedAsr.from_pretrained("llm", "pretrained_models/FireRedASR-LLM-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "decode_max_len": 0,
        "decode_min_len": 0,
        "repetition_penalty": 1.0,
        "llm_length_penalty": 0.0,
        "temperature": 1.0
    }
)
print(results)

✨ 主要特性

FireRedASR旨在满足各种应用中对卓越性能和最佳效率的多样化需求。它包含两个变体：

FireRedASR-LLM：旨在实现最优性能（SOTA），并实现无缝的端到端语音交互。它采用了编码器 - 适配器 - 大语言模型（LLM）框架，充分利用了大语言模型的能力。
FireRedASR-AED：旨在平衡高性能和计算效率，并作为基于大语言模型的语音模型中的有效语音表示模块。它采用了基于注意力机制的编码器 - 解码器（AED）架构。

📚 详细文档

评估指标

结果以中文的字符错误率（CER%）和英文的单词错误率（WER%）报告。

公开普通话ASR基准测试评估

模型	参数数量	aishell1	aishell2	ws_net	ws_meeting	四项平均
FireRedASR-LLM	83亿	0.76	2.15	4.60	4.67	3.05
FireRedASR-AED	11亿	0.55	2.52	4.88	4.76	3.18
Seed-ASR	120亿+	0.68	2.27	4.66	5.69	3.33
Qwen-Audio	84亿	1.30	3.10	9.50	10.87	6.19
SenseVoice-L	16亿	2.09	3.04	6.01	6.73	4.47
Whisper-Large-v3	16亿	5.14	4.96	10.48	18.87	9.86
Paraformer-Large	2亿	1.68	2.85	6.74	6.97	4.56