首页

Fireredasr LLM L

由 FireRedTeam 开发

FireRedASR是一系列支持普通话、中国方言和英语的开源工业级自动语音识别（ASR）模型，在公开的普通话ASR基准测试中实现了新的最先进水平（SOTA），同时具备出色的歌词识别能力。

语音识别支持多种语言开源协议:Apache-2.0 #工业级ASR #多语言方言支持 #歌词识别

下载量 151

发布时间 : 2/10/2025

模型简介

FireRedASR旨在满足不同应用场景中对卓越性能和最优效率的多样化需求，包含两种变体：FireRedASR-LLM和FireRedASR-AED。

模型特点

多语言支持

支持普通话、中国方言和英语的语音识别

工业级性能

在公开的普通话ASR基准测试中实现了新的最先进水平（SOTA）

双架构设计

提供FireRedASR-LLM和FireRedASR-AED两种架构，满足不同性能与效率需求

歌词识别能力

具备出色的歌词识别能力

模型能力

普通话语音识别

英语语音识别

中国方言语音识别

歌词识别

使用案例

语音转文字

会议记录

将会议录音转换为文字记录

在ws_meeting数据集上CER为4.67%

语音助手

用于语音助手中的语音识别模块

媒体处理

字幕生成

为视频内容自动生成字幕

歌词识别

从音乐中识别歌词

🚀 FireRedASR：开源工业级自动语音识别模型

FireRedASR 是一系列开源的工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。该模型在公开的普通话 ASR 基准测试中达到了新的最优水平（SOTA），同时还具备出色的歌词识别能力。

[代码] [论文] [模型] [博客]

FireRedASR: 开源工业级
自动语音识别模型

徐开拓 · 谢丰隆 · 唐旭 · 胡耀

🔥 最新消息

[2025/02/17] 我们发布了 FireRedASR-LLM-L 模型权重。
[2025/01/24] 我们发布了技术报告、博客和 FireRedASR-AED-L 模型权重。

✨ 主要特性

FireRedASR 旨在满足各种应用中对卓越性能和最佳效率的多样化需求。它包含两种变体：

FireRedASR-LLM：旨在实现最优（SOTA）性能，并实现无缝的端到端语音交互。它采用了编码器 - 适配器 - 大语言模型（LLM）框架。
FireRedASR-AED：旨在平衡高性能和计算效率，并作为基于大语言模型的语音模型中的有效语音表示模块。它采用了基于注意力机制的编码器 - 解码器（AED）架构。

📦 安装指南

环境搭建

创建 Python 环境并安装依赖项

$ git clone https://github.com/FireRedTeam/FireRedASR.git
$ conda create --name fireredasr python=3.10
$ pip install -r requirements.txt

设置 Linux 的 PATH 和 PYTHONPATH

$ export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH
$ export PYTHONPATH=$PWD/:$PYTHONPATH

将音频转换为 16kHz 16 位 PCM 格式

ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav

从 huggingface 下载模型文件，并将其放置在 pretrained_models 文件夹中。

如果你想使用 FireRedASR-LLM-L，还需要下载 Qwen2-7B-Instruct 并将其放置在 pretrained_models 文件夹中。然后，进入 FireRedASR-LLM-L 文件夹并运行 $ ln -s ../Qwen2-7B-Instruct

💻 使用示例

基础用法

快速开始

$ cd examples
$ bash inference_fireredasr_aed.sh
$ bash inference_fireredasr_llm.sh

命令行使用

$ speech2text.py --help
$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "aed" --model_dir pretrained_models/FireRedASR-AED-L
$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L

Python 使用

from fireredasr.models.fireredasr import FireRedAsr

batch_uttid = ["BAC009S0764W0121"]
batch_wav_path = ["examples/wav/BAC009S0764W0121.wav"]

# FireRedASR-AED
model = FireRedAsr.from_pretrained("aed", "pretrained_models/FireRedASR-AED-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "nbest": 1,
        "decode_max_len": 0,
        "softmax_smoothing": 1.25,
        "aed_length_penalty": 0.6,
        "eos_penalty": 1.0
    }
)
print(results)


# FireRedASR-LLM
model = FireRedAsr.from_pretrained("llm", "pretrained_models/FireRedASR-LLM-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "decode_max_len": 0,
        "decode_min_len": 0,
        "repetition_penalty": 3.0,
        "llm_length_penalty": 1.0,
        "temperature": 1.0
    }
)
print(results)

📚 详细文档

评估结果

结果以中文的字符错误率（CER%）和英文的单词错误率（WER%）报告。

公开普通话 ASR 基准测试评估

模型	参数数量	aishell1	aishell2	ws_net	ws_meeting	四项平均
FireRedASR-LLM	83 亿	0.76	2.15	4.60	4.67	3.05
FireRedASR-AED	11 亿	0.55	2.52	4.88	4.76	3.18
Seed-ASR	超 120 亿	0.68	2.27	4.66	5.69	3.33
Qwen-Audio	84 亿	1.30	3.10	9.50	10.87	6.19
SenseVoice-L	16 亿	2.09	3.04	6.01	6.73	4.47
Whisper-Large-v3	16 亿	5.14	4.96	10.48	18.87	9.86
Paraformer-Large	2 亿	1.68	2.85	6.74	6.97	4.56

ws 表示 WenetSpeech。

公开中文方言和英文 ASR 基准测试评估

测试集	KeSpeech	LibriSpeech test-clean	LibriSpeech test-other
FireRedASR-LLM	3.56	1.73	3.67
FireRedASR-AED	4.48	1.93	4.44
之前的最优结果	6.70	1.82	3.50

使用提示

批量束搜索

⚠️ 重要提示

使用 FireRedASR-LLM 进行批量束搜索时，请确保输入的语音长度相似。如果语音长度差异较大，较短的语音可能会出现重复问题。你可以按长度对数据集进行排序，或将 batch_size 设置为 1 以避免重复问题。

输入长度限制

⚠️ 重要提示

FireRedASR-AED 支持最长 60 秒的音频输入。超过 60 秒的输入可能会导致幻觉问题，超过 200 秒的输入将触发位置编码错误。

FireRedASR-LLM 支持最长 30 秒的音频输入。目前，对于更长输入的表现未知。

🔗 致谢

感谢以下开源项目：

📄 许可证

本项目采用 Apache-2.0 许可证。

📖 引用

@article{xu2025fireredasr,
  title={FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration},
  author={Xu, Kai-Tuo and Xie, Feng-Long and Tang, Xu and Hu, Yao},
  journal={arXiv preprint arXiv:2501.14350},
  year={2025}
}