nb-whisper-large-distil-turbo-beta开源模型 - 助力挪威语语音快速且精准转录

首页

Nb Whisper Large Distil Turbo Beta

由 NbAiLab 开发

挪威国家图书馆开发的挪威语自动语音识别模型的轻量化加速版本，通过蒸馏过程减少参数量，同时保持转录质量。

语音识别

Transformers

支持多种语言开源协议:Apache-2.0 #挪威语语音识别 #轻量化蒸馏模型 #低资源设备适配

下载量 478

发布时间 : 11/28/2024

模型简介

这是一个针对挪威语（书面挪威语）优化的自动语音识别模型，特别适合资源受限环境下的实时转录需求。

模型特点

高效推理

参数量从1550M缩减至756M，显著提升推理速度

资源优化

专为低内存设备和边缘计算场景设计

精度保留

通过蒸馏技术保持与原始大模型相当的识别准确率

多格式支持

提供PyTorch、TensorFlow、whisper.cpp和ONXX多种格式

模型能力

挪威语语音转文本

实时语音识别

低延迟转录

边缘设备部署

使用案例

实时转录

移动端语音输入

在智能手机等移动设备上实现实时语音转文字

会议记录

自动生成会议语音内容的文字记录

媒体处理

广播内容字幕生成

为挪威广播公司(NRK)节目自动生成字幕

🚀 NB-Whisper Large Distilled Turbo BETA

NB Whisper Large Distil Turbo BETA 是挪威国家图书馆开发的挪威语自动语音识别（ASR）模型的轻量、快速版本。这个经过蒸馏的模型在优化资源受限环境使用的同时，仍保持了较高的转录质量。它通过蒸馏过程从原始的 NB-Whisper Large 模型衍生而来，在减少参数数量的同时，保留了自动语音识别（ASR）任务的性能。

请注意，此项目仍在进行中，该模型仅用于测试目的。我们非常感谢您提供的所有反馈。

🚀 快速开始

本地部署

若要在本地运行该模型，需安装必要的库并使用 Transformers 管道：

pip install transformers>=4.35.2

from transformers import pipeline

# 加载经过蒸馏的模型
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")

# 转录音频
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])

✨ 主要特性

模型概述

模型大小：从 1550M 参数（大模型）减少到 756M 参数（蒸馏模型）。
支持语言：挪威语（书面挪威语）。
基础模型：源自 NbAiLab/nb-whisper-large。
许可证：Apache 2.0。

关键特性

速度快：推理速度更快，计算需求更低，适合边缘设备。
轻量级：非常适合对内存使用要求较低的应用程序。
精度保留：在单词错误率（WER）和字符错误率（CER）基准测试中保持了有竞争力的性能。

📦 安装指南

请参考上述“快速开始”部分的本地部署步骤。

💻 使用示例

基础用法

from transformers import pipeline

# 加载经过蒸馏的模型
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")

# 转录音频
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])

📚 详细文档

训练和蒸馏细节

蒸馏过程：该模型使用师生框架从 NB-Whisper Large 模型中蒸馏而来，在减少模型大小的同时尽量减少精度损失。
使用的数据集：与原始模型使用相同的高质量数据集，包括：
- NbAiLab/ncc_speech
- NbAiLab/NST
- NbAiLab/NPSC
训练步骤：蒸馏过程涉及多次微调迭代，以实现模型大小和性能的最佳平衡。

性能

该蒸馏模型在许多场景下取得了与完整的 NB-Whisper Large 模型相似的结果，但针对速度和资源效率进行了优化。它非常适合实时应用，如实时转录或移动设备使用。

示例用例

在低资源设备上进行实时转录。
在需要低延迟响应的应用程序中进行语音分析。
在移动或嵌入式系统中进行边缘部署。

API

通过简单 API 访问模型的说明包含在 Spaces 下的演示中。请注意，这些演示是临时的，仅在几周内可用。

训练数据

训练数据来自 Språkbanken 和挪威国家图书馆的数字馆藏，包括：

NST 挪威语 ASR 数据库（16 kHz）及其相应的数据集
Språkbanken 转录的挪威议会演讲
电视广播（NRK）字幕（挪威国家图书馆数字馆藏）
有声读物（挪威国家图书馆数字馆藏）

下游使用

这些模型，尤其是较小的模型，可能偶尔会出现幻觉现象，并且可能会遗漏部分转录内容。它们旨在将口语转换为语法正确的书面句子，可能并非总是逐字翻译。我们为希望使用不同转录风格的用户提供了两种额外的模型变体。我们鼓励用户亲自尝试这些模型，以获得更好的理解。

偏差、风险和局限性

在没有进行充分风险评估和缓解的情况下使用这些模型可能被认为是不负责任的。它们可能包含偏差或其他不良失真。部署这些模型或将其集成到系统或服务中的用户有责任减轻风险并遵守适用的人工智能法规。作为模型所有者，挪威国家图书馆对第三方使用这些模型所产生的任何结果不承担责任。

软件

该模型使用 Jax/Flax 进行训练，并转换为 PyTorch、Tensorflow、whisper.cpp 和 ONXX 格式。这些格式可在 Files and versions 下获取。我们欢迎将其转换为其他格式的请求。所有训练代码和脚本均在 GitHub 仓库 nb-whisper 下以 Apache 许可证 2.0 发布。

引用与贡献者

NB-Whisper Large 模型是挪威国家图书馆由 Per Egil Kummervold（@pere）领导的 NoSTram 项目的成果。主要贡献者包括 Javier de la Rosa（@versae）、Freddy Wetjen（@freddyw）和 Rolv-Arild Braaten（@Rolv-Arild）。在 Svein Arne Brygfjeld（@Brygfjeld）的指导下，NB AI-Lab 支持了该项目的成功完成。关于我们的过程和发现的详细论文即将发布。

免责声明

本仓库中发布的模型旨在用于通用目的，并可供第三方使用。这些模型可能存在偏差和/或其他不良失真。当第三方部署或向其他方提供使用这些模型（或基于这些模型的系统）的系统和/或服务，或成为这些模型的用户时，他们应注意减轻使用这些模型所产生的风险，并在任何情况下遵守适用的法规，包括有关人工智能使用的法规。在任何情况下，模型所有者（挪威国家图书馆）均不对第三方使用这些模型所产生的任何结果承担责任。

归属

该模型根据 Apache-2.0 许可证发布。请注意，对于在挪威进行的下载，即使 Apache 许可证中未明确提及，挪威版权法中规定的归属要求在相关情况下仍然适用。尽管在其他国家下载和使用该模型可能不需要归属声明，但我们强烈建议在字幕上标注“Undertekster generert av NB-Whisper Medium v1.0” 或 “Subtitles generated by NB-Whisper Medium v1.0”。这也将确保未来的 ASR 程序不会在机器生成的字幕上进行训练。

致谢

我们感谢 Google TPU Research Cloud 提供的训练资源、Google Cloud 提供的翻译信用额度以及 HuggingFace 的 Sanchit Ghandi 提供的技术支持。特别感谢 Språkbanken 的 Per Erik Solberg 在 Stortinget 语料库方面的合作。