🚀 NB-Whisper Large Distilled Turbo BETA
NB Whisper Large Distil Turbo BETA 是挪威国家图书馆开发的挪威语自动语音识别(ASR)模型的轻量、快速版本。这个经过蒸馏的模型在优化资源受限环境使用的同时,仍保持了较高的转录质量。它通过蒸馏过程从原始的 NB-Whisper Large 模型衍生而来,在减少参数数量的同时,保留了自动语音识别(ASR)任务的性能。
请注意,此项目仍在进行中,该模型仅用于测试目的。我们非常感谢您提供的所有反馈。
🚀 快速开始
本地部署
若要在本地运行该模型,需安装必要的库并使用 Transformers 管道:
pip install transformers>=4.35.2
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])
✨ 主要特性
模型概述
关键特性
- 速度快:推理速度更快,计算需求更低,适合边缘设备。
- 轻量级:非常适合对内存使用要求较低的应用程序。
- 精度保留:在单词错误率(WER)和字符错误率(CER)基准测试中保持了有竞争力的性能。
📦 安装指南
请参考上述“快速开始”部分的本地部署步骤。
💻 使用示例
基础用法
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])
📚 详细文档
训练和蒸馏细节
- 蒸馏过程:该模型使用师生框架从 NB-Whisper Large 模型中蒸馏而来,在减少模型大小的同时尽量减少精度损失。
- 使用的数据集:与原始模型使用相同的高质量数据集,包括:
- NbAiLab/ncc_speech
- NbAiLab/NST
- NbAiLab/NPSC
- 训练步骤:蒸馏过程涉及多次微调迭代,以实现模型大小和性能的最佳平衡。
性能
该蒸馏模型在许多场景下取得了与完整的 NB-Whisper Large 模型相似的结果,但针对速度和资源效率进行了优化。它非常适合实时应用,如实时转录或移动设备使用。
示例用例
- 在低资源设备上进行实时转录。
- 在需要低延迟响应的应用程序中进行语音分析。
- 在移动或嵌入式系统中进行边缘部署。
API
通过简单 API 访问模型的说明包含在 Spaces 下的演示中。请注意,这些演示是临时的,仅在几周内可用。
训练数据
训练数据来自 Språkbanken 和挪威国家图书馆的数字馆藏,包括:
- NST 挪威语 ASR 数据库(16 kHz)及其相应的数据集
- Språkbanken 转录的挪威议会演讲
- 电视广播(NRK)字幕(挪威国家图书馆数字馆藏)
- 有声读物(挪威国家图书馆数字馆藏)
下游使用
这些模型,尤其是较小的模型,可能偶尔会出现幻觉现象,并且可能会遗漏部分转录内容。它们旨在将口语转换为语法正确的书面句子,可能并非总是逐字翻译。我们为希望使用不同转录风格的用户提供了两种额外的模型变体。我们鼓励用户亲自尝试这些模型,以获得更好的理解。
偏差、风险和局限性
在没有进行充分风险评估和缓解的情况下使用这些模型可能被认为是不负责任的。它们可能包含偏差或其他不良失真。部署这些模型或将其集成到系统或服务中的用户有责任减轻风险并遵守适用的人工智能法规。作为模型所有者,挪威国家图书馆对第三方使用这些模型所产生的任何结果不承担责任。
软件
该模型使用 Jax/Flax 进行训练,并转换为 PyTorch、Tensorflow、whisper.cpp 和 ONXX 格式。这些格式可在 Files and versions
下获取。我们欢迎将其转换为其他格式的请求。所有训练代码和脚本均在 GitHub 仓库 nb-whisper 下以 Apache 许可证 2.0 发布。
引用与贡献者
NB-Whisper Large 模型是挪威国家图书馆由 Per Egil Kummervold(@pere)领导的 NoSTram 项目的成果。主要贡献者包括 Javier de la Rosa(@versae)、Freddy Wetjen(@freddyw)和 Rolv-Arild Braaten(@Rolv-Arild)。在 Svein Arne Brygfjeld(@Brygfjeld)的指导下,NB AI-Lab 支持了该项目的成功完成。关于我们的过程和发现的详细论文即将发布。
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良失真。当第三方部署或向其他方提供使用这些模型(或基于这些模型的系统)的系统和/或服务,或成为这些模型的用户时,他们应注意减轻使用这些模型所产生的风险,并在任何情况下遵守适用的法规,包括有关人工智能使用的法规。在任何情况下,模型所有者(挪威国家图书馆)均不对第三方使用这些模型所产生的任何结果承担责任。
归属
该模型根据 Apache-2.0 许可证发布。请注意,对于在挪威进行的下载,即使 Apache 许可证中未明确提及,挪威版权法中规定的归属要求在相关情况下仍然适用。尽管在其他国家下载和使用该模型可能不需要归属声明,但我们强烈建议在字幕上标注“Undertekster generert av NB-Whisper Medium v1.0” 或 “Subtitles generated by NB-Whisper Medium v1.0”。这也将确保未来的 ASR 程序不会在机器生成的字幕上进行训练。
致谢
我们感谢 Google TPU Research Cloud 提供的训练资源、Google Cloud 提供的翻译信用额度以及 HuggingFace 的 Sanchit Ghandi 提供的技术支持。特别感谢 Språkbanken 的 Per Erik Solberg 在 Stortinget 语料库方面的合作。
联系我们
如需反馈、技术问题或合作咨询,请联系 ailab@nb.no。如果您计划在研究中使用该模型,请联系我们以获取即将发布的论文的最新信息,以便进行引用。
局限性和风险
虽然蒸馏模型效率很高,但用户可能会注意到:
- 在某些极端情况下,与原始大模型相比,性能略有下降。
- 可能存在从训练数据继承而来的偏差或转录不准确问题。
建议用户针对特定用例评估该模型,并根据需要减轻风险。
引用与联系
如果您在工作中使用了该模型,请引用挪威国家图书馆。如需更多信息或咨询,请联系 ailab@nb.no。
📄 许可证
本项目采用 Apache 2.0 许可证。