mms-300m-1130-forced-aligner開源工具 - 支持多語言的文本音頻強制對齊利器

首頁

Mms 300m 1130 Forced Aligner

由MahmoudAshraf開發

基於Hugging Face預訓練模型的文本與音頻強制對齊工具，支持多種語言，內存效率高

語音識別

Transformers

支持多種語言#多語言語音對齊 #低內存消耗 #音頻文本同步

下載量 2.5M

發布時間 : 5/2/2024

模型概述

該模型利用Hugging Face的CTC預訓練模型實現音頻與文本的強制對齊功能，相比傳統方法顯著降低內存消耗。適用於語音識別、語音標註等場景。

模型特點

高效內存使用

相比TorchAudio的強制對齊API，顯著降低了內存消耗

多語言支持

支持超過100種語言的強制對齊

基於wav2vec2架構

採用先進的wav2vec2模型架構，確保對齊精度

簡單易用

提供清晰的Python API接口，便於集成到現有工作流

模型能力

音頻與文本強制對齊

語音識別

語音標註

多語言處理

使用案例

語音處理

字幕生成

為視頻內容生成精確的時間對齊字幕

提高字幕與語音的同步精度

語音標註

為語音數據集生成精確的單詞級時間標註

提升語音識別模型的訓練數據質量

語言學研究

語音分析

分析不同語言的語音特徵和發音模式

支持多語言語音學研究

🚀 基於Hugging Face CTC模型的強制對齊工具

本Python包提供了一種高效的方法，利用Hugging Face的預訓練模型在文本和音頻之間執行強制對齊。此外，它還採用了改進的實現方式，相比TorchAudio的強制對齊API，能顯著減少內存使用。

這裡上傳的模型檢查點是將基於強制對齊數據集訓練的MMS - 300M檢查點從torchaudio轉換為HF Transformers格式的版本。

🚀 快速開始

本工具可幫助你高效地完成文本和音頻的強制對齊任務，減少內存消耗。

📦 安裝指南

你可以使用以下命令安裝本工具：

pip install git+https://github.com/MahmoudAshraf97/ctc-forced-aligner.git

💻 使用示例

基礎用法

import torch
from ctc_forced_aligner import (
    load_audio,
    load_alignment_model,
    generate_emissions,
    preprocess_text,
    get_alignments,
    get_spans,
    postprocess_results,
)

audio_path = "your/audio/path"
text_path = "your/text/path"
language = "iso" # ISO-639-3 Language code
device = "cuda" if torch.cuda.is_available() else "cpu"
batch_size = 16


alignment_model, alignment_tokenizer = load_alignment_model(
    device,
    dtype=torch.float16 if device == "cuda" else torch.float32,
)

audio_waveform = load_audio(audio_path, alignment_model.dtype, alignment_model.device)


with open(text_path, "r") as f:
    lines = f.readlines()
text = "".join(line for line in lines).replace("\n", " ").strip()

emissions, stride = generate_emissions(
    alignment_model, audio_waveform, batch_size=batch_size
)

tokens_starred, text_starred = preprocess_text(
    text,
    romanize=True,
    language=language,
)

segments, scores, blank_token = get_alignments(
    emissions,
    tokens_starred,
    alignment_tokenizer,
)

spans = get_spans(tokens_starred, segments, blank_token)

word_timestamps = postprocess_results(text_starred, spans, stride, scores)

📄 許可證

本項目採用CC - BY - NC - 4.0許可證。

🔍 詳細信息

屬性	詳情
支持語言	ab、af、ak等眾多語言
模型類型	基於Hugging Face CTC的強制對齊模型
訓練數據	基於強制對齊數據集訓練
標籤	mms、wav2vec2、audio、voice、speech、forced - alignment
任務類型	自動語音識別
許可證	CC - BY - NC - 4.0