mms - 300m - 1130 強制アライナーオープンソースツール - 多言語対応のテキストと音声の強制アライメントに優れたツール

ホーム

Mms 300m 1130 Forced Aligner

MahmoudAshrafによって開発

Hugging Faceの事前学習モデルを基にしたテキストと音声の強制アライメントツールで、多言語対応かつメモリ効率に優れています

音声認識

Transformers

複数言語対応#多言語音声アライメント #低メモリ消費 #音声テキスト同期

ダウンロード数 2.5M

リリース時間 : 5/2/2024

モデル概要

このモデルはHugging FaceのCTC事前学習モデルを利用して音声とテキストの強制アライメント機能を実現し、従来の方法に比べてメモリ消費を大幅に削減します。音声認識や音声アノテーションなどのシナリオに適しています。

モデル特徴

効率的なメモリ使用

TorchAudioの強制アライメントAPIと比較して、メモリ消費を大幅に削減

多言語サポート

100以上の言語の強制アライメントに対応

wav2vec2アーキテクチャ採用

先進的なwav2vec2モデルアーキテクチャを採用し、アライメント精度を確保

シンプルで使いやすい

明確なPython APIインターフェースを提供し、既存のワークフローへの統合が容易

モデル能力

音声とテキストの強制アライメント

音声認識

音声アノテーション

多言語処理

使用事例

音声処理

字幕生成

動画コンテンツに正確な時間同期字幕を生成

字幕と音声の同期精度を向上

音声アノテーション

音声データセットに単語レベルの正確な時間アノテーションを生成

音声認識モデルのトレーニングデータ品質を向上

言語学研究

音声分析

異なる言語の音声特徴と発音パターンを分析

多言語音声学研究をサポート

🚀 Hugging Face CTCモデルによる強制アラインメント

このPythonパッケージは、Hugging Faceの事前学習済みモデルを使用して、テキストと音声の間の強制アラインメントを効率的に実行する方法を提供します。また、TorchAudioの強制アラインメントAPIよりもはるかに少ないメモリを使用する改良された実装も備えています。

ここにアップロードされたモデルチェックポイントは、強制アラインメントデータセットで学習されたMMS - 300MチェックポイントをtorchaudioからHF Transformersに変換したものです。

🚀 クイックスタート

このパッケージを使用することで、音声とテキストの強制アラインメントを簡単に行うことができます。以下に、インストールと使用方法を説明します。

📦 インストール

pip install git+https://github.com/MahmoudAshraf97/ctc-forced-aligner.git

💻 使用例

基本的な使用法

import torch
from ctc_forced_aligner import (
    load_audio,
    load_alignment_model,
    generate_emissions,
    preprocess_text,
    get_alignments,
    get_spans,
    postprocess_results,
)

audio_path = "your/audio/path"
text_path = "your/text/path"
language = "iso" # ISO-639-3 Language code
device = "cuda" if torch.cuda.is_available() else "cpu"
batch_size = 16


alignment_model, alignment_tokenizer = load_alignment_model(
    device,
    dtype=torch.float16 if device == "cuda" else torch.float32,
)

audio_waveform = load_audio(audio_path, alignment_model.dtype, alignment_model.device)


with open(text_path, "r") as f:
    lines = f.readlines()
text = "".join(line for line in lines).replace("\n", " ").strip()

emissions, stride = generate_emissions(
    alignment_model, audio_waveform, batch_size=batch_size
)

tokens_starred, text_starred = preprocess_text(
    text,
    romanize=True,
    language=language,
)

segments, scores, blank_token = get_alignments(
    emissions,
    tokens_starred,
    alignment_tokenizer,
)

spans = get_spans(tokens_starred, segments, blank_token)

word_timestamps = postprocess_results(text_starred, spans, stride, scores)

📄 ライセンス

このプロジェクトは CC BY-NC 4.0 ライセンスの下で提供されています。

付属情報

サポート言語

属性	详情
サポート言語	ab、af、ak、am、ar、as、av、ay、az、ba、bm、be、bn、bi、bo、sh、br、bg、ca、cs、ce、cv、ku、cy、da、de、dv、dz、el、en、eo、et、eu、ee、fo、fa、fj、fi、fr、fy、ff、ga、gl、gn、gu、zh、ht、ha、he、hi、sh、hu、hy、ig、ia、ms、is、it、jv、ja、kn、ka、kk、kr、km、ki、rw、ky、ko、kv、lo、la、lv、ln、lt、lb、lg、mh、ml、mr、ms、mk、mg、mt、mn、mi、my、zh、nl、no、no、ne、ny、oc、om、or、os、pa、pl、pt、ms、ps、qu（複数）、ro、rn、ru、sg、sk、sl、sm、sn、sd、so、es、sq、su、sv、sw、ta、tt、te、tg、tl、th、ti、ts、tr、uk、ms、vi、wo、xh、ms、yo、ms、zu、za

属性

详情

サポート言語

ab、af、ak、am、ar、as、av、ay、az、ba、bm、be、bn、bi、bo、sh、br、bg、ca、cs、ce、cv、ku、cy、da、de、dv、dz、el、en、eo、et、eu、ee、fo、fa、fj、fi、fr、fy、ff、ga、gl、gn、gu、zh、ht、ha、he、hi、sh、hu、hy、ig、ia、ms、is、it、jv、ja、kn、ka、kk、kr、km、ki、rw、ky、ko、kv、lo、la、lv、ln、lt、lb、lg、mh、ml、mr、ms、mk、mg、mt、mn、mi、my、zh、nl、no、no、ne、ny、oc、om、or、os、pa、pl、pt、ms、ps、qu（複数）、ro、rn、ru、sg、sk、sl、sm、sn、sd、so、es、sq、su、sv、sw、ta、tt、te、tg、tl、th、ti、ts、tr、uk、ms、vi、wo、xh、ms、yo、ms、zu、za