indic-seamless开源印度语言翻译模型 - 免费部署实现13种印语语音转文字

首页

Indic Seamless

由 ai4bharat 开发

基于SeamlessM4T-v2微调的印度语言语音转文字翻译模型，支持13种印度语言，性能超越基础模型及竞争系统。

语音识别

Transformers

支持多种语言#印度语言STT #多领域语音翻译 #SeamlessM4T微调

下载量 917

发布时间 : 3/4/2025

模型简介

该模型专用于印度语言的语音转文字翻译(STT)，在BhasaAnuvaad数据集上微调而成，在Fleurs数据集上创下新纪录。

模型特点

多语言支持

支持13种印度语言，覆盖主要印度语系。

高性能

在Fleurs数据集上创下新纪录，并在BhasaAnuvaad测试集上显著优于其他系统。

严格数据筛选

训练前对数据集进行了对齐分数(0.8)和挖掘分数(0.6)的阈值过滤。

模型能力

语音转文字翻译

多语言语音识别

批量音频处理

使用案例

语音转录

单音频转录

将单个音频文件转录为指定印度语言的文字

准确率高于基础模型和竞争系统

批量处理

数据集批量转录

对Fleurs等语音数据集进行批量转录处理

支持批量处理，效率高

🚀 IndicSeamless语音转文本翻译模型

IndicSeamless是一个用于印度语言语音转文本翻译的模型，它基于SeamlessM4T - v2在特定数据集上微调而来，在性能上超越了基础模型和其他竞争系统。

🚀 快速开始

安装

确保你已经安装了所需的依赖项：

pip install torch torchaudio transformers datasets

加载模型

import torchaudio
from transformers import SeamlessM4Tv2ForSpeechToText
from transformers import SeamlessM4TTokenizer, SeamlessM4TFeatureExtractor

model = SeamlessM4Tv2ForSpeechToText.from_pretrained("ai4bharat/indic-seamless").to("cuda")
processor = SeamlessM4TFeatureExtractor.from_pretrained("ai4bharat/indic-seamless")
tokenizer = SeamlessM4TTokenizer.from_pretrained("ai4bharat/indic-seamless")

单音频推理

audio, orig_freq = torchaudio.load("../10002398547238927970.wav")
audio = torchaudio.functional.resample(audio, orig_freq=orig_freq, new_freq=16_000) # must be a 16 kHz waveform array
audio_inputs = processor(audio, sampling_rate=16_000, return_tensors="pt").to("cuda")

text_out = model.generate(**audio_inputs, tgt_lang="hin")[0].cpu().numpy().squeeze()
print(tokenizer.decode(text_out, clean_up_tokenization_spaces=True, skip_special_tokens=True))

在Fleurs数据集上推理

from datasets import load_dataset

dataset = load_dataset("google/fleurs", "hi_in", split="test")

def process_audio(example):
    audio = example["audio"]["array"]
    audio_inputs = processor(audio, sampling_rate=16_000, return_tensors="pt").to("cuda")
    text_out = model.generate(**audio_inputs, tgt_lang="hin")[0].cpu().numpy().squeeze()
    return {"predicted_text": tokenizer.decode(text_out, clean_up_tokenization_spaces=True, skip_special_tokens=True)}

dataset = dataset.map(process_audio)
dataset = dataset.remove_columns(["audio"])
dataset.to_csv("fleurs_hi_predictions.csv")

使用Fleurs进行批量翻译

from datasets import load_dataset
import torch

def process_batch(batch):
    audio_arrays = [audio["array"] for audio in batch["audio"]]
    audio_inputs = processor(audio_arrays, sampling_rate=16_000, return_tensors="pt", padding=True).to("cuda")
    text_outs = model.generate(**audio_inputs, tgt_lang="hin")
    batch["predicted_text"] = [tokenizer.decode(text_out.cpu().numpy().squeeze(), clean_up_tokenization_spaces=True, skip_special_tokens=True) for text_out in text_outs]
    return batch

def batch_translate(language_code="hi_in", tgt_lang="hin"):
    dataset = load_dataset("google/fleurs", language_code, split="test")
    dataset = dataset.map(process_batch, batched=True, batch_size=8)
    return dataset["predicted_text"]

# Example usage
target_language = "hi_in"
translations = batch_translate(target_language, tgt_lang="hin")
print(translations)

✨ 主要特性

性能卓越：该模型在性能上超越了基础的SeamlessM4Tv2模型以及所有竞争的语音转文本系统，包括级联方法。
创造新纪录：在Fleurs数据集上取得了新的最优成绩，并在BhasaAnuvaad测试集上显著超越了所有其他系统，该测试集包含来自新领域的多样化数据。

📦 安装指南

确保你已经安装了所需的依赖项：

pip install torch torchaudio transformers datasets

💻 使用示例

基础用法

import torchaudio
from transformers import SeamlessM4Tv2ForSpeechToText
from transformers import SeamlessM4TTokenizer, SeamlessM4TFeatureExtractor

model = SeamlessM4Tv2ForSpeechToText.from_pretrained("ai4bharat/indic-seamless").to("cuda")
processor = SeamlessM4TFeatureExtractor.from_pretrained("ai4bharat/indic-seamless")
tokenizer = SeamlessM4TTokenizer.from_pretrained("ai4bharat/indic-seamless")

audio, orig_freq = torchaudio.load("../10002398547238927970.wav")
audio = torchaudio.functional.resample(audio, orig_freq=orig_freq, new_freq=16_000) # must be a 16 kHz waveform array
audio_inputs = processor(audio, sampling_rate=16_000, return_tensors="pt").to("cuda")

text_out = model.generate(**audio_inputs, tgt_lang="hin")[0].cpu().numpy().squeeze()
print(tokenizer.decode(text_out, clean_up_tokenization_spaces=True, skip_special_tokens=True))

高级用法

在Fleurs数据集上推理

from datasets import load_dataset

dataset = load_dataset("google/fleurs", "hi_in", split="test")

def process_audio(example):
    audio = example["audio"]["array"]
    audio_inputs = processor(audio, sampling_rate=16_000, return_tensors="pt").to("cuda")
    text_out = model.generate(**audio_inputs, tgt_lang="hin")[0].cpu().numpy().squeeze()
    return {"predicted_text": tokenizer.decode(text_out, clean_up_tokenization_spaces=True, skip_special_tokens=True)}

dataset = dataset.map(process_audio)
dataset = dataset.remove_columns(["audio"])
dataset.to_csv("fleurs_hi_predictions.csv")

使用Fleurs进行批量翻译

from datasets import load_dataset
import torch

def process_batch(batch):
    audio_arrays = [audio["array"] for audio in batch["audio"]]
    audio_inputs = processor(audio_arrays, sampling_rate=16_000, return_tensors="pt", padding=True).to("cuda")
    text_outs = model.generate(**audio_inputs, tgt_lang="hin")
    batch["predicted_text"] = [tokenizer.decode(text_out.cpu().numpy().squeeze(), clean_up_tokenization_spaces=True, skip_special_tokens=True) for text_out in text_outs]
    return batch

def batch_translate(language_code="hi_in", tgt_lang="hin"):
    dataset = load_dataset("google/fleurs", language_code, split="test")
    dataset = dataset.map(process_batch, batched=True, batch_size=8)
    return dataset["predicted_text"]

# Example usage
target_language = "hi_in"
translations = batch_translate(target_language, tgt_lang="hin")
print(translations)

📚 详细文档

本仓库托管了IndicSeamless模型，它是基于SeamlessM4T - v2在BhasaAnuvaad数据集上进行微调的，用于跨印度语言的语音转文本翻译（STT）。在训练前，数据集使用以下阈值进行了过滤：

对齐分数：0.8
挖掘分数：0.6

🔧 技术细节

该模型基于SeamlessM4T - v2进行微调，在BhasaAnuvaad数据集上进行训练。训练前对数据集进行了过滤，设置了对齐分数和挖掘分数的阈值，以保证数据质量。在性能上，它超越了基础的SeamlessM4Tv2模型以及所有竞争的语音转文本系统，在Fleurs和BhasaAnuvaad测试集上取得了优异的成绩。

📄 许可证

本模型根据知识共享署名 - 非商业性使用 4.0 国际许可协议（CC BY - NC 4.0）发布。

📄 引用

如果你在工作中使用了BhasaAnuvaad，请引用我们：

@misc{jain2024bhasaanuvaadspeechtranslationdataset,
      title={BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages}, 
      author={Sparsh Jain and Ashwin Sankar and Devilal Choudhary and Dhairya Suman and Nikhil Narasimhan and Mohammed Safi Ur Rahman Khan and Anoop Kunchukuttan and Mitesh M Khapra and Raj Dabre},
      year={2024},
      eprint={2411.04699},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.04699}, 
}

📋 模型信息

属性	详情
库名称	transformers
数据集	ai4bharat/NPTEL、ai4bharat/IndicVoices - ST、ai4bharat/WordProject、ai4bharat/Spoken - Tutorial、ai4bharat/Mann - ki - Baat、ai4bharat/Vanipedia、ai4bharat/UGCE - Resources
任务类型	自动语音识别
支持语言	英语、阿萨姆语、孟加拉语、古吉拉特语、印地语、泰米尔语、泰卢固语、乌尔都语、卡纳达语、马拉雅拉姆语、马拉地语、信德语、尼泊尔语
许可证	知识共享署名 - 非商业性使用 4.0 国际许可协议（CC BY - NC 4.0）