開源SeamlessM4Tv2-Large語音編碼器 - 支持跨多語言序列級音頻分類

首頁

Seamless M4t V2 Large Speech Encoder

由WueNLP開發

從SeamlessM4Tv2-Large中提取的語音編碼器模塊，擅長跨語言和多語言的序列級音頻分類任務

音頻分類

Transformers

支持多種語言#多語言語音編碼 #音頻分類 #跨語言處理

下載量 67

發布時間 : 11/18/2024

模型概述

該模型是一個多語言語音編碼器，專門用於音頻分類任務，支持超過100種語言。

模型特點

多語言支持

支持超過100種語言的語音編碼和分類

音頻分類

擅長跨語言和多語言的序列級音頻分類任務

高效處理

優化用於處理16kHz音頻波形

模型能力

音頻特徵提取

多語言音頻分類

語音編碼

使用案例

語音識別

多語言語音分類

對多種語言的語音進行分類

在SIB-Fleurs數據集上表現優異

語音處理

語音特徵提取

從語音中提取有用的特徵

🚀 SeamlessM4Tv2-Large語音編碼器

本項目從 SeamlessM4Tv2-Large 中提取出語音編碼器，該編碼器在跨語言和多語言序列級音頻分類任務中表現出色（相關結果可參考 SIB-Fleurs）。

所有榮譽歸功於原始的 SeamlessM4Tv2-Large 團隊。

🚀 快速開始

本項目可用於跨語言和多語言序列級音頻分類任務，從 SeamlessM4Tv2-Large 中提取的語音編碼器能為相關任務提供強大支持。

✨ 主要特性

多語言支持：支持眾多語言，包括但不限於英語、中文、法語、德語等，可查看文檔開頭的語言列表。
音頻分類能力：在跨語言和多語言序列級音頻分類任務中表現出色。

📦 安裝指南

文檔未提及具體安裝步驟，可根據 transformers 庫的常規安裝方式進行安裝。

💻 使用示例

基礎用法

# 最好在GPU上同時使用特徵提取器和模型！
from datasets import load_dataset
from transformers import (
    AutoModel,
    AutoModelForAudioClassification,
    AutoFeatureExtractor,
)
import torch
import torchaudio

device = "cuda:0"

feature_extractor = AutoFeatureExtractor.from_pretrained(
    "WueNLP/seamless-m4t-v2-large-speech-encoder", trust_remote_code=True
)
model = AutoModel.from_pretrained(
    "WueNLP/seamless-m4t-v2-large-speech-encoder",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
).to(device)

audio, orig_freq = torchaudio.load(
    "https://www2.cs.uic.edu/~i101/SoundFiles/preamble10.wav"
)
audio = torchaudio.functional.resample(
    audio, orig_freq=orig_freq, new_freq=16_000
)  # 必須是16 kHz的波形數組
# return_attention_mask=True用於批量處理
audio_inputs = feature_extractor(audio, return_attention_mask=True, return_tensors="pt", device=device)
audio_inputs = audio_inputs.to(device)
with torch.autocast(dtype=torch.bfloat16, device_type="cuda"):
    audio_hidden_states = model(**audio_inputs)[0].detach().cpu().numpy().squeeze()


# 實例化一個用於音頻分類的模型
model = AutoModelForAudioClassification.from_pretrained(
    "WueNLP/seamless-m4t-v2-large-speech-encoder",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    # SIB-Fleurs有7個標籤
    num_labels=7,
).to(device)
eng_Latn = load_dataset("wuenlp/sib-fleurs", "eng_Latn", split="train")
examples = [eng_Latn[i] for i in range(5)]
labels = torch.LongTensor([example["category"] for example in examples]).to(device)
batch = feature_extractor(
    # 這裡的[0]索引是因為每個實例通常有多個話語，我們忽略其他的
    [example["audio"][0]["array"] for example in examples],
    sampling_rate=16000,
    device=device,
    return_attention_mask=True,
    return_tensors="pt",
).to(device)
batch["labels"] = labels
with torch.autocast(dtype=torch.bfloat16, device_type="cuda"):
    # 輸出包括損失和對數幾率
    outputs = model(**batch)

📄 許可證

本項目採用 cc-by-nc-4.0 許可證。

📚 詳細文檔

引用說明

如果您使用此模型，請引用原始的 SeamlessM4Tv2 論文。

@misc{communication2023seamlessmultilingualexpressivestreaming,
      title={Seamless: Multilingual Expressive and Streaming Speech Translation}, 
      author={Seamless Communication and Loïc Barrault and Yu-An Chung and Mariano Coria Meglioli and David Dale and Ning Dong and Mark Duppenthaler and Paul-Ambroise Duquenne and Brian Ellis and Hady Elsahar and Justin Haaheim and John Hoffman and Min-Jae Hwang and Hirofumi Inaguma and Christopher Klaiber and Ilia Kulikov and Pengwei Li and Daniel Licht and Jean Maillard and Ruslan Mavlyutov and Alice Rakotoarison and Kaushik Ram Sadagopan and Abinesh Ramakrishnan and Tuan Tran and Guillaume Wenzek and Yilin Yang and Ethan Ye and Ivan Evtimov and Pierre Fernandez and Cynthia Gao and Prangthip Hansanti and Elahe Kalbassi and Amanda Kallet and Artyom Kozhevnikov and Gabriel Mejia Gonzalez and Robin San Roman and Christophe Touret and Corinne Wong and Carleigh Wood and Bokai Yu and Pierre Andrews and Can Balioglu and Peng-Jen Chen and Marta R. Costa-jussà and Maha Elbayad and Hongyu Gong and Francisco Guzmán and Kevin Heffernan and Somya Jain and Justine Kao and Ann Lee and Xutai Ma and Alex Mourachko and Benjamin Peloquin and Juan Pino and Sravya Popuri and Christophe Ropers and Safiyyah Saleem and Holger Schwenk and Anna Sun and Paden Tomasello and Changhan Wang and Jeff Wang and Skyler Wang and Mary Williamson},
      year={2023},
      eprint={2312.05187},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2312.05187}, 
}

信息表格

屬性	詳情
支持語言	af、am、ar等眾多語言（具體見文檔開頭語言列表）
標籤	audio-to-audio、text-to-speech
多語言特性	多語言支持
任務類別	音頻分類
庫名稱	transformers
模型名稱	SeamlessM4Tv2-Large Speech Encoder