Seamless M4t V2 Large Speech Encoder
S
Seamless M4t V2 Large Speech Encoder
由WueNLP開發
從SeamlessM4Tv2-Large中提取的語音編碼器模塊,擅長跨語言和多語言的序列級音頻分類任務
下載量 67
發布時間 : 11/18/2024
模型概述
該模型是一個多語言語音編碼器,專門用於音頻分類任務,支持超過100種語言。
模型特點
多語言支持
支持超過100種語言的語音編碼和分類
音頻分類
擅長跨語言和多語言的序列級音頻分類任務
高效處理
優化用於處理16kHz音頻波形
模型能力
音頻特徵提取
多語言音頻分類
語音編碼
使用案例
語音識別
多語言語音分類
對多種語言的語音進行分類
在SIB-Fleurs數據集上表現優異
語音處理
語音特徵提取
從語音中提取有用的特徵
🚀 SeamlessM4Tv2-Large語音編碼器
本項目從 SeamlessM4Tv2-Large 中提取出語音編碼器,該編碼器在跨語言和多語言序列級音頻分類任務中表現出色(相關結果可參考 SIB-Fleurs)。
所有榮譽歸功於原始的 SeamlessM4Tv2-Large 團隊。
🚀 快速開始
本項目可用於跨語言和多語言序列級音頻分類任務,從 SeamlessM4Tv2-Large 中提取的語音編碼器能為相關任務提供強大支持。
✨ 主要特性
- 多語言支持:支持眾多語言,包括但不限於英語、中文、法語、德語等,可查看文檔開頭的語言列表。
- 音頻分類能力:在跨語言和多語言序列級音頻分類任務中表現出色。
📦 安裝指南
文檔未提及具體安裝步驟,可根據 transformers
庫的常規安裝方式進行安裝。
💻 使用示例
基礎用法
# 最好在GPU上同時使用特徵提取器和模型!
from datasets import load_dataset
from transformers import (
AutoModel,
AutoModelForAudioClassification,
AutoFeatureExtractor,
)
import torch
import torchaudio
device = "cuda:0"
feature_extractor = AutoFeatureExtractor.from_pretrained(
"WueNLP/seamless-m4t-v2-large-speech-encoder", trust_remote_code=True
)
model = AutoModel.from_pretrained(
"WueNLP/seamless-m4t-v2-large-speech-encoder",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
).to(device)
audio, orig_freq = torchaudio.load(
"https://www2.cs.uic.edu/~i101/SoundFiles/preamble10.wav"
)
audio = torchaudio.functional.resample(
audio, orig_freq=orig_freq, new_freq=16_000
) # 必須是16 kHz的波形數組
# return_attention_mask=True用於批量處理
audio_inputs = feature_extractor(audio, return_attention_mask=True, return_tensors="pt", device=device)
audio_inputs = audio_inputs.to(device)
with torch.autocast(dtype=torch.bfloat16, device_type="cuda"):
audio_hidden_states = model(**audio_inputs)[0].detach().cpu().numpy().squeeze()
# 實例化一個用於音頻分類的模型
model = AutoModelForAudioClassification.from_pretrained(
"WueNLP/seamless-m4t-v2-large-speech-encoder",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
# SIB-Fleurs有7個標籤
num_labels=7,
).to(device)
eng_Latn = load_dataset("wuenlp/sib-fleurs", "eng_Latn", split="train")
examples = [eng_Latn[i] for i in range(5)]
labels = torch.LongTensor([example["category"] for example in examples]).to(device)
batch = feature_extractor(
# 這裡的[0]索引是因為每個實例通常有多個話語,我們忽略其他的
[example["audio"][0]["array"] for example in examples],
sampling_rate=16000,
device=device,
return_attention_mask=True,
return_tensors="pt",
).to(device)
batch["labels"] = labels
with torch.autocast(dtype=torch.bfloat16, device_type="cuda"):
# 輸出包括損失和對數幾率
outputs = model(**batch)
📄 許可證
本項目採用 cc-by-nc-4.0
許可證。
📚 詳細文檔
引用說明
如果您使用此模型,請引用原始的 SeamlessM4Tv2 論文。
@misc{communication2023seamlessmultilingualexpressivestreaming,
title={Seamless: Multilingual Expressive and Streaming Speech Translation},
author={Seamless Communication and Loïc Barrault and Yu-An Chung and Mariano Coria Meglioli and David Dale and Ning Dong and Mark Duppenthaler and Paul-Ambroise Duquenne and Brian Ellis and Hady Elsahar and Justin Haaheim and John Hoffman and Min-Jae Hwang and Hirofumi Inaguma and Christopher Klaiber and Ilia Kulikov and Pengwei Li and Daniel Licht and Jean Maillard and Ruslan Mavlyutov and Alice Rakotoarison and Kaushik Ram Sadagopan and Abinesh Ramakrishnan and Tuan Tran and Guillaume Wenzek and Yilin Yang and Ethan Ye and Ivan Evtimov and Pierre Fernandez and Cynthia Gao and Prangthip Hansanti and Elahe Kalbassi and Amanda Kallet and Artyom Kozhevnikov and Gabriel Mejia Gonzalez and Robin San Roman and Christophe Touret and Corinne Wong and Carleigh Wood and Bokai Yu and Pierre Andrews and Can Balioglu and Peng-Jen Chen and Marta R. Costa-jussà and Maha Elbayad and Hongyu Gong and Francisco Guzmán and Kevin Heffernan and Somya Jain and Justine Kao and Ann Lee and Xutai Ma and Alex Mourachko and Benjamin Peloquin and Juan Pino and Sravya Popuri and Christophe Ropers and Safiyyah Saleem and Holger Schwenk and Anna Sun and Paden Tomasello and Changhan Wang and Jeff Wang and Skyler Wang and Mary Williamson},
year={2023},
eprint={2312.05187},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2312.05187},
}
信息表格
屬性 | 詳情 |
---|---|
支持語言 | af、am、ar等眾多語言(具體見文檔開頭語言列表) |
標籤 | audio-to-audio、text-to-speech |
多語言特性 | 多語言支持 |
任務類別 | 音頻分類 |
庫名稱 | transformers |
模型名稱 | SeamlessM4Tv2-Large Speech Encoder |
Mms Lid 126
基於Facebook大規模多語言語音項目微調的語言識別模型,支持126種語言的音頻分類
音頻分類
Transformers 支持多種語言

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
該模型是基於facebook/wav2vec2-base在speech_commands數據集上微調的語音命令識別模型,準確率達97.59%。
音頻分類
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基於OpenAI Whisper-medium微調的語音語種識別模型,在FLEURS數據集上達到88.05%準確率
音頻分類
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
該模型通過對Wav2Vec2-Large-Robust進行微調訓練,用於語音情感識別,輸出喚醒度、支配度和效價三個維度的預測值。
音頻分類
Transformers 英語

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基於SpeechBrain框架和ECAPA-TDNN架構的語音語言識別模型,支持107種語言的識別和語音嵌入向量提取。
音頻分類
PyTorch 支持多種語言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音頻頻譜圖變換器(AST)是基於AudioSet微調的模型,將音頻轉換為頻譜圖後應用視覺變換器進行音頻分類。
音頻分類
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基於openai/whisper-small微調的通用語言識別模型,在評估集上準確率達88.6%
音頻分類
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微調的wav2vec2模型進行語音情感識別,在IEMOCAP數據集上訓練
音頻分類
PyTorch 英語
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基於AudioSet數據集微調的音頻頻譜圖變換器,將音頻轉換為頻譜圖後使用視覺變換器架構處理,在音頻分類任務中表現優異。
音頻分類
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基於Librispeech-clean-100數據集微調的性別識別模型,在測試集上F1分數達0.9993
音頻分類
Transformers

W
alefiury
182.33k
42
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98