hf-seamless-m4t-large開源模型 - 免費實現多語言語音與文本互譯任務

首頁

Hf Seamless M4t Large

由facebook開發

SeamlessM4T 是一個支持多語言語音和文本翻譯的統一模型，能夠實現語音到語音、語音到文本、文本到語音和文本到文本的翻譯任務。

文本生成音頻

Transformers

#多語言語音翻譯 #語音文本互轉 #統一翻譯模型

下載量 4,648

發布時間 : 9/13/2023

模型概述

SeamlessM4T 是一個旨在提供高質量翻譯的模型集合，支持多種語言之間的語音和文本翻譯，使不同語言社區的人們能夠輕鬆交流。

模型特點

多任務統一模型

單一模型支持語音到語音、語音到文本、文本到語音和文本到文本的翻譯任務，無需依賴多個獨立模型。

廣泛的語言支持

支持 101 種語言的語音輸入、96 種語言的文本輸入/輸出和 35 種語言的語音輸出。

高質量翻譯

提供高質量的語音和文本翻譯，適用於多種語言對。

靈活的生成策略

支持多種生成策略，如束搜索解碼和多項式採樣，可根據需求調整生成效果。

模型能力

語音到語音翻譯

語音到文本翻譯

文本到語音翻譯

文本到文本翻譯

自動語音識別

使用案例

跨語言交流

即時語音翻譯

將一種語言的語音即時翻譯為另一種語言的語音或文本，適用於會議、旅行等場景。

高質量的多語言語音輸出

多語言內容生成

將文本或語音內容翻譯為多種語言，用於生成多語言媒體內容。

支持多種語言的文本和語音輸出

語音處理

語音識別

將語音轉換為文本，支持多種語言的語音輸入。

高準確率的語音識別

語音合成

將文本轉換為語音，支持多種語言的語音輸出。

自然的語音合成效果

🚀 SeamlessM4T Large

SeamlessM4T是一系列旨在提供高質量翻譯的模型集合，它能讓不同語言群體的人們通過語音和文本輕鬆交流。本倉庫託管了🤗 Hugging Face對SeamlessM4T的實現。

🌟 SeamlessM4T v2，這個版本的改進版，採用了全新架構，已在此處發佈。這個新模型在質量以及語音生成任務的推理速度上都比SeamlessM4T v1有所提升。

🤗 Transformers也支持SeamlessM4T v2，更多信息可查看這個新版本的模型卡片或直接查看🤗 Transformers文檔。

SeamlessM4T Large支持：

📥 101種語音輸入語言
⌨️ 96種語言用於文本輸入/輸出
🗣️ 35種語言用於語音輸出

這是統一模型的“大型”變體，無需依賴多個單獨的模型就能完成多項任務：

語音到語音翻譯（S2ST）
語音到文本翻譯（S2TT）
文本到語音翻譯（T2ST）
文本到文本翻譯（T2TT）
自動語音識別（ASR）

你可以使用單個模型SeamlessM4TModel執行上述所有任務，但每個任務也有其專用的子模型。

🚀 快速開始

✨ 主要特性

支持多種語言的語音和文本輸入輸出。
單個模型可完成多項翻譯和識別任務。
有改進版本SeamlessM4T v2，在質量和推理速度上有所提升。

📦 安裝指南

文檔未提及安裝步驟，此處跳過。

💻 使用示例

基礎用法

首先，加載處理器和模型的檢查點：

>>> from transformers import AutoProcessor, SeamlessM4TModel

>>> processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-large")
>>> model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-large")

你可以無縫地在文本或音頻上使用此模型，以生成翻譯後的文本或音頻。

以下是如何使用處理器處理文本和音頻：

>>> # 讓我們從阿拉伯語音語料庫中加載一個音頻樣本
>>> from datasets import load_dataset
>>> dataset = load_dataset("arabic_speech_corpus", split="test", streaming=True)
>>> audio_sample = next(iter(dataset))["audio"]

>>> # 現在，處理它
>>> audio_inputs = processor(audios=audio_sample["array"], return_tensors="pt")

>>> # 現在，也處理一些英語測試文本
>>> text_inputs = processor(text = "Hello, my dog is cute", src_lang="eng", return_tensors="pt")

高級用法

語音

SeamlessM4TModel可以“無縫”地生成文本或語音，幾乎無需更改代碼。讓我們以俄語語音翻譯為例：

>>> audio_array_from_text = model.generate(**text_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
>>> audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()

通過基本相同的代碼，我已將英語文本和阿拉伯語語音翻譯成俄語語音樣本。

文本

同樣，你可以使用同一模型從音頻文件或文本生成翻譯後的文本。你只需將generate_speech=False傳遞給SeamlessM4TModel.generate。這次，讓我們翻譯成法語。

>>> # 從音頻
>>> output_tokens = model.generate(**audio_inputs, tgt_lang="fra", generate_speech=False)
>>> translated_text_from_audio = processor.decode(output_tokens[0].tolist(), skip_special_tokens=True)

>>> # 從文本
>>> output_tokens = model.generate(**text_inputs, tgt_lang="fra", generate_speech=False)
>>> translated_text_from_text = processor.decode(output_tokens[0].tolist(), skip_special_tokens=True)

📚 詳細文檔

使用技巧

1. 使用專用模型

SeamlessM4TModel是用於生成語音和文本的頂級transformers模型，但你也可以使用專用模型來執行任務，無需額外組件，從而減少內存佔用。例如，你可以用專門用於S2ST任務的模型替換音頻到音頻生成代碼片段，其餘代碼完全相同：

>>> from transformers import SeamlessM4TForSpeechToSpeech
>>> model = SeamlessM4TForSpeechToSpeech.from_pretrained("facebook/hf-seamless-m4t-large")

或者你可以用專門用於T2TT任務的模型替換文本到文本生成代碼片段，只需去掉generate_speech=False。

>>> from transformers import SeamlessM4TForTextToText
>>> model = SeamlessM4TForTextToText.from_pretrained("facebook/hf-seamless-m4t-large")

也可以嘗試使用SeamlessM4TForSpeechToText和SeamlessM4TForTextToSpeech。

2. 更改說話人身份

你可以使用spkr_id參數更改用於語音合成的說話人。對於某些語言，某些spkr_id的效果可能更好！

3. 更改生成策略

你可以為語音和文本生成使用不同的生成策略，例如.generate(input_ids=input_ids, text_num_beams=4, speech_do_sample=True)，這將依次在文本模型上執行束搜索解碼，在語音模型上執行多項抽樣。

4. 同時生成語音和文本

使用SeamlessM4TModel時，設置return_intermediate_token_ids=True可同時返回語音和文本！

📄 許可證

本項目採用CC BY-NC 4.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫