hf-seamless-m4t-medium開源多語言翻譯模型 - 免費實現語音、文本跨語言交流

首頁

Hf Seamless M4t Medium

由facebook開發

SeamlessM4T 是一個多語言翻譯模型，支持語音和文本的輸入輸出，實現跨語言交流。

文本生成音頻

Transformers

#多語言語音翻譯 #語音文本互轉 #統一多任務模型

下載量 14.74k

發布時間 : 8/28/2023

模型概述

SeamlessM4T 是一個統一的翻譯模型，支持語音到語音、語音到文本、文本到語音和文本到文本的翻譯任務，涵蓋多種語言。

模型特點

多語言支持

支持超過100種語言的語音和文本翻譯，覆蓋廣泛的語言需求。

統一模型架構

單一模型即可處理多種翻譯任務，無需依賴多個獨立模型。

語音與文本互轉

支持語音到文本、文本到語音的雙向轉換，實現無縫交流。

模型能力

語音到語音翻譯

語音到文本翻譯

文本到語音翻譯

文本到文本翻譯

自動語音識別

使用案例

跨語言交流

即時語音翻譯

將一種語言的語音即時翻譯成另一種語言的語音或文本。

實現不同語言使用者之間的無障礙溝通。

多語言內容創作

將文本或語音內容快速翻譯成多種語言版本。

提高內容創作的效率和多語言覆蓋範圍。

輔助工具

語音轉寫

將語音內容自動轉寫成文本。

提高語音內容的可訪問性和可搜索性。

🚀 SeamlessM4T Medium

SeamlessM4T是一組旨在提供高質量翻譯的模型，它能讓不同語言群體的人們通過語音和文本輕鬆交流。本倉庫託管了🤗 Hugging Face對SeamlessM4T的實現。你可以在原始的模型中心倉庫（大模型和中等模型檢查點）中找到原始權重以及運行它們的指南。

⚠️ 重要提示

🌟 具有全新架構的SeamlessM4T v2（此版本的改進版）已在此處發佈。這個新模型在質量和語音生成任務的推理速度上都比SeamlessM4T v1有所提升。

SeamlessM4T v2也得到了🤗 Transformers的支持，更多信息可在新版本的模型卡片或直接在🤗 Transformers文檔中查看。

🚀 快速開始

SeamlessM4T Medium支持以下功能：

📥 101種語音輸入語言
⌨️ 196種語言用於文本輸入/輸出
🗣️ 35種語言用於語音輸出

這是統一模型的“中等”變體，無需依賴多個單獨的模型即可完成多項任務：

語音到語音翻譯（S2ST）
語音到文本翻譯（S2TT）
文本到語音翻譯（T2ST）
文本到文本翻譯（T2TT）
自動語音識別（ASR）

你可以使用單個模型SeamlessM4TModel完成上述所有任務，但每個任務也有其專用的子模型。

✨ 主要特性

提供高質量的翻譯服務，打破語言障礙，促進不同語言群體之間的交流。
支持多種語言的語音和文本輸入輸出，覆蓋範圍廣泛。
統一模型架構，可在單個模型中完成多種翻譯和識別任務。
有改進版本SeamlessM4T v2，在質量和推理速度上有所提升。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

# 首先，加載處理器和模型的檢查點
>>> from transformers import AutoProcessor, SeamlessM4TModel

>>> processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
>>> model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-medium")

高級用法

語音處理

# 可以無縫地在文本或音頻上使用此模型，以生成翻譯後的文本或音頻
# 讓我們從阿拉伯語音語料庫中加載一個音頻樣本
>>> from datasets import load_dataset
>>> dataset = load_dataset("arabic_speech_corpus", split="test", streaming=True)
>>> audio_sample = next(iter(dataset))["audio"]

# 現在，處理它
>>> audio_inputs = processor(audios=audio_sample["array"], return_tensors="pt")

# 現在，也處理一些英語測試文本
>>> text_inputs = processor(text = "Hello, my dog is cute", src_lang="eng", return_tensors="pt")

# 以俄語語音翻譯為例
>>> audio_array_from_text = model.generate(**text_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
>>> audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()

文本處理

# 同樣，你可以使用同一個模型從音頻文件或文本中生成翻譯後的文本
# 這次，讓我們翻譯成法語
# 從音頻
>>> output_tokens = model.generate(**audio_inputs, tgt_lang="fra", generate_speech=False)
>>> translated_text_from_audio = processor.decode(output_tokens[0].tolist(), skip_special_tokens=True)

# 從文本
>>> output_tokens = model.generate(**text_inputs, tgt_lang="fra", generate_speech=False)
>>> translated_text_from_text = processor.decode(output_tokens[0].tolist(), skip_special_tokens=True)

📚 詳細文檔

使用技巧

1. 使用專用模型

SeamlessM4TModel是用於生成語音和文本的頂級模型，但你也可以使用專用模型來執行任務，無需額外組件，從而減少內存佔用。例如，你可以用專門用於S2ST任務的模型替換音頻到音頻生成代碼片段，其餘代碼完全相同：

>>> from transformers import SeamlessM4TForSpeechToSpeech
>>> model = SeamlessM4TForSpeechToSpeech.from_pretrained("facebook/hf-seamless-m4t-medium")

或者，你可以用專門用於T2TT任務的模型替換文本到文本生成代碼片段，只需去掉generate_speech=False。

>>> from transformers import SeamlessM4TForTextToText
>>> model = SeamlessM4TForTextToText.from_pretrained("facebook/hf-seamless-m4t-medium")

你也可以嘗試使用SeamlessM4TForSpeechToText和SeamlessM4TForTextToSpeech。

2. 更改說話人身份

你可以使用spkr_id參數更改用於語音合成的說話人。對於某些語言，某些spkr_id的效果可能更好！

3. 更改生成策略

你可以為語音和文本生成使用不同的生成策略，例如.generate(input_ids=input_ids, text_num_beams=4, speech_do_sample=True)，這將依次在文本模型上執行束搜索解碼，並在語音模型上進行多項式採樣。

4. 同時生成語音和文本

在SeamlessM4TModel中使用return_intermediate_token_ids=True可以同時返回語音和文本！

📄 許可證

本項目採用CC BY-NC 4.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫