Ultravox多語言音頻轉文本開源模型 - 支持多種語言語音識別轉錄

首頁

Ultravox V0 5 Llama 3 2 1b ONNX

由onnx-community開發

Ultravox是一個多語言音頻轉文本模型，基於LLaMA-3-2.1B架構優化，支持多種語言的語音識別和轉錄任務。

音頻生成文本

Transformers

支持多種語言開源協議:MIT #多語言音頻轉錄 #即時語音處理 #對話式AI集成

下載量 1,088

發布時間 : 2/19/2025

模型概述

該模型專注於音頻到文本的轉換任務，能夠處理多種語言的語音輸入並生成準確的文本轉錄。

模型特點

多語言支持

支持超過40種語言的音頻轉錄，包括多種歐洲、亞洲和非洲語言。

高效量化

提供多種量化選項(q8, q4等)，可在保持性能的同時減少模型大小和計算需求。

對話式轉錄

能夠理解上下文並生成符合對話場景的轉錄結果，而不僅僅是逐字轉錄。

模型能力

音頻轉錄

多語言語音識別

對話式文本生成

即時語音處理

使用案例

會議記錄

多語言會議轉錄

將多語言會議錄音自動轉錄為文本，支持後續翻譯和分析。

準確識別不同發言者的語音內容並生成結構化的會議記錄。

媒體制作

視頻字幕生成

為多語言視頻內容自動生成字幕。

提高視頻可訪問性，減少人工字幕製作成本。

客戶服務

語音客服記錄

自動記錄和分析客戶服務通話內容。

便於質量監控和客戶需求分析。

🚀 transformers.js

transformers.js 是一個 JavaScript 庫，可用於處理音頻文本到文本的轉換任務，支持多種語言，基於特定模型實現強大功能。

🚀 快速開始

如果你還未安裝 Transformers.js JavaScript 庫，可以通過以下命令從 NPM 進行安裝：

npm i @huggingface/transformers

💻 使用示例

基礎用法

import { UltravoxProcessor, UltravoxModel, read_audio } from "@huggingface/transformers";

const processor = await UltravoxProcessor.from_pretrained(
  "onnx-community/ultravox-v0_5-llama-3_2-1b-ONNX",
);
const model = await UltravoxModel.from_pretrained(
  "onnx-community/ultravox-v0_5-llama-3_2-1b-ONNX",
  {
    dtype: {
      embed_tokens: "q8", // "fp32", "fp16", "q8"
      audio_encoder: "q4", // "fp32", "fp16", "q8", "q4", "q4f16"
      decoder_model_merged: "q4", // "q8", "q4", "q4f16"
    },
  },
);

const audio = await read_audio("http://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/mlk.wav", 16000);
const messages = [
  {
    role: "system",
    content: "You are a helpful assistant.",
  },
  { role: "user", content: "Transcribe this audio:<|audio|>" },
];
const text = processor.tokenizer.apply_chat_template(messages, {
  add_generation_prompt: true,
  tokenize: false,
});

const inputs = await processor(text, audio);
const generated_ids = await model.generate({
  ...inputs,
  max_new_tokens: 128,
});

const generated_texts = processor.batch_decode(
  generated_ids.slice(null, [inputs.input_ids.dims.at(-1), null]),
  { skip_special_tokens: true },
);
console.log(generated_texts[0]);
// "I can transcribe the audio for you. Here's the transcription:\n\n\"I have a dream that one day this nation will rise up and live out the true meaning of its creed.\"\n\n- Martin Luther King Jr.\n\nWould you like me to provide the transcription in a specific format (e.g., word-for-word, character-for-character, or a specific font)?"

📄 許可證

本項目採用 MIT 許可證。

📋 信息表格

屬性	詳情
支持語言	阿拉伯語（ar）、白俄羅斯語（be）、保加利亞語（bg）、孟加拉語（bn）、捷克語（cs）、威爾士語（cy）、丹麥語（da）、德語（de）、希臘語（el）、英語（en）、西班牙語（es）、愛沙尼亞語（et）、波斯語（fa）、芬蘭語（fi）、法語（fr）、加利西亞語（gl）、印地語（hi）、匈牙利語（hu）、意大利語（it）、日語（ja）、格魯吉亞語（ka）、立陶宛語（lt）、拉脫維亞語（lv）、馬其頓語（mk）、馬拉地語（mr）、荷蘭語（nl）、波蘭語（pl）、葡萄牙語（pt）、羅馬尼亞語（ro）、俄語（ru）、斯洛伐克語（sk）、斯洛文尼亞語（sl）、塞爾維亞語（sr）、瑞典語（sv）、斯瓦希里語（sw）、泰米爾語（ta）、泰語（th）、土耳其語（tr）、烏克蘭語（uk）、烏爾都語（ur）、越南語（vi）、中文（zh）
庫名稱	transformers.js
評估指標	BLEU
任務類型	音頻文本到文本
基礎模型	fixie-ai/ultravox-v0_5-llama-3_2-1b