Ultravox 多言語音声からテキストへのオープンソースモデル - 複数言語の音声認識と文字起こしに対応

ホーム

Ultravox V0 5 Llama 3 2 1b ONNX

onnx-communityによって開発

Ultravoxは多言語音声テキスト変換モデルで、LLaMA-3-2.1Bアーキテクチャを最適化し、複数言語の音声認識と文字起こしタスクをサポートします。

音声生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #多言語音声文字起こし #リアルタイム音声処理 #対話型AI統合

ダウンロード数 1,088

リリース時間 : 2/19/2025

モデル概要

このモデルは音声からテキストへの変換タスクに特化しており、複数言語の音声入力を処理し正確なテキスト文字起こしを生成できます。

モデル特徴

多言語サポート

40以上の言語の音声文字起こしをサポートし、欧州、アジア、アフリカの複数言語を含みます。

効率的な量子化

複数の量子化オプション(q8, q4など)を提供し、性能を維持しながらモデルサイズと計算要件を削減します。

会話型文字起こし

文脈を理解し、単なる逐語的な文字起こしではなく、会話シーンに適した文字起こし結果を生成できます。

モデル能力

音声文字起こし

多言語音声認識

会話型テキスト生成

リアルタイム音声処理

使用事例

会議記録

多言語会議文字起こし

多言語会議録音を自動的にテキストに変換し、後続の翻訳と分析をサポートします。

異なる発言者の音声内容を正確に認識し、構造化された会議記録を生成します。

メディア制作

動画字幕生成

多言語動画コンテンツに自動的に字幕を生成します。

動画のアクセシビリティを向上させ、手動字幕制作コストを削減します。

カスタマーサービス

音声カスタマーサービス記録

カスタマーサービス通話内容を自動記録・分析します。

品質監視と顧客ニーズ分析を容易にします。

🚀 Transformers.js

Transformers.jsは、多言語対応の音声テキスト変換を行うJavaScriptライブラリです。多くの言語をサポートし、音声をテキストに変換することができます。

🚀 クイックスタート

📦 インストール

まだインストールしていない場合は、NPMからTransformers.js JavaScriptライブラリをインストールできます。以下のコマンドを使用してください。

npm i @huggingface/transformers

💻 使用例

基本的な使用法

import { UltravoxProcessor, UltravoxModel, read_audio } from "@huggingface/transformers";

const processor = await UltravoxProcessor.from_pretrained(
  "onnx-community/ultravox-v0_5-llama-3_2-1b-ONNX",
);
const model = await UltravoxModel.from_pretrained(
  "onnx-community/ultravox-v0_5-llama-3_2-1b-ONNX",
  {
    dtype: {
      embed_tokens: "q8", // "fp32", "fp16", "q8"
      audio_encoder: "q4", // "fp32", "fp16", "q8", "q4", "q4f16"
      decoder_model_merged: "q4", // "q8", "q4", "q4f16"
    },
  },
);

const audio = await read_audio("http://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/mlk.wav", 16000);
const messages = [
  {
    role: "system",
    content: "You are a helpful assistant.",
  },
  { role: "user", content: "Transcribe this audio:<|audio|>" },
];
const text = processor.tokenizer.apply_chat_template(messages, {
  add_generation_prompt: true,
  tokenize: false,
});

const inputs = await processor(text, audio);
const generated_ids = await model.generate({
  ...inputs,
  max_new_tokens: 128,
});

const generated_texts = processor.batch_decode(
  generated_ids.slice(null, [inputs.input_ids.dims.at(-1), null]),
  { skip_special_tokens: true },
);
console.log(generated_texts[0]);
// "I can transcribe the audio for you. Here's the transcription:\n\n\"I have a dream that one day this nation will rise up and live out the true meaning of its creed.\"\n\n- Martin Luther King Jr.\n\nWould you like me to provide the transcription in a specific format (e.g., word-for-word, character-for-character, or a specific font)?"

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📋 その他情報

属性	详情
サポート言語	ar, be, bg, bn, cs, cy, da, de, el, en, es, et, fa, fi, fr, gl, hi, hu, it, ja, ka, lt, lv, mk, mr, nl, pl, pt, ro, ru, sk, sl, sr, sv, sw, ta, th, tr, uk, ur, vi, zh
メトリクス	bleu
パイプラインタグ	audio-text-to-text
ベースモデル	fixie-ai/ultravox-v0_5-llama-3_2-1b