モデル選定

多言語音声翻訳

# 多言語音声翻訳

Ultravox V0 6 Qwen 3 32b

Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。

音声生成テキスト

Transformers 複数言語対応

UltravoxはLlama3.1-8B-InstructとWhisper-smallをベースとしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 英語

Phi 4 Multimodal Instruct

Phi-4-multimodal-instructは軽量でオープンソースのマルチモーダル基盤モデルで、Phi-3.5と4.0モデルの言語、視覚、音声研究とデータセットを統合しています。テキスト、画像、音声入力をサポートし、テキスト出力を生成し、128Kトークンのコンテキスト長を備えています。

マルチモーダル融合

Transformers 複数言語対応

Ultravox V0 5 Llama 3 3 70b

UltravoxはLlama3.3-70BとWhisperを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力をサポートし、音声エージェントや翻訳などのシナリオに適しています。

音声生成テキスト

Transformers 複数言語対応

Ultravox V0 4 1 Llama 3 3 70b

UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 複数言語対応

Ultravox V0 4 1 Mistral Nemo

UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。

音声生成テキスト

Transformers 複数言語対応

Ultravox V0 4 1 Llama 3 1 70b

Ultravoxは、事前学習済みのLlama3.1-70B-Instructとwhisper-large-v3-turboバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。

テキスト生成オーディオ

Transformers 複数言語対応

Ultravox V0 4 1 Llama 3 1 8b

UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 複数言語対応

UltravoxはLlama3.1-8B-InstructとWhisper-mediumを基にしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 複数言語対応

Seamless M4t V2 Large

SeamlessM4Tは大規模な多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。

テキスト生成オーディオ複数言語対応

Seamless M4t V2 Large

SeamlessM4T v2 は Facebook がリリースした大規模多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。

テキスト生成オーディオ

Transformers 複数言語対応

Hf Seamless M4t Large

SeamlessM4Tは、多言語音声・テキスト翻訳をサポートする統一モデルで、音声から音声、音声からテキスト、テキストから音声、テキストからテキストへの翻訳タスクを実現できます。

テキスト生成オーディオ

Hf Seamless M4t Medium

SeamlessM4Tは多言語翻訳モデルで、音声とテキストの入出力をサポートし、言語を超えたコミュニケーションを実現します。

テキスト生成オーディオ

Wav2vec2 Xls R 300m 21 To En

FacebookのWav2Vec2 XLS-Rは21言語から英語への音声翻訳用にファインチューニングされています

Transformers 複数言語対応

S2t Medium Mustc Multilingual St

Transformerベースのエンドツーエンド多言語音声翻訳モデルで、英語から複数言語への音声翻訳をサポート

Transformers 複数言語対応

Wav2vec2 Xls R 2b 22 To 16

FacebookのWav2Vec2 XLS-Rモデルは多言語音声翻訳タスク用に微調整されており、22種類の入力言語と16種類の出力言語の相互翻訳をサポートしています。

Transformers 複数言語対応

Wav2vec2 Xls R 2b En To 15

FacebookのWav2Vec2 XLS-Rモデルで、15言語の音声翻訳タスク向けにファインチューニングされており、英語の音声を複数の書き言葉に翻訳できます。

Transformers 複数言語対応

Wav2vec2 Xls R 300m En To 15

FacebookのWav2Vec2 XLS - Rモデルを微調整して、多言語音声翻訳タスクに使用します。英語から15言語への翻訳をサポートします。

Transformers 複数言語対応

Wav2vec2 Xls R 1b En To 15

FacebookのWav2Vec2 XLS-Rモデルを音声翻訳タスク用にファインチューニングしたもので、英語から15言語への翻訳をサポートします。

Transformers 複数言語対応

Wav2vec2 Xls R 1b 21 To En

FacebookのWav2Vec2 XLS-Rモデル、多言語音声から英語への翻訳タスク用

Transformers 複数言語対応

Wav2vec2 Xls R 2b 21 To En

FacebookのWav2Vec2 XLS - Rモデルで、多言語音声から英語への翻訳タスクに使用されます。

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase