Ultravox V0 6 Qwen 3 32b
MIT
Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,240
0
Ultravox V0 3
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-smallをベースとしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 英語

U
FriendliAI
20
1
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instructは軽量でオープンソースのマルチモーダル基盤モデルで、Phi-3.5と4.0モデルの言語、視覚、音声研究とデータセットを統合しています。テキスト、画像、音声入力をサポートし、テキスト出力を生成し、128Kトークンのコンテキスト長を備えています。
マルチモーダル融合
Transformers 複数言語対応

P
Robeeeeeeeeeee
21
1
Ultravox V0 5 Llama 3 3 70b
MIT
UltravoxはLlama3.3-70BとWhisperを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力をサポートし、音声エージェントや翻訳などのシナリオに適しています。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
3,817
26
Ultravox V0 4 1 Llama 3 3 70b
MIT
UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
26
10
Ultravox V0 4 1 Mistral Nemo
MIT
UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,285
25
Ultravox V0 4 1 Llama 3 1 70b
MIT
Ultravoxは、事前学習済みのLlama3.1-70B-Instructとwhisper-large-v3-turboバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。
テキスト生成オーディオ
Transformers 複数言語対応

U
fixie-ai
204
24
Ultravox V0 4 1 Llama 3 1 8b
MIT
UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
747
97
Ultravox V0 4
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-mediumを基にしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,851
48
Seamless M4t V2 Large
SeamlessM4Tは大規模な多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。
テキスト生成オーディオ 複数言語対応
S
audo
39
17
Seamless M4t V2 Large
SeamlessM4T v2 は Facebook がリリースした大規模多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。
テキスト生成オーディオ
Transformers 複数言語対応

S
facebook
64.59k
821
Hf Seamless M4t Large
SeamlessM4Tは、多言語音声・テキスト翻訳をサポートする統一モデルで、音声から音声、音声からテキスト、テキストから音声、テキストからテキストへの翻訳タスクを実現できます。
テキスト生成オーディオ
Transformers

H
facebook
4,648
57
Hf Seamless M4t Medium
SeamlessM4Tは多言語翻訳モデルで、音声とテキストの入出力をサポートし、言語を超えたコミュニケーションを実現します。
テキスト生成オーディオ
Transformers

H
facebook
14.74k
30
Wav2vec2 Xls R 300m 21 To En
Apache-2.0
FacebookのWav2Vec2 XLS-Rは21言語から英語への音声翻訳用にファインチューニングされています
音声認識
Transformers 複数言語対応

W
facebook
464
5
S2t Medium Mustc Multilingual St
MIT
Transformerベースのエンドツーエンド多言語音声翻訳モデルで、英語から複数言語への音声翻訳をサポート
音声認識
Transformers 複数言語対応

S
facebook
7,322
6
Wav2vec2 Xls R 2b 22 To 16
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデルは多言語音声翻訳タスク用に微調整されており、22種類の入力言語と16種類の出力言語の相互翻訳をサポートしています。
音声認識
Transformers 複数言語対応

W
facebook
38
14
Wav2vec2 Xls R 2b En To 15
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデルで、15言語の音声翻訳タスク向けにファインチューニングされており、英語の音声を複数の書き言葉に翻訳できます。
音声認識
Transformers 複数言語対応

W
facebook
27
1
Wav2vec2 Xls R 300m En To 15
Apache-2.0
FacebookのWav2Vec2 XLS - Rモデルを微調整して、多言語音声翻訳タスクに使用します。英語から15言語への翻訳をサポートします。
音声認識
Transformers 複数言語対応

W
facebook
167
6
Wav2vec2 Xls R 1b En To 15
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデルを音声翻訳タスク用にファインチューニングしたもので、英語から15言語への翻訳をサポートします。
音声認識
Transformers 複数言語対応

W
facebook
505
3
Wav2vec2 Xls R 1b 21 To En
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデル、多言語音声から英語への翻訳タスク用
音声認識
Transformers 複数言語対応

W
facebook
511
3
Wav2vec2 Xls R 2b 21 To En
Apache-2.0
FacebookのWav2Vec2 XLS - Rモデルで、多言語音声から英語への翻訳タスクに使用されます。
音声認識
Transformers 複数言語対応

W
facebook
38
5
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98