モデル選定

多言語音声処理

# 多言語音声処理

Phi 4 Multimodal Instruct

Phi-4-multimodal-instructは、テキスト、画像、音声入力をサポートし、テキスト出力を生成する軽量オープンソースのマルチモーダル基盤モデルで、128Kトークンのコンテキスト長を備えています。

マルチモーダル融合

Transformers 複数言語対応

Whisper Baseをファインチューニングしたウズベク語音声認識モデル、Common Voiceデータセットでトレーニング済み

Transformers その他

Ultravox V0 4 ToolACE 8B

これは🤗 transformersモデルの説明カードで、音声テキストからテキストへのタスク用にHubプラットフォームにプッシュされています。

Qwen-Audio-nf4はQwen-Audioの量子化バージョンで、複数の音声入力とテキスト出力をサポートします

音声生成テキスト

Transformers 複数言語対応

Wav2vec2 Large Xlsr 53 Tr Fine Tuning Deprecated

このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルです

English Filipino Wav2vec2 L Xls R Test 07

このモデルはjonatasgrosman/wav2vec2-large-xlsr-53-englishをベースにフィリピン語音声データセットでファインチューニングしたバージョンで、英語からフィリピン語への音声認識タスクに主に使用されます。

Wav2vec2 Xlsr Nepali

このモデルはfacebook/wav2vec2-large-xlsr-53をネパール語データセットでファインチューニングした音声認識モデルです。

Wav2vec2 Large Xls R 300m Irish Colab Test

これはfacebook/wav2vec2-xls-r-300mモデルをcommon_voiceアイルランド語データセットでファインチューニングした音声認識モデルで、主にアイルランド語の自動音声認識タスクに使用されます。

Wav2vec2 Large Xls R 300m Welsh

これはfacebook/wav2vec2-xls-r-300mをウェールズ語データセットでファインチューニングした自動音声認識モデルで、Common Voice 7ウェールズ語テストセットで31.003%の単語誤り率と7.775%の文字誤り率を達成しました。

Transformers その他

Wav2vec2 Base 10k Voxpopuli Ft Hr

Facebook Wav2Vec2アーキテクチャに基づく音声認識モデルで、VoxPopuliコーパスで事前学習されクロアチア語データでファインチューニングされています

Transformers その他

Wav2vec2 Large North Germanic Voxpopuli V2

北ゲルマン語系VoxPopuliコーパスで事前学習された大規模音声モデル

このモデルは、facebook/wav2vec2 - xls - r - 1bをエストニア語データセットでファインチューニングした自動音声認識モデルです。

Transformers その他

S2t Small Covost2 En Ca St

これはTransformerベースのエンドツーエンド音声翻訳モデルで、英語音声をカタルーニャ語テキストに翻訳するために特別に設計されています。

Transformers 複数言語対応

S2t Wav2vec2 Large En Tr

Transformerベースのエンドツーエンド音声翻訳モデルで、英語からトルコ語への音声テキスト変換タスク用

Transformers 複数言語対応

このモデルは、アブハズ語データセットでファインチューニングされた自動音声認識モデルで、XLS-Rアーキテクチャに基づいています

Transformers その他

Wav2vec2 Large Xlsr Slovene

これはFacebookのwav2vec2-large-xlsr-53モデルを微調整したスロベニア語音声認識モデルで、Common Voiceデータセットを使用して訓練されています。

音声認識その他

Wav2vec2 Xls R 300m Turkish Tr Med

このモデルは、facebook/wav2vec2-xls-r-300mを一般的な音声データセットで微調整したトルコ語音声認識モデルです。

Wav2vec2 Large El Voxpopuli V2

VoxPopuliコーパスを基に事前学習されたギリシャ語音声認識モデルで、17.7時間の未ラベル付きデータを使用しています。

Transformers その他

Wav2vec2 Large West Germanic Voxpopuli V2

FacebookのWav2Vec2大型モデルで、西ゲルマン語系のVoxPopuliコーパス66.3時間の未注釈データのみで事前学習されています。

Wav2vec2 Large Xlsr Rm Sursilv

これはfacebook/wav2vec2-large-xlsr-53モデルを基にファインチューニングした自動音声認識モデルで、ロマンシュ語のスルシルヴァ方言を識別するために特別に設計されています。

S2t Small Covost2 En Et St

これはTransformerベースのエンドツーエンド音声翻訳モデルで、英語音声をエストニア語テキストに変換するために特別に設計されています。

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase