モデル選定

ノイズ耐性

# ノイズ耐性

Whisper Large V3 Turbo Atcosim Finetune

OpenAI Whisper Large V3 Turboをベースにファインチューニングしたモデルで、航空交通管制（ATC）通信の文字起こしに特化して最適化されています。

Transformers 英語

AV HuBERT MuAViC Ru

AV-HuBERTは視聴音声認識モデルで、MuAViC多言語視聴コーパスで訓練され、音声と視覚モダリティを組み合わせて頑健な性能を実現します。

音声生成テキスト

Audiox South V1

AudioXはJivi AIが開発した多言語自動音声認識モデルで、特にインド南部の言語に最適化されており、タミル語、テルグ語、カンナダ語、マラヤーラム語をサポートしています。

音声認識その他

Ichigo Llama3.1 S Instruct V0.4

Llama-3アーキテクチャに基づくマルチモーダル言語モデルで、音声とテキストの入力を理解し、ノイズ耐性とマルチターン対話能力を備えています

テキスト生成オーディオ英語

Whisper Small Ita

OpenAI Whisper-smallを基にイタリア語向けに最適化した音声認識モデルで、特殊マーカーによるメタ情報捕捉能力を強化

Transformers 複数言語対応

Wav2vec2 Xls R 300m En Atc Atcosim

このモデルはfacebook/wav2vec2-xls-r-300mをATCOSIMコーパスでファインチューニングしたバージョンで、航空交通管制通信の自動音声認識タスク専用に設計されています。

Transformers 英語

Wav2vec2 Base Toy Train Data Random Noise 0.1

facebook/wav2vec2-baseモデルをランダムノイズデータセットでファインチューニングした音声認識モデル

ByT5はGoogleのT5のトークナイザーフリーバージョンで、UTF-8バイトシーケンスを直接処理し、多言語テキスト処理をサポートし、ノイズデータに対して頑健性を持ちます。

大規模言語モデル複数言語対応

ByT5はGoogleのT5のトークナイザーフリーバージョンで、生のUTF-8バイトを直接処理し、多言語テキスト処理をサポートし、ノイズデータに対して優れた性能を発揮します。

大規模言語モデル複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase