モデル選定

エンドツーエンドASR

# エンドツーエンドASR

Parakeet Tdt 0.6b V2 Onnx

NVIDIA Parakeet TDT 0.6B V2 は自動音声認識（ASR）タスクに基づくモデルで、英語音声からテキストへの変換タスクに適しています。

音声認識英語

Nue ASRはエンドツーエンドの日本語音声認識モデルで、事前学習された音声と言語モデルを統合し、認識精度が高く高速です。

Transformers 複数言語対応

Asr Wav2vec2 Commonvoice 14 Es

これはCommonVoiceスペイン語データセットでトレーニングされたエンドツーエンド自動音声認識システムで、wav2vec 2.0事前トレーニングモデルとCTCデコーダーを組み合わせています。

音声認識スペイン語

Asr Whisper Medium Commonvoice Ar

CommonVoiceアラビア語データセットでファインチューニングされたWhisper medium音声認識モデル、SpeechBrainチームによって開発

音声認識アラビア語

Asr Whisper Medium Commonvoice Fa

CommonVoice-14.0ペルシャ語データセットでファインチューニングされたwhisper mediumモデルで、ペルシャ語自動音声認識タスク用です。

音声認識その他

Faster Whisper Large V2 Japanese 5k Steps

Whisper Large V2モデルに基づく日本語自動音声認識(ASR)モデルで、CTranslate2で最適化変換され、効率的な推論をサポートします。

Transformers 日本語

Asr Conformer Transformerlm Librispeech

SpeechBrainフレームワークに基づく自動音声認識モデルで、ConformerエンコーダーとTransformerデコーダーを使用し、LibriSpeechデータセットでトレーニングされ、英語音声認識をサポートします。

音声認識英語

Asr Whisper Large V2 Commonvoice Fa

これはwhisper-large-v2アーキテクチャに基づく自動音声認識モデルで、CommonVoiceデータセット上のペルシア語に特化して微調整されています。

音声認識その他

Wav2vec2 Large Xlsr 53 Spanish Ep5 944h

スペイン語自動音声認識用の音響モデルで、facebook/wav2vec2-large-xlsr-53を5エポックにわたってファインチューニングし、約944時間のスペイン語データを使用しています。

Transformers スペイン語

carlosdanielhernandezmena

Whisper Tiny.en

Whisperは、68万時間のアノテーション付きデータで学習された事前学習済みの自動音声認識（ASR）モデルで、強力な汎化能力を持っています。

音声認識英語

Whisperは、事前学習された自動音声認識（ASR）および音声翻訳モデルで、68万時間のラベル付きデータで学習され、強力な汎化能力を持っています。

音声認識複数言語対応

Icefall Asr Gigaspeech Conformer Ctc

Icefallはk2フレームワークに基づく自動音声認識（ASR）ツールキットで、効率的で柔軟な音声認識モデルのトレーニングと推論に焦点を当てています。

音声認識英語

Asr Wav2vec2 Dvoice Wolof

これはウォロフ語に特化した自動音声認識モデルで、wav2vec 2.0アーキテクチャに基づき、DVoiceデータセットで訓練され、ウォロフ語の音声を文字起こしすることができます。

音声認識その他

Asr Wav2vec2 Dvoice Amharic

これはアムハラ語向けの自動音声認識モデルで、wav2vec 2.0アーキテクチャとCTC/Attentionメカニズムを使用してトレーニングされています

音声認識その他

Wav2vec2 Large Xlsr Turkish Demo Colab

facebook/wav2vec2-large-xlsr-53モデルをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデル

Wav2vec2 Large Xls R 300m Turkish Colab

facebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデル

Ascend With English

timit_asrデータセットを使用してascendモデルをファインチューニングした英語音声認識モデル

Wav2vec2 Base Timit Demo Colab

facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、単語誤り率(WER)は0.3382

Asr Wav2vec2 Commonvoice En

これはCommonVoice英語データセットを使って訓練されたエンドツーエンドの自動音声認識システムで、wav2vec 2.0の事前学習モデルとCTCデコーダを組み合わせています。

音声認識英語

Wav2vec2 Large Xlsr Kyrgyz

これはfacebook/wav2vec2-large-xlsr-53モデルを基に、キルギス語のユニバーサル音声データセットでファインチューニングされた自動音声認識モデルです。

音声認識その他

Wav2vec2 2 Bert Large No Adapter

LibriSpeechデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換します

Wav2vec2 Xls R 300m Bas CV8 V2

facebook/wav2vec2-xls-r-300mをベースにCommon Voice 8データセットでファインチューニングされた自動音声認識モデルで、バスク語(bas)をサポートします。

Transformers その他

Wav2vec2 Base Vietnamese 250h

wav2vec 2.0アーキテクチャに基づくベトナム語自動音声認識モデルで、13,000時間の未ラベル付きオーディオと250時間のラベル付きデータで訓練されています。

Transformers その他

Asr Wav2vec2 Commonvoice Fr

CommonVoiceフランス語データセットを基に訓練されたwav2vec 2.0音声認識モデルで、CTC/Attentionアーキテクチャを使用し、言語モデルは不要です。

音声認識フランス語

Wav2vec2 Base 100h

LibriSpeechの100時間データでトレーニングされたWav2Vec2基本版音声認識モデル

Transformers 英語

Wav2vec2 Base Turkish Cv7

wav2vec2アーキテクチャに基づくトルコ語自動音声認識モデル、Common Voice 7.0トルコ語データセットでファインチューニング済み

Transformers その他

Wav2vec2 Large Xlsr Thai Demo

facebook/wav2vec2-large-xlsr-53をタイ語汎用音声データセットでファインチューニングした音声認識モデル

Transformers その他

Wav2vec2 Large Xlsr 53 Lithuanian

facebook/wav2vec2-large-xlsr-53モデルを基に、Common Voiceデータセットを使用してリトアニア語にファインチューニングした自動音声認識モデルです。

音声認識その他

Wav2vec2 Random

TIMIT_ASRデータセットを使用してwav2vec2-base-randomモデルをファインチューニングした自動音声認識モデル

patrickvonplaten

Wav2vec2 Large Xlsr Mongolian

これはfacebook/wav2vec2-large-xlsr-53を基に、モンゴル語ユニバーサル音声データセットでファインチューニングされた自動音声認識モデルです

音声認識その他

Asr Crdnn Commonvoice Fr

これはCommonVoiceフランス語データセットでトレーニングされたエンドツーエンド自動音声認識システムで、CRDNNアーキテクチャとCTCおよびアテンションメカニズムを組み合わせています。

音声認識フランス語

facebook/wav2vec2-xls-r-300mをマラーティー語データセットでファインチューニングした自動音声認識モデル

Transformers その他

StephennFernandes

Wav2vec2 Large Xls R 300m Hindi Colab

facebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたヒンディー語音声認識モデル

Asr Transformer Aishell

SpeechBrainフレームワークに基づいて事前学習されたAISHELL（中国語（普通話））エンドツーエンド自動音声認識システムで、Transformerエンコーダ+結合デコーダ構造を採用しています。

音声認識英語

Wav2vec2 Large Xlsr Estonian

これはfacebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたエストニア語自動音声認識(ASR)モデルで、Common Voiceデータセットを使用してトレーニングされました。

音声認識その他

Wav2vec2 Large Xlsr 53 Turkish

これは、Facebookのwav2vec2-large-xlsr-53モデルをトルコ語のCommon Voiceデータセットで微調整した自動音声認識(ASR)モデルです。

音声認識その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase