モデル選定

音声からテキストへ

# 音声からテキストへ

Ultravox V0 5 Llama 3 2 1b GGUF

Ultravox v0.5はLlama-3 2.1Bアーキテクチャを最適化した音声テキスト変換モデルで、音声書き起こしタスクの効率的な処理に特化しています。

Gemma 3 4b It Q4 0

Gemma 3 4B Instruct は Google が開発した40億パラメータの大規模言語モデルで、テキスト生成と理解タスクに特化しています。

大規模言語モデル

Whisper Small Sinhala

OpenAI Whisper-smallをファインチューニングしたシンハラ語音声認識モデル

Transformers その他

Lingalingeswaran

W2V2 BERT Withlm Malayalam

facebook/w2v-bert-2.0をベースにファインチューニングしたマラヤーラム語自動音声認識モデルで、複数のマラヤーラム語データセットで訓練され、KENLMライブラリで訓練された3-gram言語モデルを使用しています。

Transformers その他

WHISPER SMALL SWAHILI ASR CV 14

このモデルは、OpenAIのWhisper largeをCommon Voice 14.0スワヒリ語(SW)データセットでファインチューニングした音声認識モデルで、単語誤り率(WER)は25.13%です。

Transformers その他

Distil Whisper Large V3

このモデルはGGML形式のdistil-whisper/distil-large-v3-ggmlからRatchetのカスタム形式に変換されたバージョンで、主に音声認識タスクに使用されます。

これはopenai/whisper-tinyのGGMLフォーマットをRatchetのカスタムフォーマットに変換したバージョンです

Whisper Large V3 Ft Cv16 Mn

Common Voice 16.0データセットで微調整されたOpenAI Whisper Large V3モデルに基づく音声認識モデル

Speecht5 Tts Marathi

これはマラーティー語の音声処理用のモデルで、音声認識や音声合成タスクに関連する可能性があります。

Whisper Large V2 Spanish

OpenAI Whisper-large-v2モデルをCommon Voice 13.0スペイン語データセットでファインチューニングした音声認識モデル

Facebookの大規模多言語音声プロジェクトにおける自動音声認識モデルで、1107言語をサポートし、Wav2Vec2アーキテクチャを基盤とし、アダプター技術を活用して多言語転写を実現しています。

Transformers 複数言語対応

Whisper SmallはOpenAIが開発した小型の自動音声認識（ASR）モデルで、音声をテキストに変換できます。

Whisper TinyはOpenAIがオープンソースで公開した軽量音声認識モデルで、ウェブデプロイに適しています。

Whisper Large V2 Malayalam

これはOpenAI Whisper Large V2モデルをマラヤーラム語音声認識タスク用にファインチューニングしたバージョンで、Common Voice 11.0データセットでトレーニングされています

Transformers その他

Whisperは事前訓練された自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータで訓練されており、強力な汎化能力を備えています。

音声認識複数言語対応

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1

このモデルは、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでwav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルで、主に歌唱音声認識タスクに使用されます。

Wav2vec2 Large Xls R 300m Ta Colab

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングしたバージョンで、主にタミル語の音声認識タスクに使用されます。

Wav2vec2 Xls R 300m Mrbrown Finetune1

facebook/wav2vec2-xls-r-300m事前学習モデルをベースに、uob_singlishデータセットで微調整した音声認識モデル

84rry Xlsr 53 Arabic

このモデルは、facebook/wav2vec2-large-xlsr-53を汎用音声データセットでファインチューニングしたアラビア語音声認識モデルです

Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 4

このモデルはFacebookのwav2vec2-xls-r-300mモデルを基に、common_voiceトルコ語データセットでファインチューニングされた音声認識モデルです。

Wav2vec2 Base MIR ST500 ASR 109

facebook/wav2vec2-baseをベースにMIR_ST500データセットでファインチューニングした自動音声認識モデル

Wav2vec2 Large Xls R 300m Turkish Colab

これはFacebookのwav2vec2-xls-r-300mモデルを汎用音声データセットでファインチューニングしたトルコ語音声認識モデルです。

2nd Wav2vec2 L Xls R 300m Turkish Test

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceのトルコ語データセットでファインチューニングした音声認識モデルで、評価セットで0.4444の単語誤り率を達成しました。

Wav2vec2 Common Voice Accents

facebook/wav2vec2-xls-r-300mをベースにcommon_voiceデータセットで微調整した音声認識モデルで、複数のアクセント認識をサポート

Wav2vec2 Base 10k Voxpopuli Ft Fi

Facebook Wav2Vec2基本モデルに基づき、VoxPopuliコーパスの10K未ラベルサブセットで事前学習され、フィンランド語転写データでファインチューニングされた自動音声認識モデルです。

Transformers その他

Wav2vec2 2 Bart Base

LibriSpeech ASR cleanデータセットでファインチューニングされたwav2vec2-baseとbart-baseに基づく音声認識モデル

patrickvonplaten

Wav2vec2 Large Xlsr 129 Turkish Colab

facebook/wav2vec2-large-xlsr-129モデルをCommon Voiceデータセットでファインチューニングしたトルコ語音声認識モデル

patrickvonplaten

Wav2vec2 Large 960h

Wav2Vec2はFacebookが開発した音声認識モデルで、自己教師あり学習により生の音声から音声表現を学習し、LibriSpeechデータセットで微調整され、高精度な音声転写を実現します。

Transformers 英語

Xls R Ab Spanish

これはXLS-Rダミーモデルをアブハズ語データセットで微調整した自動音声認識モデルです

Transformers その他

Wav2vec2 Large Xlsr 53 Tw Gpt

facebook/wav2vec2-large-xlsr-53を台湾華語(zh-tw)でファインチューニングした音声認識モデル、16kHzサンプリングレートの音声入力をサポート

Wav2vec2 Xls R 100m Common Voice Tr Ft

このモデルは、facebook/wav2vec2-xls-r-100mをCOMMON_VOICE - TRトルコ語データセットでファインチューニングした自動音声認識(ASR)モデルです。

Transformers その他

patrickvonplaten

Wav2vec2 Tiny Random

音声認識用の軽量なランダム初期化Wav2Vec2モデル、主にテストと開発目的で使用

patrickvonplaten

The Sound Of AIオープンソース研究グループの音声からテキストへのモジュール用にファインチューニングされたFacebookのwav2vec2モデル

Transformers 英語

Waynehills STT Doogie Server

Doogie/Waynehills-STT-doogie-serverをファインチューニングした音声認識モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase