モデル選定

音声認識最適化

# 音声認識最適化

Whisper Large V3 Turbo Es

Whisper-large-v3-turboをファインチューニングしたスペイン語音声認識モデル。Common Voice 17.0スペイン語データセットで単語誤り率を5.34%まで低減

Transformers スペイン語

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V4

このモデルは、gary109/ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v3を基に、GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2データセットで微調整された自動音声認識モデルです。

Wav2vec2 Base Timit Demo Google Colab

facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに適しています。

Wav2vec2 Large 960h Lv60 Self MIDIARIES 72H FT

Facebookが事前学習したwav2vec2 large 960H lv60自己教師ありモデルを基に、72時間のMI日記データで微調整した音声認識モデル

Pyctcdecode Asr

pyctcdecodeライブラリとHugging Faceモデルを組み合わせた自動音声認識(ASR)ソリューションで、効率的なデコード能力を提供

Wav2vec2 Large Lv60h 100h 2nd Try

LibriSpeechデータセットで微調整されたwav2vec2-large-lv60音声認識モデル、英語音声からテキストへの変換タスクをサポート

patrickvonplaten

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase