モデル選定

高精度音声文字起こし

# 高精度音声文字起こし

Distil Whisper Large V3 Ptbr

これはdistil-whisper-large-v3の微調整バージョンで、ブラジルポルトガル語の自動音声認識（ASR）に特化しており、Common Voice 16データセットと私有データセットを組み合わせて訓練されています。

RevのReverb ASRモデルは20万時間の専門家による手作業で転記された英語音声データでトレーニングされており、現在最も正確なオープンソース英語自動音声認識システムの一つです。

音声認識英語

Exp W2v2t It Wavlm S895

microsoft/wavlm-largeモデルを基にファインチューニングしたイタリア語自動音声認識モデルで、Common Voice 7.0イタリア語データセットでトレーニングされています。

Transformers その他

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V3

wav2vec2-large-xlsr-53ベースの自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでファインチューニング済み

Wav2vec2 2 Bert Large No Adapter Frozen Enc

このモデルはlibrispeech_asrデータセットを使って学習された音声認識モデルで、評価セットで2.0133の単語誤り率（WER）を達成しました。

Wav2vec2 Xls R 300m Turkish Tr Med

このモデルは、facebook/wav2vec2-xls-r-300mを一般的な音声データセットで微調整したトルコ語音声認識モデルです。

Wav2vec2 Large Xlsr Persian V2

facebook/wav2vec2-large-xlsr-53をベースに、Common Voiceデータセットを使ってペルシア語（ペルシア語）で微調整された自動音声認識モデル

音声認識その他

これはfacebook/wav2vec2-xls-r-300mモデルをカバイル語データセットで微調整した自動音声認識（ASR）モデルです。

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase