モデル選定

低エラー率

# 低エラー率

Trocr Finetuned 20250422 125947

ポルトガル語テキストに最適化された光学文字認識(OCR)モデル、Microsoft TrOCRベースモデルをファインチューニング

文字認識複数言語対応

Qaari 0.1 Urdu OCR VL 2B Instruct

Qaari 0.1 ウルドゥー語は、ウルドゥー語テキストの光学文字認識（OCR）に特化して最適化されたモデルで、Qwen/Qwen2-VL-2Bをベースに微調整され、ウルドゥー語OCR能力が著しく向上しています。

Qari OCR 0.1 VL 2B Instruct

Qwen2 VLモデルをファインチューニングしたアラビア語OCRモデル、全ページアラビア語テキスト認識に最適化

Transformers アラビア語

Fireredasr LLM L

FireRedASRは、標準中国語、中国の方言、英語をサポートするオープンソースの産業用自動音声認識（ASR）モデルシリーズで、公開されている標準中国語ASRベンチマークテストにおいて新たな最先端（SOTA）を達成し、優れた歌詞認識能力も備えています。

音声認識複数言語対応

Vntl Llama3 8b V2 Imatrix Gguf

LLaMA3 Youkoのqlora微調整版で、日本語ビジュアルノベル英訳に最適化された8Bパラメータモデル

機械翻訳複数言語対応

Vntl Llama3 8b V2 Gguf

LLaMA 3 Youkoのqlora微調整バージョンに基づき、日本語ビジュアルノベルの英訳タスクに特化

機械翻訳複数言語対応

Reverb Diarization V2

Reverb話者分離V2はpyannote-audioベースの話者分離モデルで、ベンチマークpyannote3.0モデルと比較して複数のテストセットで優れた性能を発揮します。

話者の処理

Trocr Base Printed License Plates Ocr

microsoft/trocr-base-printedを基に微調整した印刷体ナンバープレートOCRモデルで、評価セットでの文字エラー率は0.037

バイトレベルの微調整モデルに基づくアラビア語の精密な発音記号システムで、事前訓練モデルの微調整によりアラビア語テキストの発音記号を自動補完します。

大規模言語モデル

Transformers アラビア語

Wavlm Base 960h Asv19 Deepfake

マイクロソフトのWavLM-baseをファインチューニングしたディープフェイク音声検出モデルで、ASVspoof 2019データセットで優れた性能を発揮し、精度は99.79%に達します

Hubert Base 960h Asv19 Deepfake

HuBERTアーキテクチャに基づく音声分類モデルで、ディープフェイク音声や音声スプーフィングの検出に特化

Belle Whisper Large V3 Zh

whisper-large-v3を微調整して最適化した中国語音声認識モデルで、複数の中国語音声ベンチマークテストで性能が大幅に向上

Trocr Large Spanish

Transformerアーキテクチャに基づく印刷体スペイン語OCRモデルで、印刷フォントに最適化されており、手書き文字認識はサポートしていません

画像生成テキスト

Transformers 複数言語対応

Trocr Base Printed License Plates Ocr

microsoft/trocr-base-printedをファインチューニングしたOCRモデルで、印刷体のナンバープレート認識に特化しています。

Sinhala Ocr Model V3

このモデルはRansaka/sinhala-ocr-modelをファインチューニングしたシンハラ語OCRモデルで、主にシンハラ語テキストの認識に使用されます。

Wespeaker Voxceleb Resnet293 LM

ResNet293アーキテクチャに基づく話者埋め込みモデルで、大マージンファインチューニング最適化を経ており、話者認識、類似度計算、音声分割などのタスクをサポート

話者の処理英語

Whisper Large V3 German

Whisper Large v3を基にしたドイツ語音声認識のファインチューニングモデルで、ドイツ語音声処理と認識に最適化されています

Transformers ドイツ語

Trocr Base Printed Captcha Ocr

マイクロソフトのtrocr-base-printedモデルをファインチューニングしたCAPTCHA認識モデルで、印刷体テキストのOCRタスク専用に設計されています

Whisper Base Japanese

このモデルは、Common Voice、JVS、JSUTデータセットを使用してopenai/whisper-baseを日本語向けにファインチューニングしたもので、日本語音声認識タスクに適しています。

Transformers 日本語

ArOCRはアラビア語の光学文字認識(OCR)モデルで、アラビア語テキストを含む画像を編集可能なテキスト形式に変換できます。

Transformers アラビア語

Trocr Handwritten Math

このモデルは手書き数学式の画像を対応するLaTeXシーケンスに変換でき、数式認識とデジタル処理に適しています。

Wav2vec2 Large Xlsr Japanese 0325 1200

これはfacebook/wav2vec2-large-xlsr-53モデルを基に、日本語音声認識タスク向けにファインチューニングした自動音声認識(ASR)モデルです。

Transformers 日本語

Wav2vec2 Xls R Adult Child Cls

XLS-Rアーキテクチャに基づく音声分類モデルで、成人と児童の音声を区別します。

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase