Model Selection

低CER

# 低CER

Whisper Finetune Teochew

Whisper-mediumをファインチューニングした潮州語（潮汕語）正字認識モデルで、多方言アクセントの正字転写をサポート

Safetensors Chinese

TrOCRベースの手書き文字モデルをファインチューニングしたタイ語と英語の光学文字認識モデルで、手書きテキスト行画像の処理に優れています

Transformers Supports Multiple Languages

このモデルは、表セルのテキスト行画像から手書きテキストを認識するために使用され、特に1930年代のフィンランドの死亡記録や国勢調査記録の手書きテキスト認識に適しています。

Kansallisarkisto

Phoneme Scorer V2 Wav2vec2

Wav2Vec2-Baseアーキテクチャに基づく自動音声認識モデルで、音素認識に特化しており、LJSpeech Phonemesデータセットでファインチューニングされています

Transformers English

ct-vikramanantha

OCR TextInput Base

金融分野に特化した画像からテキストへの変換モデルで、英文テキスト認識をサポートし、主に金融文書の画像内容を処理します。

Transformers English

Pretrained Trocr Small Vietnamese Nom

ベトナム語音声認識に特化したモデルで、高精度な音声からテキストへの変換機能をサポートします。

Transformers Other

Image Text Captcha V2

microsoft/trocr-base-printedをファインチューニングした印刷テキスト認識モデルで、主にCAPTCHA認識タスクに使用されます

Whisper Small Japanese

このモデルはopenai/whisper-smallをファインチューニングした日本語音声認識モデルで、日本語音声からテキストへの変換タスクをサポートします。

Transformers Japanese

Trocr Base Printed Fr

Transformerベースのフランス語活字OCRモデル、TrOCRモデルのフランス語版の空白を埋める

画像生成テキスト

Transformers French

Wav2vec2 Ljspeech Gruut

Wav2Vec2アーキテクチャに基づく音素認識モデルで、LJSpeech Phonemesデータセットでファインチューニングされ、音声を音素シーケンスに変換するために使用されます

Transformers English

Whisper Small Cantonese

OpenAI Whisper-smallをファインチューニングした広東語音声認識モデル、Common Voice 16.0テストセットでCER7.93を達成

Transformers Supports Multiple Languages

Stt Zh Conformer Transducer Large

これは標準中国語音声を転写するための大規模なConformer-Transducerモデルで、約1.2億のパラメータを持ち、AISHELL-2データセットでトレーニングされました。

音声認識 Chinese

Stt Zh Citrinet 1024 Gamma 0 25

これは中国語普通話の自動音声認識(ASR)用の非自己回帰Citrinetモデルで、約1.4億のパラメータを持ち、文字エンコーディングスキームとCTC損失/デコードを採用しています。

音声認識 Chinese

Wav2vec2 Xls R 1b Npsc Bokmaal

facebook/wav2vec2-xls-r-1bモデルを基に、ノルウェー書面語（ブークモール）音声データセットでファインチューニングした自動音声認識モデル

Wav2vec2 Large Xlsr 53 Chinese Zh Cn Gpt

facebook/wav2vec2-large-xlsr-53をベースに中国語(zh-CN)でCommon Voiceデータセットを使用してファインチューニングした音声認識モデル

Transformers Chinese

Wav2vec2 Xls R 300m Cs Cv8

facebook/wav2vec2-xls-r-300mをベースにCommon Voice 8.0チェコ語データセットでファインチューニングした音声認識モデル

Transformers Other

Wav2vec2 Xls R 1b Ro

このモデルはfacebook/wav2vec2-xls-r-1bをルーマニア語のCommon Voice 7.0データセットでファインチューニングした自動音声認識モデルです。

Transformers Other

Wav2vec2 Large Xlsr 53 Th

これはwav2vec2-large-xlsr-53モデルをベースに、タイ語Common Voice 7.0データセットでファインチューニングした自動音声認識(ASR)モデルです。

Transformers Other

Wav2vec2 Bn 300m

facebook/wav2vec2-xls-r-300mをファインチューニングしたベンガル語自動音声認識モデル、OPENSLR_SLR53データセットでトレーニング

Transformers Other

Tahsin-Mayeesha

facebook/wav2vec2-xls-r-300mをファインチューニングしたエストニア語自動音声認識モデルで、約800時間の多様なデータでトレーニング

Transformers Other

Wav2vec2 Xls R Sl A1

これはfacebook/wav2vec2-xls-r-300mをベースに、スロベニア語(Common Voice 8.0)データセットで微調整された自動音声認識(ASR)モデルです。

Transformers Other

Wav2vec2 Large Xls R 300m Bg D2

facebook/wav2vec2-xls-r-300mをブルガリア語データセットでファインチューニングした自動音声認識モデル

Transformers Other

Xls R 1b Cv 8 Fr

これは、facebook/wav2vec2-xls-r-1bをベースに、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - FRデータセットで微調整されたフランス語自動音声認識モデルです。

Transformers French

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers English

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase