モデル選定

光学文字認識

# 光学文字認識

NVLM 1.0 は最先端のマルチモーダル大規模言語モデルのシリーズで、視覚言語タスクにおいて最先端の結果を達成し、主要な専有モデルやオープンアクセスモデルに匹敵する性能を発揮します。

画像生成テキスト

Transformers 英語

Trocr Large Str

TrOCRはTransformerベースの光学文字認識モデルで、単行テキスト画像向けに設計され、複数の標準データセットでファインチューニングされています。

Trocr Small Stage1

TrOCRはTransformerベースの事前学習光学文字認識モデルで、エンコーダ-デコーダアーキテクチャを採用し、単一行テキスト画像のOCRタスクに適しています。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase