モデル選定

画像からテキストへの変換

# 画像からテキストへの変換

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged GGUF

これはQari-OCR-0.3-SNAPSHOT-VL-2B-Instruct-mergedモデルに基づく静的量子化バージョンで、主に画像からテキストへの変換タスクに使用されます。

画像生成テキスト

Transformers 英語

Qwen Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instructの量子化バージョンで、llama.cppを使用して量子化されており、マルチモーダルタスクをサポートし、画像からテキストへの変換などのアプリケーションシーンに適しています。

テキスト生成画像英語

Mixtex Finetune

MixTex base_ZhEn は中国語と英語をサポートする画像からテキストへの変換モデルで、MITライセンスの下で公開されています。

画像生成テキスト複数言語対応

Google.gemma 3 27b Pt GGUF

Gemma 3 27BはGoogleが開発した大規模事前学習言語モデルで、パラメータ規模は270億、様々な自然言語処理タスクに適しています。

大規模言語モデル

Thai Handwriting Llm

Llama-3.2-11B-Vision-Instructを基にしたLoRA適応視覚言語モデルで、画像からタイ語の手書き文字を転写できます。

画像生成テキスト

Safetensors その他

Florence 2 Large

Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚および視覚言語タスクを処理します。

画像生成テキスト

Florence 2 Large

Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚および視覚言語タスクを処理します。

画像生成テキスト

lodestone-horizon

Trocr German Handwritten

これはTransformerベースのOCRモデルで、ドイツ語の手書きテキスト認識に特化しています。

Transformers ドイツ語

天秤座は大規模言語モデルを基盤に構築された分離視覚システムで、基本的なマルチモーダル理解能力を備えています。

画像生成テキスト

OCR TextInput Base

金融分野に特化した画像からテキストへの変換モデルで、英文テキスト認識をサポートし、主に金融文書の画像内容を処理します。

Transformers 英語

Llava Phi 3 Mini Gguf

LLaVA-Phi-3-mini は Phi-3-mini-4k-instruct と CLIP-ViT-Large-patch14-336 をファインチューニングした LLaVA モデルで、画像からテキストへの変換タスクに特化しています。

画像生成テキスト

Donut Finetune Rvl Cdip

Donutフレームワークに基づく文書分類モデルで、RVL-CDIPの小規模データセットでトレーニング済み

画像生成テキスト

Transformers 英語

Git Base Next Refined

microsoft/git-baseを微調整した画像からテキストへの変換モデル

大規模言語モデル

Transformers その他

Blip Base Captioning Ft Hl Scenes

このモデルはBLIPアーキテクチャに基づく画像キャプション生成モデルで、特にシーンの高レベル記述に特化してファインチューニングされています。

画像生成テキスト

Transformers 英語

michelecafagna26

Pix2struct Refexp Base

Pix2Structは、画像エンコーダー - テキストデコーダーモデルで、画像記述やビジュアル質問応答など、さまざまなビジュアル言語タスクに対して訓練されています。

画像生成テキスト

Transformers 複数言語対応

マイクロソフトGITフレームワークを基にしたマルチモーダルモデルで、学生の宿題画像からテキストを抽出し教師のフィードバックを生成することに特化

画像生成テキスト

Transformers 複数言語対応

画像フォルダデータセットで訓練されたOCRモデルで、PDF文書のテキスト認識に使用されます

Vit Gpt2 Image Captioning

これはVision Encoder-Decoderアーキテクチャに基づく画像キャプション生成モデルで、入力画像に対する自然言語の説明を生成できます。

画像生成テキスト

Pix2struct Large

Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像-テキストペアで訓練され、様々な視覚言語タスクに適用可能

画像生成テキスト

Transformers 複数言語対応

Pix2struct Screen2words Large

Pix2Structアーキテクチャに基づく大規模視覚言語モデル、UIインターフェースの機能説明生成に特化してファインチューニング

画像生成テキスト

Transformers 複数言語対応

Pix2struct Base

Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像説明や視覚的質問応答を含む複数のタスクの画像-テキストペアで訓練されています。

画像生成テキスト

Transformers 複数言語対応

Donut Base Sroie

naver-clova-ix/donut-baseをファインチューニングしたドキュメント理解モデル、画像テキスト抽出タスクに適しています

Image Caption Generator

Flickr8kデータセットでトレーニングされた視覚言語モデルで、入力画像に対して自然言語の説明を生成できます

画像生成テキスト

これは画像からテキストを生成するモデルで、画像を受け取り、記述的なテキストを出力することができます。

画像生成テキスト

Transformers 英語

Trocr Large Handwritten

TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト認識に特化しており、IAMデータセットで微調整されています。

Vit Gpt2 Coco En

ViTとGPT2アーキテクチャに基づく画像からテキストへの変換モデルで、入力画像に対して合理的な英語の説明を生成できます。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase