Perseus-Doc-vl-0712オープンソース視覚言語モデル - 多言語対応、テキストや字幕生成などに利用可能

ホーム

Perseus Doc Vl 0712 I1 GGUF

mradermacherによって開発

Perseus-Doc-vl-0712は、多言語をサポートするビジュアル言語モデルで、テキスト生成、画像キャプション生成、光学文字認識などのタスクに適しています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #マルチモーダル文書理解 #中英OCR強化 #軽量化ビジュアル言語

ダウンロード数 105

リリース時間 : 7/14/2025

モデル概要

このモデルは特定のデータセットで訓練され、ビジュアル理解とテキスト処理能力を提供し、さまざまなシーンでの文書分析と画像理解タスクに適しています。

モデル特徴

多言語サポート

英語と中国語をサポートし、多言語環境での文書処理タスクに適しています。

ビジュアル言語理解

ビジュアルと言語処理能力を結合し、画像に関連するテキスト内容を理解し生成することができます。

量子化バージョンが豊富

複数の量子化バージョンを提供し、ユーザーは必要に応じて適切なモデルサイズと品質を選択できます。

モデル能力

テキスト生成

画像キャプション生成

光学文字認識

インテリジェント文字認識

ビジュアル理解

文書分析

使用事例

文書処理

PDF内容分析

PDF文書からテキスト内容を抽出し分析します。

文書内の文字情報を効率的に認識し抽出します。

画像キャプション生成

画像に対して説明的なキャプションを生成します。

画像内容に関連する正確な説明を生成します。

多言語アプリケーション

多言語OCR

多言語文書内の文字を認識し抽出します。

英語と中国語の文字認識をサポートします。

🚀 Perseus-Doc-vl-0712モデル

このモデルは、画像キャプショニングや光学文字認識などの視覚的な理解に特化したビジョンモデルです。複数のデータセットを使用して訓練され、多言語に対応しています。

🚀 クイックスタート

このモデルの詳細な概要とダウンロードリストについては、このモデルのモデルページをご覧ください。

✨ 主な機能

多言語対応：英語と中国語に対応しています。
多様なタスク対応：テキスト生成、画像キャプショニング、光学文字認識などのタスクに対応しています。

📦 インストール

GGUFファイルの使用方法がわからない場合は、TheBlokeのREADMEを参照してください。

📚 ドキュメント

モデル情報

属性	詳情
モデルタイプ	Vision Model
訓練データ	prithivMLmods/OpenDoc-Pdf-Preview、prithivMLmods/Corvus-OCR-Caption-Mix、prithivMLmods/Openpdf-Analysis-Recognition、prithivMLmods/Opendoc2-Analysis-Recognition
ライブラリ名	transformers
ライセンス	apache - 2.0

提供される量子化形式

（サイズ順に並んでいますが、必ずしも品質とは関係ありません。IQ量子化は、同じサイズの非IQ量子化よりも優れていることが多いです）

リンク	タイプ	サイズ/GB	注意事項
GGUF	i1 - IQ1_S	2.0	非常に必要な場合
GGUF	i1 - IQ1_M	2.1	ほとんど必要な場合
GGUF	i1 - IQ2_XXS	2.4
GGUF	i1 - IQ2_XS	2.6
GGUF	i1 - IQ2_S	2.7
GGUF	i1 - IQ2_M	2.9
GGUF	i1 - Q2_K_S	2.9	非常に低品質
GGUF	i1 - Q2_K	3.1	IQ3_XXSの方が良い可能性があります
GGUF	i1 - IQ3_XXS	3.2	低品質
GGUF	i1 - IQ3_XS	3.4
GGUF	i1 - Q3_K_S	3.6	IQ3_XSの方が良い可能性があります
GGUF	i1 - IQ3_S	3.6	Q3_K*より良い
GGUF	i1 - IQ3_M	3.7
GGUF	i1 - Q3_K_M	3.9	IQ3_Sの方が良い可能性があります
GGUF	i1 - Q3_K_L	4.2	IQ3_Mの方が良い可能性があります
GGUF	i1 - IQ4_XS	4.3
GGUF	i1 - IQ4_NL	4.5	IQ4_XSを選ぶことをおすすめします
GGUF	i1 - Q4_0	4.5	高速だが低品質
GGUF	i1 - Q4_K_S	4.6	サイズ/速度/品質のバランスが良い
GGUF	i1 - Q4_K_M	4.8	高速でおすすめ
GGUF	i1 - Q4_1	5.0
GGUF	i1 - Q5_K_S	5.4
GGUF	i1 - Q5_K_M	5.5
GGUF	i1 - Q6_K	6.4	実質的に静的なQ6_Kと同じ

ikawrakowによる低品質量子化タイプの比較グラフです（数値が低い方が良い）：

Artefact2によるこの問題に関する考察はこちら： https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9

FAQ / モデルリクエスト

質問に対する回答や他のモデルの量子化を希望する場合は、こちらをご覧ください。

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

謝辞

この作業を可能にするために、私の会社であるnethype GmbHにサーバーの使用を許可していただき、ワークステーションのアップグレードを提供していただきました。また、@nicobossには、彼のプライベートスーパーコンピューターへのアクセスを許可していただき、通常よりも高品質で多くのimatrix量子化を提供することができました。ありがとうございます。