Perseus-Doc-vl-071225-i1-GGUFオープンソースビジュアル言語モデル - 中国語と英語のバイリンガルのマルチタスクテキスト画像生成をサポート

ホーム

Perseus Doc Vl 071225 I1 GGUF

mradermacherによって開発

Perseus-Doc-vl-0712は、英語と中国語をサポートする視覚言語モデルで、テキスト生成推論、画像キャプション生成、光学文字認識などのさまざまなタスクに適しています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #文書の視覚的理解 #多言語OCR #PDFコンテンツ解析

ダウンロード数 322

リリース時間 : 7/13/2025

モデル概要

このモデルは多機能な視覚言語モデルで、文書分析、画像理解、テキスト生成などのタスクを処理でき、特に文書処理と視覚コンテンツ理解のシナリオに適しています。

モデル特徴

多言語サポート

英語と中国語の処理を同時にサポートし、バイリンガル環境に適しています。

多タスク能力

テキスト生成、画像キャプション生成、OCRなどのさまざまなタスクを実行できます。

量子化オプションが豊富

さまざまな量子化バージョンを提供し、さまざまなハードウェアリソースの要件に対応します。

モデル能力

テキスト生成

画像キャプション生成

光学文字認識

スマート文字認識

文書の視覚的理解

画像からテキストへの変換

使用事例

文書処理

PDF文書分析

PDF文書からテキストコンテンツを抽出して分析します。

文書OCR

スキャンされた文書の文字コンテンツを認識します。

画像理解

画像キャプション生成

画像に対して説明的なテキストを生成します。

🚀 Perseus-Doc-vl-0712モデル

このモデルは視覚理解に特化したモデルで、画像キャプショニングや光学文字認識などのタスクに対応しています。複数のデータセットを用いて訓練され、多言語に対応しています。

📚 詳細ドキュメント

基本情報

属性	詳細
ベースモデル	prithivMLmods/Perseus-Doc-vl-0712
データセット	prithivMLmods/OpenDoc-Pdf-Preview、prithivMLmods/Corvus-OCR-Caption-Mix、prithivMLmods/Openpdf-Analysis-Recognition、prithivMLmods/Opendoc2-Analysis-Recognition
言語	英語、中国語
ライブラリ名	transformers
ライセンス	apache - 2.0
量子化担当者	mradermacher
タグ	text - generation - inference、image - captioning、optical - character - recognition、intelligent - character - recognition、caption、ocr、visual - understanding、art、icr、image - to - text、vlm、Doc - v

モデルについて

weighted/imatrix quants of https://huggingface.co/prithivMLmods/Perseus-Doc-vl-0712

便利な概要とダウンロードリストについては、このモデルのモデルページをご覧ください。

静的な量子化データはhttps://huggingface.co/mradermacher/Perseus-Doc-vl-071225-GGUFで入手できます。

これはビジョンモデルです - mmprojファイル（ある場合）は静的リポジトリにあります。

使い方

GGUFファイルの使い方がわからない場合は、TheBlokeのREADMEを参照してください。ここには、マルチパートファイルの結合方法などの詳細が記載されています。

提供される量子化データ

（サイズでソートされていますが、必ずしも品質を表しているわけではありません。IQ量子化は同程度のサイズの非IQ量子化よりも優れていることが多いです）

リンク	タイプ	サイズ/GB	備考
GGUF	i1-IQ1_S	2.0	非常に必要な場合
GGUF	i1-IQ1_M	2.1	多くの場合非常に必要な場合
GGUF	i1-IQ2_XXS	2.4
GGUF	i1-IQ2_XS	2.6
GGUF	i1-IQ2_S	2.7
GGUF	i1-IQ2_M	2.9
GGUF	i1-Q2_K_S	2.9	非常に低品質
GGUF	i1-Q2_K	3.1	IQ3_XXSの方が良い可能性があります
GGUF	i1-IQ3_XXS	3.2	低品質
GGUF	i1-IQ3_XS	3.4
GGUF	i1-Q3_K_S	3.6	IQ3_XSの方が良い可能性があります
GGUF	i1-IQ3_S	3.6	Q3_K*より良い
GGUF	i1-IQ3_M	3.7
GGUF	i1-Q3_K_M	3.9	IQ3_Sの方が良い可能性があります
GGUF	i1-Q3_K_L	4.2	IQ3_Mの方が良い可能性があります
GGUF	i1-IQ4_XS	4.3
GGUF	i1-IQ4_NL	4.5	IQ4_XSの方が良い
GGUF	i1-Q4_0	4.5	高速、低品質
GGUF	i1-Q4_K_S	4.6	最適なサイズ/速度/品質
GGUF	i1-Q4_K_M	4.8	高速、おすすめ
GGUF	i1-Q4_1	5.0
GGUF	i1-Q5_K_S	5.4
GGUF	i1-Q5_K_M	5.5
GGUF	i1-Q6_K	6.4	実質的に静的Q6_Kと同じ

ikawrakowによる低品質量子化タイプの比較グラフです（値が低いほど良い）：

また、Artefact2の意見はこちらです： https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9

FAQ / モデルリクエスト

質問に対する回答や他のモデルの量子化を希望する場合は、https://huggingface.co/mradermacher/model_requests を参照してください。

謝辞

私の会社であるnethype GmbHに感謝します。彼らは私にサーバーを使用させ、ワークステーションをアップグレードしてくれたおかげで、私は余暇時間にこの作業を行うことができました。また、@nicobossにも感謝します。彼は私に彼のプライベートスーパーコンピューターへのアクセスを許可してくれたおかげで、私は通常よりもはるかに高品質の多くのimatrix量子化データを提供することができました。