N

Nougat Base Deploy

Developed by HongxuanLi
NougatはDonutアーキテクチャに基づく視覚-言語モデルで、科学系PDFをMarkdown形式に転写するために設計されています。
Downloads 20
Release Time : 4/22/2024

Model Overview

このモデルは、視覚エンコーダーとしてSwin Transformerを、テキストデコーダーとしてmBARTを使用し、自己回帰方式でPDFからMarkdownへの変換を実現します。

Model Features

学術文書最適化
科学系PDF文書に特化して設計されており、複雑なレイアウトや数式を効果的に処理可能
エンドツーエンド変換
PDF画像ピクセルから直接Markdown内容を予測し、中間OCRステップが不要
ハイブリッドアーキテクチャ
視覚Transformerとテキストデコーダーの利点を組み合わせ、高品質な変換を実現

Model Capabilities

PDF文書変換
Markdown生成
学術文書理解
数式認識

Use Cases

学術文書処理
論文フォーマット変換
PDF形式の学術論文を構造化Markdownに変換
元の文書の数式、表、参考文献フォーマットを保持
技術文書のデジタル化
技術マニュアルや仕様書を編集可能な形式に変換
コンテンツ管理とバージョン管理が容易
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase