I

Im2latex

DGurgurovによって開発
VisionEncoderDecoderModelをベースとしたモデルで、画像からLaTeX数式を生成するデータセットでファインチューニングされています。
ダウンロード数 288
リリース時間 : 7/15/2024

モデル概要

このモデルは数学式を含む画像をLaTeXコードに変換でき、学術文書処理や数式認識などのシナリオに適しています。

モデル特徴

ハイブリッドアーキテクチャ
視覚エンコーダ(Swin Transformer)とテキストデコーダ(GPT-2)を組み合わせ、画像からテキストへの変換タスクを効果的に処理
高精度数式認識
テストセットで0.67のBLEUスコアを達成し、複雑な数学式を正確に認識可能
分散トレーニング
PyTorchの分散データ並列(DDP)を使用して効率的にトレーニング

モデル能力

画像認識
数学式変換
LaTeXコード生成

使用事例

学術研究
論文数式のデジタル化
スキャン文書や画像中の数学式を編集可能なLaTeXコードに変換
学術文書処理の効率向上
教育支援ツール
学生や教師が画像中の数式のLaTeX表現を迅速に取得
数学コンテンツの共有と教育の利便性向上
文書処理
PDF数式抽出
PDF文書から数式画像を抽出し編集可能な形式に変換
文書編集プロセスの簡素化
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase