Markuplm Base Finetuned Websrc
MarkupLMは、リッチビジュアルドキュメント理解と情報抽出タスクのためのマルチモーダル事前学習モデルで、テキストとマークアップ言語情報を統合しています。
ダウンロード数 168
リリース時間 : 6/14/2022
モデル概要
このモデルはウェブQAやウェブ情報抽出などのタスク向けに設計されており、テキスト内容とHTMLマークアップ構造を組み合わせることでより正確なドキュメント理解を実現します。
モデル特徴
マルチモーダル理解
テキスト内容とHTMLマークアップ構造を同時に処理し、より包括的なドキュメント理解を実現
ウェブ特化最適化
ウェブコンテンツに特化して最適化されており、WebSRCなどのウェブデータセットで優れた性能を発揮
簡潔で効率的な設計
シンプルながら効果的な設計で、複数のベンチマークテストでSOTA性能を達成
モデル能力
ウェブコンテンツ理解
構造化情報抽出
ウェブQA
ドキュメントインテリジェンス処理
使用事例
ウェブ情報処理
ウェブQAシステム
ウェブコンテンツに基づいてユーザーの質問に回答
WebSRCデータセットで優れた成績を達成
ウェブデータ抽出
ウェブページから構造化データを抽出
ドキュメントインテリジェンス
リッチテキストドキュメント分析
豊富なフォーマットを含むドキュメント内容を解析
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98