markuplm-large-finetuned-qa开源问答模型 - 免费处理网页标记与文本结合问答

首页

Markuplm Large Finetuned Qa

由 FuriouslyAsleep 开发

该模型是基于微软MarkupLM架构微调的问答模型，专门用于处理网页标记语言(HTML/XML)与文本结合的问答任务

多模态融合

Transformers

#网页问答 #多模态预训练 #标记语言理解

下载量 50

发布时间 : 3/2/2022

模型简介

多模态预训练模型，结合文本和标记语言信息，适用于网页内容理解和信息提取任务

模型特点

多模态理解

同时处理文本内容和HTML/XML标记结构信息

网页问答优化

专门针对网页内容问答任务进行微调

标记语言感知

能够理解HTML/XML标签的语义和结构关系

模型能力

网页内容问答

标记语言理解

结构化信息提取

多模态文档分析

使用案例

文档智能

网页问答系统

从网页中提取信息回答用户问题

网页信息提取

从结构化网页中提取特定字段信息

🚀 MarkupLM Large在WebSRC上微调以实现问答功能

本模型基于微软的MarkupLM进行调整。这个微调后的模型部分遵循了MarkupLM代码仓库中的说明（具体调整见下面的“微调参数”部分）。此版本未得到微软的认可。

你可以在Markup QA空间中测试问答功能。

✨ 主要特性

多模态预训练：针对文档AI进行了多模态（文本 + 标记语言）预训练。
先进的性能：MarkupLM在多个数据集上取得了最优结果。

📚 详细文档

模型介绍（来自微软MarkupLM大模型卡片）

MarkupLM是一种简单而有效的文本和标记语言多模态预训练方法，用于视觉丰富的文档理解和信息提取任务，如网页问答和网页信息提取。MarkupLM在多个数据集上取得了最优结果。更多详细信息，请参考我们的论文： MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding Junlong Li, Yiheng Xu, Lei Cui, Furu Wei

微调参数

--per_gpu_train_batch_size 4 --warmup_ratio 0.1 --num_train_epochs 4

训练数据

训练仅在WebSRC的一个小子集上进行：

网站总数：60
训练网站列表：['ga09']
测试网站列表：[]
验证网站列表：['ga12', 'ph04', 'au08', 'ga10', 'au01', 'bo17', 'mo02', 'jo11', 'sp09', 'sp10', 'ph03', 'ph01', 'un09', 'sp14', 'jo03', 'sp07', 'un07', 'bo07', 'mo04', 'bo09', 'jo10', 'un12', 're02', 'bo01', 'ca01', 'sp15', 'au12', 'un03', 're03', 'jo13', 'ph02', 'un10', 'au09', 'au10', 'un02', 'mo07', 'sp13', 'bo08', 'sp03', 're05', 'sp06', 'ca02', 'sp02', 'sp01', 'au03', 'sp11', 'mo06', 'bo10', 'un11', 'un06', 'ga01', 'un04', 'ph05', 'au11', 'sp12', 'jo05', 'sp04', 'jo12', 'sp08']
处理的网站数量：60

📦 安装指南

推理测试可能无法正常工作。请使用NielsRogge的transformers markuplm分支。

安装完成后，尝试以下模型和分词器的赋值操作（可以考虑使用文件存储标签字典）：

model = MarkupLMForQuestionAnswering.from_pretrained("FuriouslyAsleep/markuplm-large-finetuned-qa")

tokenizer = MarkupLMTokenizer(
    vocab_file="vocab.json",
    merges_file="merges.txt",
    tags_dict= {"a": 0, "abbr": 1, "acronym": 2, "address": 3, "altGlyph": 4, "altGlyphDef": 5, "altGlyphItem": 6, "animate": 7, "animateColor": 8, "animateMotion": 9, "animateTransform": 10, "applet": 11, "area": 12, "article": 13, "aside": 14, "audio": 15, "b": 16, "base": 17, "basefont": 18, "bdi": 19, "bdo": 20, "bgsound": 21, "big": 22, "blink": 23, "blockquote": 24, "body": 25, "br": 26, "button": 27, "canvas": 28, "caption": 29, "center": 30, "circle": 31, "cite": 32, "clipPath": 33, "code": 34, "col": 35, "colgroup": 36, "color-profile": 37, "content": 38, "cursor": 39, "data": 40, "datalist": 41, "dd": 42, "defs": 43, "del": 44, "desc": 45, "details": 46, "dfn": 47, "dialog": 48, "dir": 49, "div": 50, "dl": 51, "dt": 52, "ellipse": 53, "em": 54, "embed": 55, "feBlend": 56, "feColorMatrix": 57, "feComponentTransfer": 58, "feComposite": 59, "feConvolveMatrix": 60, "feDiffuseLighting": 61, "feDisplacementMap": 62, "feDistantLight": 63, "feFlood": 64, "feFuncA": 65, "feFuncB": 66, "feFuncG": 67, "feFuncR": 68, "feGaussianBlur": 69, "feImage": 70, "feMerge": 71, "feMergeNode": 72, "feMorphology": 73, "feOffset": 74, "fePointLight": 75, "feSpecularLighting": 76, "feSpotLight": 77, "feTile": 78, "feTurbulence": 79, "fieldset": 80, "figcaption": 81, "figure": 82, "filter": 83, "font-face-format": 84, "font-face-name": 85, "font-face-src": 86, "font-face-uri": 87, "font-face": 88, "font": 89, "footer": 90, "foreignObject": 91, "form": 92, "frame": 93, "frameset": 94, "g": 95, "glyph": 96, "glyphRef": 97, "h1": 98, "h2": 99, "h3": 100, "h4": 101, "h5": 102, "h6": 103, "head": 104, "header": 105, "hgroup": 106, "hkern": 107, "hr": 108, "html": 109, "i": 110, "iframe": 111, "image": 112, "img": 113, "input": 114, "ins": 115, "kbd": 116, "keygen": 117, "label": 118, "legend": 119, "li": 120, "line": 121, "linearGradient": 122, "link": 123, "main": 124, "map": 125, "mark": 126, "marker": 127, "marquee": 128, "mask": 129, "math": 130, "menu": 131, "menuitem": 132, "meta": 133, "metadata": 134, "meter": 135, "missing-glyph": 136, "mpath": 137, "nav": 138, "nobr": 139, "noembed": 140, "noframes": 141, "noscript": 142, "object": 143, "ol": 144, "optgroup": 145, "option": 146, "output": 147, "p": 148, "param": 149, "path": 150, "pattern": 151, "picture": 152, "plaintext": 153, "polygon": 154, "polyline": 155, "portal": 156, "pre": 157, "progress": 158, "q": 159, "radialGradient": 160, "rb": 161, "rect": 162, "rp": 163, "rt": 164, "rtc": 165, "ruby": 166, "s": 167, "samp": 168, "script": 169, "section": 170, "select": 171, "set": 172, "shadow": 173, "slot": 174, "small": 175, "source": 176, "spacer": 177, "span": 178, "stop": 179, "strike": 180, "strong": 181, "style": 182, "sub": 183, "summary": 184, "sup": 185, "svg": 186, "switch": 187, "symbol": 188, "table": 189, "tbody": 190, "td": 191, "template": 192, "text": 193, "textPath": 194, "textarea": 195, "tfoot": 196, "th": 197, "thead": 198, "time": 199, "title": 200, "tr": 201, "track": 202, "tref": 203, "tspan": 204, "tt": 205, "u": 206, "ul": 207, "use": 208, "var": 209, "video": 210, "view": 211, "vkern": 212, "wbr": 213, "xmp": 214},
    add_prefix_space=True,
)