Dictabert - Joint开源模型 - 支持希伯来语前缀分割等五项实用语言分析任务

首页

Dictabert Joint

由 dicta-il 开发

针对现代希伯来语的最先进多任务联合解析BERT模型，支持前缀分割、形态消歧、词典分析、句法解析和命名实体识别五大任务

序列标注

Transformers

其他#希伯来语联合解析 #多任务NLP #形态句法分析

下载量 3,678

发布时间 : 1/10/2024

模型简介

该模型是为现代希伯来语设计的联合解析模型，可同时处理多种自然语言处理任务，包括词法、句法和语义分析。

模型特点

多任务联合解析

单一模型同时处理希伯来语的词法、句法和语义分析任务

语法树可视化支持

输出结果可直接用于生成语法树可视化

灵活的任务组合

可选择性地启用/禁用特定任务头，按需使用模型功能

多种输出格式

支持JSON、UD格式和IAHLT风格UD格式三种输出方式

模型能力

希伯来语前缀分割

希伯来语形态消歧

希伯来语词典分析(词形还原)

希伯来语句法解析(依存树)

希伯来语命名实体识别

使用案例

学术研究

希伯来语语言学分析

用于研究希伯来语的词法、句法特征

提供完整的语言学分析结果

教育应用

希伯来语学习辅助

帮助学习者理解希伯来语句法结构和词形变化

可视化语法分析结果

🚀 DictaBERT：现代希伯来语的先进BERT套件

DictaBERT是一款用于希伯来语的先进语言模型，它能够同时处理前缀分割、形态消歧、词法分析（词形还原）、句法分析（依存树）和命名实体识别等多项任务。该模型的详细信息可查看此处。此外，你还可以通过这个链接体验模型的实时演示，直观查看句法树的可视化结果。

🚀 快速开始

DictaBERT是一款针对希伯来语的先进语言模型，可用于处理多种自然语言处理任务。它可以输出JSON、UD等格式的结果，适用于不同的应用场景。

✨ 主要特性

多任务处理：能够同时处理前缀分割、形态消歧、词法分析（词形还原）、句法分析（依存树）和命名实体识别等多项任务。
多种输出格式：支持JSON、UD（符合希伯来语UD树库风格）以及IAHLT风格的UD输出。
灵活配置：可以根据需求选择不初始化某些任务的头部，以提高处理效率。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

以下是一个使用DictaBERT进行预测的基础示例，展示了如何以JSON格式输出结果：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictabert-joint')
model = AutoModel.from_pretrained('dicta-il/dictabert-joint', trust_remote_code=True)

model.eval()

sentence = 'בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים'
print(model.predict([sentence], tokenizer, output_style='json')) # 其他返回格式见下文

输出结果：

[
  {
    "text": "בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים",
    "tokens": [
      {
        "token": "בשנת",
        "syntax": {
          "word": "בשנת",
          "dep_head_idx": 2,
          "dep_func": "obl",
          "dep_head": "השלים"
        },
        "seg": [
          "ב",
          "שנת"
        ],
        "lex": "שנה",
        "morph": {
          "token": "בשנת",
          "pos": "NOUN",
          "feats": {
            "Gender": "Fem",
            "Number": "Sing"
          },
          "prefixes": [
            "ADP"
          ],
          "suffix": false
        }
      },
      {
        "token": "1948",
        "syntax": {
          "word": "1948",
          "dep_head_idx": 0,
          "dep_func": "compound",
          "dep_head": "בשנת"
        },
        "seg": [
          "1948"
        ],
        "lex": "1948",
        "morph": {
          "token": "1948",
          "pos": "NUM",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "השלים",
        "syntax": {
          "word": "השלים",
          "dep_head_idx": -1,
          "dep_func": "root",
          "dep_head": "הומוריסטיים"
        },
        "seg": [
          "השלים"
        ],
        "lex": "השלים",
        "morph": {
          "token": "השלים",
          "pos": "VERB",
          "feats": {
            "Gender": "Masc",
            "Number": "Sing",
            "Person": "3",
            "Tense": "Past"
          },
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "אפרים",
        "syntax": {
          "word": "אפרים",
          "dep_head_idx": 2,
          "dep_func": "nsubj",
          "dep_head": "השלים"
        },
        "seg": [
          "אפרים"
        ],
        "lex": "אפרים",
        "morph": {
          "token": "אפרים",
          "pos": "PROPN",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "קישון",
        "syntax": {
          "word": "קישון",
          "dep_head_idx": 3,
          "dep_func": "flat",
          "dep_head": "אפרים"
        },
        "seg": [
          "קישון"
        ],
        "lex": "קישון",
        "morph": {
          "token": "קישון",
          "pos": "PROPN",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "את",
        "syntax": {
          "word": "את",
          "dep_head_idx": 6,
          "dep_func": "case",
          "dep_head": "לימודיו"
        },
        "seg": [
          "את"
        ],
        "lex": "את",
        "morph": {
          "token": "את",
          "pos": "ADP",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "לימודיו",
        "syntax": {
          "word": "לימודיו",
          "dep_head_idx": 2,
          "dep_func": "obj",
          "dep_head": "השלים"
        },
        "seg": [
          "לימודיו"
        ],
        "lex": "לימוד",
        "morph": {
          "token": "לימודיו",
          "pos": "NOUN",
          "feats": {
            "Gender": "Masc",
            "Number": "Plur"
          },
          "prefixes": [],
          "suffix": "PRON",
          "suffix_feats": {
            "Gender": "Masc",
            "Number": "Sing",
            "Person": "3"
          }
        }
      },
      {
        "token": "בפיסול",
        "syntax": {
          "word": "בפיסול",
          "dep_head_idx": 6,
          "dep_func": "nmod",
          "dep_head": "לימודיו"
        },
        "seg": [
          "ב",
          "פיסול"
        ],
        "lex": "פיסול",
        "morph": {
          "token": "בפיסול",
          "pos": "NOUN",
          "feats": {
            "Gender": "Masc",
            "Number": "Sing"
          },
          "prefixes": [
            "ADP"
          ],
          "suffix": false
        }
      },
      {
        "token": "מתכת",
        "syntax": {
          "word": "מתכת",
          "dep_head_idx": 7,
          "dep_func": "compound",
          "dep_head": "בפיסול"
        },
        "seg": [
          "מתכת"
        ],
        "lex": "מתכת",
        "morph": {
          "token": "מתכת",
          "pos": "NOUN",
          "feats": {
            "Gender": "Fem",
            "Number": "Sing"
          },
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "ובתולדות",
        "syntax": {
          "word": "ובתולדות",
          "dep_head_idx": 7,
          "dep_func": "conj",
          "dep_head": "בפיסול"
        },
        "seg": [
          "וב",
          "תולדות"
        ],
        "lex": "תולדה",
        "morph": {
          "token": "ובתולדות",
          "pos": "NOUN",
          "feats": {
            "Gender": "Fem",
            "Number": "Plur"
          },
          "prefixes": [
            "CCONJ",
            "ADP"
          ],
          "suffix": false
        }
      },
      {
        "token": "האמנות",
        "syntax": {
          "word": "האמנות",
          "dep_head_idx": 9,
          "dep_func": "compound",
          "dep_head": "ובתולדות"
        },
        "seg": [
          "ה",
          "אמנות"
        ],
        "lex": "אומנות",
        "morph": {
          "token": "האמנות",
          "pos": "NOUN",
          "feats": {
            "Gender": "Fem",
            "Number": "Sing"
          },
          "prefixes": [
            "DET"
          ],
          "suffix": false
        }
      },
      {
        "token": "והחל",
        "syntax": {
          "word": "והחל",
          "dep_head_idx": 2,
          "dep_func": "conj",
          "dep_head": "השלים"
        },
        "seg": [
          "ו",
          "החל"
        ],
        "lex": "החל",
        "morph": {
          "token": "והחל",
          "pos": "VERB",
          "feats": {
            "Gender": "Masc",
            "Number": "Sing",
            "Person": "3",
            "Tense": "Past"
          },
          "prefixes": [
            "CCONJ"
          ],
          "suffix": false
        }
      },
      {
        "token": "לפרסם",
        "syntax": {
          "word": "לפרסם",
          "dep_head_idx": 11,
          "dep_func": "xcomp",
          "dep_head": "והחל"
        },
        "seg": [
          "לפרסם"
        ],
        "lex": "פרסם",
        "morph": {
          "token": "לפרסם",
          "pos": "VERB",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "מאמרים",
        "syntax": {
          "word": "מאמרים",
          "dep_head_idx": 12,
          "dep_func": "obj",
          "dep_head": "לפרסם"
        },
        "seg": [
          "מאמרים"
        ],
        "lex": "מאמר",
        "morph": {
          "token": "מאמרים",
          "pos": "NOUN",
          "feats": {
            "Gender": "Masc",
            "Number": "Plur"
          },
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "הומוריסטיים",
        "syntax": {
          "word": "הומוריסטיים",
          "dep_head_idx": 13,
          "dep_func": "amod",
          "dep_head": "מאמרים"
        },
        "seg": [
          "הומוריסטיים"
        ],
        "lex": "הומוריסטי",
        "morph": {
          "token": "הומוריסטיים",
          "pos": "ADJ",
          "feats": {
            "Gender": "Masc",
            "Number": "Plur"
          },
          "prefixes": [],
          "suffix": false
        }
      }
    ],
    "root_idx": 2,
    "ner_entities": [
      {
        "phrase": "1948",
        "label": "TIMEX"
      },
      {
        "phrase": "אפרים קישון",
        "label": "PER"
      }
    ]
  }
]

高级用法

如果你只需要某个任务的输出，可以告诉模型不初始化某些头部，例如：

model = AutoModel.from_pretrained('dicta-il/dictabert-joint', trust_remote_code=True, do_lex=False)

可选参数列表：do_lex, do_syntax, do_ner, do_prefix, do_morph。

此外，还可以选择以UD格式获取响应：

sentence = 'בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים'
print(model.predict([sentence], tokenizer, output_style='ud'))

输出结果：

[
  [
    "# sent_id = 1",
    "# text = בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים",
    "1-2\tבשנת\t_\t_\t_\t_\t_\t_\t_\t_",
    "1\tב\tב\tADP\tADP\t_\t2\tcase\t_\t_",
    "2\tשנת\tשנה\tNOUN\tNOUN\tGender=Fem|Number=Sing\t4\tobl\t_\t_",
    "3\t1948\t1948\tNUM\tNUM\t\t2\tcompound:smixut\t_\t_",
    "4\tהשלים\tהשלים\tVERB\tVERB\tGender=Masc|Number=Sing|Person=3|Tense=Past\t0\troot\t_\t_",
    "5\tאפרים\tאפרים\tPROPN\tPROPN\t\t4\tnsubj\t_\t_",
    "6\tקישון\tקישון\tPROPN\tPROPN\t\t5\tflat\t_\t_",
    "7\tאת\tאת\tADP\tADP\t\t8\tcase:acc\t_\t_",
    "8-10\tלימודיו\t_\t_\t_\t_\t_\t_\t_\t_",
    "8\tלימוד_\tלימוד\tNOUN\tNOUN\tGender=Masc|Number=Plur\t4\tobj\t_\t_",
    "9\t_של_\tשל\tADP\tADP\t_\t10\tcase\t_\t_",
    "10\t_הוא\tהוא\tPRON\tPRON\tGender=Masc|Number=Sing|Person=3\t8\tnmod:poss\t_\t_",
    "11-12\tבפיסול\t_\t_\t_\t_\t_\t_\t_\t_",
    "11\tב\tב\tADP\tADP\t_\t12\tcase\t_\t_",
    "12\tפיסול\tפיסול\tNOUN\tNOUN\tGender=Masc|Number=Sing\t8\tnmod\t_\t_",
    "13\tמתכת\tמתכת\tNOUN\tNOUN\tGender=Fem|Number=Sing\t12\tcompound:smixut\t_\t_",
    "14-16\tובתולדות\t_\t_\t_\t_\t_\t_\t_\t_",
    "14\tו\tו\tCCONJ\tCCONJ\t_\t16\tcc\t_\t_",
    "15\tב\tב\tADP\tADP\t_\t16\tcase\t_\t_",
    "16\tתולדות\tתולדה\tNOUN\tNOUN\tGender=Fem|Number=Plur\t12\tconj\t_\t_",
    "17-18\tהאמנות\t_\t_\t_\t_\t_\t_\t_\t_",
    "17\tה\tה\tDET\tDET\t_\t18\tdet\t_\t_",
    "18\tאמנות\tאומנות\tNOUN\tNOUN\tGender=Fem|Number=Sing\t16\tcompound:smixut\t_\t_",
    "19-20\tוהחל\t_\t_\t_\t_\t_\t_\t_\t_",
    "19\tו\tו\tCCONJ\tCCONJ\t_\t20\tcc\t_\t_",
    "20\tהחל\tהחל\tVERB\tVERB\tGender=Masc|Number=Sing|Person=3|Tense=Past\t4\tconj\t_\t_",
    "21\tלפרסם\tפרסם\tVERB\tVERB\t\t20\txcomp\t_\t_",
    "22\tמאמרים\tמאמר\tNOUN\tNOUN\tGender=Masc|Number=Plur\t21\tobj\t_\t_",
    "23\tהומוריסטיים\tהומוריסטי\tADJ\tADJ\tGender=Masc|Number=Plur\t22\tamod\t_\t_"
  ]
]

📚 详细文档

模型目前支持3种输出格式：

JSON：模型为输入中的每个句子返回一个JSON对象，包含句子文本、命名实体识别实体和标记列表。对于每个标记，还会包含每个任务的输出。
```
model.predict(..., output_style='json')
```
UD：模型根据希伯来语UD树库的风格，为每个句子返回完整的UD输出。
```
model.predict(..., output_style='ud')
```
IAHLT风格的UD：该模型返回完整的UD输出，并进行了一些细微修改以匹配IAHLT的风格。这些差异主要体现在某些依存关系的粒度、单词后缀的拆分方式以及隐含的定冠词上。实际的标记行为不变。
```
model.predict(..., output_style='iahlt_ud')
```

🔧 技术细节

文档未提及技术实现细节，故跳过该章节。

📄 许可证

Shield:

本作品采用知识共享署名4.0国际许可协议进行许可。

📖 引用

如果你在研究中使用了DictaBERT-joint，请引用MRL Parsing without Tears: The Case of Hebrew。

@misc{shmidman2024mrl,
      title={MRL Parsing Without Tears: The Case of Hebrew}, 
      author={Shaltiel Shmidman and Avi Shmidman and Moshe Koppel and Reut Tsarfaty},
      year={2024},
      eprint={2403.06970},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}