Dictabert - Joint開源模型 - 支持希伯來語前綴分割等五項實用語言分析任務

首頁

Dictabert Joint

由dicta-il開發

針對現代希伯來語的最先進多任務聯合解析BERT模型，支持前綴分割、形態消歧、詞典分析、句法解析和命名實體識別五大任務

序列標註

Transformers

其他#希伯來語聯合解析 #多任務NLP #形態句法分析

下載量 3,678

發布時間 : 1/10/2024

模型概述

該模型是為現代希伯來語設計的聯合解析模型，可同時處理多種自然語言處理任務，包括詞法、句法和語義分析。

模型特點

多任務聯合解析

單一模型同時處理希伯來語的詞法、句法和語義分析任務

語法樹可視化支持

輸出結果可直接用於生成語法樹可視化

靈活的任務組合

可選擇性地啟用/禁用特定任務頭，按需使用模型功能

多種輸出格式

支持JSON、UD格式和IAHLT風格UD格式三種輸出方式

模型能力

希伯來語前綴分割

希伯來語形態消歧

希伯來語詞典分析(詞形還原)

希伯來語句法解析(依存樹)

希伯來語命名實體識別

使用案例

學術研究

希伯來語語言學分析

用於研究希伯來語的詞法、句法特徵

提供完整的語言學分析結果

教育應用

希伯來語學習輔助

幫助學習者理解希伯來語句法結構和詞形變化

可視化語法分析結果

🚀 DictaBERT：現代希伯來語的先進BERT套件

DictaBERT是一款用於希伯來語的先進語言模型，它能夠同時處理前綴分割、形態消歧、詞法分析（詞形還原）、句法分析（依存樹）和命名實體識別等多項任務。該模型的詳細信息可查看此處。此外，你還可以通過這個鏈接體驗模型的即時演示，直觀查看句法樹的可視化結果。

🚀 快速開始

DictaBERT是一款針對希伯來語的先進語言模型，可用於處理多種自然語言處理任務。它可以輸出JSON、UD等格式的結果，適用於不同的應用場景。

✨ 主要特性

多任務處理：能夠同時處理前綴分割、形態消歧、詞法分析（詞形還原）、句法分析（依存樹）和命名實體識別等多項任務。
多種輸出格式：支持JSON、UD（符合希伯來語UD樹庫風格）以及IAHLT風格的UD輸出。
靈活配置：可以根據需求選擇不初始化某些任務的頭部，以提高處理效率。

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

以下是一個使用DictaBERT進行預測的基礎示例，展示瞭如何以JSON格式輸出結果：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictabert-joint')
model = AutoModel.from_pretrained('dicta-il/dictabert-joint', trust_remote_code=True)

model.eval()

sentence = 'בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים'
print(model.predict([sentence], tokenizer, output_style='json')) # 其他返回格式見下文

輸出結果：

[
  {
    "text": "בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים",
    "tokens": [
      {
        "token": "בשנת",
        "syntax": {
          "word": "בשנת",
          "dep_head_idx": 2,
          "dep_func": "obl",
          "dep_head": "השלים"
        },
        "seg": [
          "ב",
          "שנת"
        ],
        "lex": "שנה",
        "morph": {
          "token": "בשנת",
          "pos": "NOUN",
          "feats": {
            "Gender": "Fem",
            "Number": "Sing"
          },
          "prefixes": [
            "ADP"
          ],
          "suffix": false
        }
      },
      {
        "token": "1948",
        "syntax": {
          "word": "1948",
          "dep_head_idx": 0,
          "dep_func": "compound",
          "dep_head": "בשנת"
        },
        "seg": [
          "1948"
        ],
        "lex": "1948",
        "morph": {
          "token": "1948",
          "pos": "NUM",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "השלים",
        "syntax": {
          "word": "השלים",
          "dep_head_idx": -1,
          "dep_func": "root",
          "dep_head": "הומוריסטיים"
        },
        "seg": [
          "השלים"
        ],
        "lex": "השלים",
        "morph": {
          "token": "השלים",
          "pos": "VERB",
          "feats": {
            "Gender": "Masc",
            "Number": "Sing",
            "Person": "3",
            "Tense": "Past"
          },
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "אפרים",
        "syntax": {
          "word": "אפרים",
          "dep_head_idx": 2,
          "dep_func": "nsubj",
          "dep_head": "השלים"
        },
        "seg": [
          "אפרים"
        ],
        "lex": "אפרים",
        "morph": {
          "token": "אפרים",
          "pos": "PROPN",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "קישון",
        "syntax": {
          "word": "קישון",
          "dep_head_idx": 3,
          "dep_func": "flat",
          "dep_head": "אפרים"
        },
        "seg": [
          "קישון"
        ],
        "lex": "קישון",
        "morph": {
          "token": "קישון",
          "pos": "PROPN",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "את",
        "syntax": {
          "word": "את",
          "dep_head_idx": 6,
          "dep_func": "case",
          "dep_head": "לימודיו"
        },
        "seg": [
          "את"
        ],
        "lex": "את",
        "morph": {
          "token": "את",
          "pos": "ADP",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "לימודיו",
        "syntax": {
          "word": "לימודיו",
          "dep_head_idx": 2,
          "dep_func": "obj",
          "dep_head": "השלים"
        },
        "seg": [
          "לימודיו"
        ],
        "lex": "לימוד",
        "morph": {
          "token": "לימודיו",
          "pos": "NOUN",
          "feats": {
            "Gender": "Masc",
            "Number": "Plur"
          },
          "prefixes": [],
          "suffix": "PRON",
          "suffix_feats": {
            "Gender": "Masc",
            "Number": "Sing",
            "Person": "3"
          }
        }
      },
      {
        "token": "בפיסול",
        "syntax": {
          "word": "בפיסול",
          "dep_head_idx": 6,
          "dep_func": "nmod",
          "dep_head": "לימודיו"
        },
        "seg": [
          "ב",
          "פיסול"
        ],
        "lex": "פיסול",
        "morph": {
          "token": "בפיסול",
          "pos": "NOUN",
          "feats": {
            "Gender": "Masc",
            "Number": "Sing"
          },
          "prefixes": [
            "ADP"
          ],
          "suffix": false
        }
      },
      {
        "token": "מתכת",
        "syntax": {
          "word": "מתכת",
          "dep_head_idx": 7,
          "dep_func": "compound",
          "dep_head": "בפיסול"
        },
        "seg": [
          "מתכת"
        ],
        "lex": "מתכת",
        "morph": {
          "token": "מתכת",
          "pos": "NOUN",
          "feats": {
            "Gender": "Fem",
            "Number": "Sing"
          },
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "ובתולדות",
        "syntax": {
          "word": "ובתולדות",
          "dep_head_idx": 7,
          "dep_func": "conj",
          "dep_head": "בפיסול"
        },
        "seg": [
          "וב",
          "תולדות"
        ],
        "lex": "תולדה",
        "morph": {
          "token": "ובתולדות",
          "pos": "NOUN",
          "feats": {
            "Gender": "Fem",
            "Number": "Plur"
          },
          "prefixes": [
            "CCONJ",
            "ADP"
          ],
          "suffix": false
        }
      },
      {
        "token": "האמנות",
        "syntax": {
          "word": "האמנות",
          "dep_head_idx": 9,
          "dep_func": "compound",
          "dep_head": "ובתולדות"
        },
        "seg": [
          "ה",
          "אמנות"
        ],
        "lex": "אומנות",
        "morph": {
          "token": "האמנות",
          "pos": "NOUN",
          "feats": {
            "Gender": "Fem",
            "Number": "Sing"
          },
          "prefixes": [
            "DET"
          ],
          "suffix": false
        }
      },
      {
        "token": "והחל",
        "syntax": {
          "word": "והחל",
          "dep_head_idx": 2,
          "dep_func": "conj",
          "dep_head": "השלים"
        },
        "seg": [
          "ו",
          "החל"
        ],
        "lex": "החל",
        "morph": {
          "token": "והחל",
          "pos": "VERB",
          "feats": {
            "Gender": "Masc",
            "Number": "Sing",
            "Person": "3",
            "Tense": "Past"
          },
          "prefixes": [
            "CCONJ"
          ],
          "suffix": false
        }
      },
      {
        "token": "לפרסם",
        "syntax": {
          "word": "לפרסם",
          "dep_head_idx": 11,
          "dep_func": "xcomp",
          "dep_head": "והחל"
        },
        "seg": [
          "לפרסם"
        ],
        "lex": "פרסם",
        "morph": {
          "token": "לפרסם",
          "pos": "VERB",
          "feats": {},
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "מאמרים",
        "syntax": {
          "word": "מאמרים",
          "dep_head_idx": 12,
          "dep_func": "obj",
          "dep_head": "לפרסם"
        },
        "seg": [
          "מאמרים"
        ],
        "lex": "מאמר",
        "morph": {
          "token": "מאמרים",
          "pos": "NOUN",
          "feats": {
            "Gender": "Masc",
            "Number": "Plur"
          },
          "prefixes": [],
          "suffix": false
        }
      },
      {
        "token": "הומוריסטיים",
        "syntax": {
          "word": "הומוריסטיים",
          "dep_head_idx": 13,
          "dep_func": "amod",
          "dep_head": "מאמרים"
        },
        "seg": [
          "הומוריסטיים"
        ],
        "lex": "הומוריסטי",
        "morph": {
          "token": "הומוריסטיים",
          "pos": "ADJ",
          "feats": {
            "Gender": "Masc",
            "Number": "Plur"
          },
          "prefixes": [],
          "suffix": false
        }
      }
    ],
    "root_idx": 2,
    "ner_entities": [
      {
        "phrase": "1948",
        "label": "TIMEX"
      },
      {
        "phrase": "אפרים קישון",
        "label": "PER"
      }
    ]
  }
]

高級用法

如果你只需要某個任務的輸出，可以告訴模型不初始化某些頭部，例如：

model = AutoModel.from_pretrained('dicta-il/dictabert-joint', trust_remote_code=True, do_lex=False)

可選參數列表：do_lex, do_syntax, do_ner, do_prefix, do_morph。

此外，還可以選擇以UD格式獲取響應：

sentence = 'בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים'
print(model.predict([sentence], tokenizer, output_style='ud'))

輸出結果：

[
  [
    "# sent_id = 1",
    "# text = בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים",
    "1-2\tבשנת\t_\t_\t_\t_\t_\t_\t_\t_",
    "1\tב\tב\tADP\tADP\t_\t2\tcase\t_\t_",
    "2\tשנת\tשנה\tNOUN\tNOUN\tGender=Fem|Number=Sing\t4\tobl\t_\t_",
    "3\t1948\t1948\tNUM\tNUM\t\t2\tcompound:smixut\t_\t_",
    "4\tהשלים\tהשלים\tVERB\tVERB\tGender=Masc|Number=Sing|Person=3|Tense=Past\t0\troot\t_\t_",
    "5\tאפרים\tאפרים\tPROPN\tPROPN\t\t4\tnsubj\t_\t_",
    "6\tקישון\tקישון\tPROPN\tPROPN\t\t5\tflat\t_\t_",
    "7\tאת\tאת\tADP\tADP\t\t8\tcase:acc\t_\t_",
    "8-10\tלימודיו\t_\t_\t_\t_\t_\t_\t_\t_",
    "8\tלימוד_\tלימוד\tNOUN\tNOUN\tGender=Masc|Number=Plur\t4\tobj\t_\t_",
    "9\t_של_\tשל\tADP\tADP\t_\t10\tcase\t_\t_",
    "10\t_הוא\tהוא\tPRON\tPRON\tGender=Masc|Number=Sing|Person=3\t8\tnmod:poss\t_\t_",
    "11-12\tבפיסול\t_\t_\t_\t_\t_\t_\t_\t_",
    "11\tב\tב\tADP\tADP\t_\t12\tcase\t_\t_",
    "12\tפיסול\tפיסול\tNOUN\tNOUN\tGender=Masc|Number=Sing\t8\tnmod\t_\t_",
    "13\tמתכת\tמתכת\tNOUN\tNOUN\tGender=Fem|Number=Sing\t12\tcompound:smixut\t_\t_",
    "14-16\tובתולדות\t_\t_\t_\t_\t_\t_\t_\t_",
    "14\tו\tו\tCCONJ\tCCONJ\t_\t16\tcc\t_\t_",
    "15\tב\tב\tADP\tADP\t_\t16\tcase\t_\t_",
    "16\tתולדות\tתולדה\tNOUN\tNOUN\tGender=Fem|Number=Plur\t12\tconj\t_\t_",
    "17-18\tהאמנות\t_\t_\t_\t_\t_\t_\t_\t_",
    "17\tה\tה\tDET\tDET\t_\t18\tdet\t_\t_",
    "18\tאמנות\tאומנות\tNOUN\tNOUN\tGender=Fem|Number=Sing\t16\tcompound:smixut\t_\t_",
    "19-20\tוהחל\t_\t_\t_\t_\t_\t_\t_\t_",
    "19\tו\tו\tCCONJ\tCCONJ\t_\t20\tcc\t_\t_",
    "20\tהחל\tהחל\tVERB\tVERB\tGender=Masc|Number=Sing|Person=3|Tense=Past\t4\tconj\t_\t_",
    "21\tלפרסם\tפרסם\tVERB\tVERB\t\t20\txcomp\t_\t_",
    "22\tמאמרים\tמאמר\tNOUN\tNOUN\tGender=Masc|Number=Plur\t21\tobj\t_\t_",
    "23\tהומוריסטיים\tהומוריסטי\tADJ\tADJ\tGender=Masc|Number=Plur\t22\tamod\t_\t_"
  ]
]

📚 詳細文檔

模型目前支持3種輸出格式：

JSON：模型為輸入中的每個句子返回一個JSON對象，包含句子文本、命名實體識別實體和標記列表。對於每個標記，還會包含每個任務的輸出。
```
model.predict(..., output_style='json')
```
UD：模型根據希伯來語UD樹庫的風格，為每個句子返回完整的UD輸出。
```
model.predict(..., output_style='ud')
```
IAHLT風格的UD：該模型返回完整的UD輸出，並進行了一些細微修改以匹配IAHLT的風格。這些差異主要體現在某些依存關係的粒度、單詞後綴的拆分方式以及隱含的定冠詞上。實際的標記行為不變。
```
model.predict(..., output_style='iahlt_ud')
```

🔧 技術細節

文檔未提及技術實現細節，故跳過該章節。

📄 許可證

Shield:

本作品採用知識共享署名4.0國際許可協議進行許可。

📖 引用

如果你在研究中使用了DictaBERT-joint，請引用MRL Parsing without Tears: The Case of Hebrew。

@misc{shmidman2024mrl,
      title={MRL Parsing Without Tears: The Case of Hebrew}, 
      author={Shaltiel Shmidman and Avi Shmidman and Moshe Koppel and Reut Tsarfaty},
      year={2024},
      eprint={2403.06970},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}