Dictabert Joint
D
Dictabert Joint
由dicta-il開發
針對現代希伯來語的最先進多任務聯合解析BERT模型,支持前綴分割、形態消歧、詞典分析、句法解析和命名實體識別五大任務
下載量 3,678
發布時間 : 1/10/2024
模型概述
該模型是為現代希伯來語設計的聯合解析模型,可同時處理多種自然語言處理任務,包括詞法、句法和語義分析。
模型特點
多任務聯合解析
單一模型同時處理希伯來語的詞法、句法和語義分析任務
語法樹可視化支持
輸出結果可直接用於生成語法樹可視化
靈活的任務組合
可選擇性地啟用/禁用特定任務頭,按需使用模型功能
多種輸出格式
支持JSON、UD格式和IAHLT風格UD格式三種輸出方式
模型能力
希伯來語前綴分割
希伯來語形態消歧
希伯來語詞典分析(詞形還原)
希伯來語句法解析(依存樹)
希伯來語命名實體識別
使用案例
學術研究
希伯來語語言學分析
用於研究希伯來語的詞法、句法特徵
提供完整的語言學分析結果
教育應用
希伯來語學習輔助
幫助學習者理解希伯來語句法結構和詞形變化
可視化語法分析結果
🚀 DictaBERT:現代希伯來語的先進BERT套件
DictaBERT是一款用於希伯來語的先進語言模型,它能夠同時處理前綴分割、形態消歧、詞法分析(詞形還原)、句法分析(依存樹)和命名實體識別等多項任務。該模型的詳細信息可查看此處。此外,你還可以通過這個鏈接體驗模型的即時演示,直觀查看句法樹的可視化結果。
🚀 快速開始
DictaBERT是一款針對希伯來語的先進語言模型,可用於處理多種自然語言處理任務。它可以輸出JSON、UD等格式的結果,適用於不同的應用場景。
✨ 主要特性
- 多任務處理:能夠同時處理前綴分割、形態消歧、詞法分析(詞形還原)、句法分析(依存樹)和命名實體識別等多項任務。
- 多種輸出格式:支持JSON、UD(符合希伯來語UD樹庫風格)以及IAHLT風格的UD輸出。
- 靈活配置:可以根據需求選擇不初始化某些任務的頭部,以提高處理效率。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
以下是一個使用DictaBERT進行預測的基礎示例,展示瞭如何以JSON格式輸出結果:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictabert-joint')
model = AutoModel.from_pretrained('dicta-il/dictabert-joint', trust_remote_code=True)
model.eval()
sentence = 'בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים'
print(model.predict([sentence], tokenizer, output_style='json')) # 其他返回格式見下文
輸出結果:
[
{
"text": "בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים",
"tokens": [
{
"token": "בשנת",
"syntax": {
"word": "בשנת",
"dep_head_idx": 2,
"dep_func": "obl",
"dep_head": "השלים"
},
"seg": [
"ב",
"שנת"
],
"lex": "שנה",
"morph": {
"token": "בשנת",
"pos": "NOUN",
"feats": {
"Gender": "Fem",
"Number": "Sing"
},
"prefixes": [
"ADP"
],
"suffix": false
}
},
{
"token": "1948",
"syntax": {
"word": "1948",
"dep_head_idx": 0,
"dep_func": "compound",
"dep_head": "בשנת"
},
"seg": [
"1948"
],
"lex": "1948",
"morph": {
"token": "1948",
"pos": "NUM",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "השלים",
"syntax": {
"word": "השלים",
"dep_head_idx": -1,
"dep_func": "root",
"dep_head": "הומוריסטיים"
},
"seg": [
"השלים"
],
"lex": "השלים",
"morph": {
"token": "השלים",
"pos": "VERB",
"feats": {
"Gender": "Masc",
"Number": "Sing",
"Person": "3",
"Tense": "Past"
},
"prefixes": [],
"suffix": false
}
},
{
"token": "אפרים",
"syntax": {
"word": "אפרים",
"dep_head_idx": 2,
"dep_func": "nsubj",
"dep_head": "השלים"
},
"seg": [
"אפרים"
],
"lex": "אפרים",
"morph": {
"token": "אפרים",
"pos": "PROPN",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "קישון",
"syntax": {
"word": "קישון",
"dep_head_idx": 3,
"dep_func": "flat",
"dep_head": "אפרים"
},
"seg": [
"קישון"
],
"lex": "קישון",
"morph": {
"token": "קישון",
"pos": "PROPN",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "את",
"syntax": {
"word": "את",
"dep_head_idx": 6,
"dep_func": "case",
"dep_head": "לימודיו"
},
"seg": [
"את"
],
"lex": "את",
"morph": {
"token": "את",
"pos": "ADP",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "לימודיו",
"syntax": {
"word": "לימודיו",
"dep_head_idx": 2,
"dep_func": "obj",
"dep_head": "השלים"
},
"seg": [
"לימודיו"
],
"lex": "לימוד",
"morph": {
"token": "לימודיו",
"pos": "NOUN",
"feats": {
"Gender": "Masc",
"Number": "Plur"
},
"prefixes": [],
"suffix": "PRON",
"suffix_feats": {
"Gender": "Masc",
"Number": "Sing",
"Person": "3"
}
}
},
{
"token": "בפיסול",
"syntax": {
"word": "בפיסול",
"dep_head_idx": 6,
"dep_func": "nmod",
"dep_head": "לימודיו"
},
"seg": [
"ב",
"פיסול"
],
"lex": "פיסול",
"morph": {
"token": "בפיסול",
"pos": "NOUN",
"feats": {
"Gender": "Masc",
"Number": "Sing"
},
"prefixes": [
"ADP"
],
"suffix": false
}
},
{
"token": "מתכת",
"syntax": {
"word": "מתכת",
"dep_head_idx": 7,
"dep_func": "compound",
"dep_head": "בפיסול"
},
"seg": [
"מתכת"
],
"lex": "מתכת",
"morph": {
"token": "מתכת",
"pos": "NOUN",
"feats": {
"Gender": "Fem",
"Number": "Sing"
},
"prefixes": [],
"suffix": false
}
},
{
"token": "ובתולדות",
"syntax": {
"word": "ובתולדות",
"dep_head_idx": 7,
"dep_func": "conj",
"dep_head": "בפיסול"
},
"seg": [
"וב",
"תולדות"
],
"lex": "תולדה",
"morph": {
"token": "ובתולדות",
"pos": "NOUN",
"feats": {
"Gender": "Fem",
"Number": "Plur"
},
"prefixes": [
"CCONJ",
"ADP"
],
"suffix": false
}
},
{
"token": "האמנות",
"syntax": {
"word": "האמנות",
"dep_head_idx": 9,
"dep_func": "compound",
"dep_head": "ובתולדות"
},
"seg": [
"ה",
"אמנות"
],
"lex": "אומנות",
"morph": {
"token": "האמנות",
"pos": "NOUN",
"feats": {
"Gender": "Fem",
"Number": "Sing"
},
"prefixes": [
"DET"
],
"suffix": false
}
},
{
"token": "והחל",
"syntax": {
"word": "והחל",
"dep_head_idx": 2,
"dep_func": "conj",
"dep_head": "השלים"
},
"seg": [
"ו",
"החל"
],
"lex": "החל",
"morph": {
"token": "והחל",
"pos": "VERB",
"feats": {
"Gender": "Masc",
"Number": "Sing",
"Person": "3",
"Tense": "Past"
},
"prefixes": [
"CCONJ"
],
"suffix": false
}
},
{
"token": "לפרסם",
"syntax": {
"word": "לפרסם",
"dep_head_idx": 11,
"dep_func": "xcomp",
"dep_head": "והחל"
},
"seg": [
"לפרסם"
],
"lex": "פרסם",
"morph": {
"token": "לפרסם",
"pos": "VERB",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "מאמרים",
"syntax": {
"word": "מאמרים",
"dep_head_idx": 12,
"dep_func": "obj",
"dep_head": "לפרסם"
},
"seg": [
"מאמרים"
],
"lex": "מאמר",
"morph": {
"token": "מאמרים",
"pos": "NOUN",
"feats": {
"Gender": "Masc",
"Number": "Plur"
},
"prefixes": [],
"suffix": false
}
},
{
"token": "הומוריסטיים",
"syntax": {
"word": "הומוריסטיים",
"dep_head_idx": 13,
"dep_func": "amod",
"dep_head": "מאמרים"
},
"seg": [
"הומוריסטיים"
],
"lex": "הומוריסטי",
"morph": {
"token": "הומוריסטיים",
"pos": "ADJ",
"feats": {
"Gender": "Masc",
"Number": "Plur"
},
"prefixes": [],
"suffix": false
}
}
],
"root_idx": 2,
"ner_entities": [
{
"phrase": "1948",
"label": "TIMEX"
},
{
"phrase": "אפרים קישון",
"label": "PER"
}
]
}
]
高級用法
如果你只需要某個任務的輸出,可以告訴模型不初始化某些頭部,例如:
model = AutoModel.from_pretrained('dicta-il/dictabert-joint', trust_remote_code=True, do_lex=False)
可選參數列表:do_lex
, do_syntax
, do_ner
, do_prefix
, do_morph
。
此外,還可以選擇以UD格式獲取響應:
sentence = 'בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים'
print(model.predict([sentence], tokenizer, output_style='ud'))
輸出結果:
[
[
"# sent_id = 1",
"# text = בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים",
"1-2\tבשנת\t_\t_\t_\t_\t_\t_\t_\t_",
"1\tב\tב\tADP\tADP\t_\t2\tcase\t_\t_",
"2\tשנת\tשנה\tNOUN\tNOUN\tGender=Fem|Number=Sing\t4\tobl\t_\t_",
"3\t1948\t1948\tNUM\tNUM\t\t2\tcompound:smixut\t_\t_",
"4\tהשלים\tהשלים\tVERB\tVERB\tGender=Masc|Number=Sing|Person=3|Tense=Past\t0\troot\t_\t_",
"5\tאפרים\tאפרים\tPROPN\tPROPN\t\t4\tnsubj\t_\t_",
"6\tקישון\tקישון\tPROPN\tPROPN\t\t5\tflat\t_\t_",
"7\tאת\tאת\tADP\tADP\t\t8\tcase:acc\t_\t_",
"8-10\tלימודיו\t_\t_\t_\t_\t_\t_\t_\t_",
"8\tלימוד_\tלימוד\tNOUN\tNOUN\tGender=Masc|Number=Plur\t4\tobj\t_\t_",
"9\t_של_\tשל\tADP\tADP\t_\t10\tcase\t_\t_",
"10\t_הוא\tהוא\tPRON\tPRON\tGender=Masc|Number=Sing|Person=3\t8\tnmod:poss\t_\t_",
"11-12\tבפיסול\t_\t_\t_\t_\t_\t_\t_\t_",
"11\tב\tב\tADP\tADP\t_\t12\tcase\t_\t_",
"12\tפיסול\tפיסול\tNOUN\tNOUN\tGender=Masc|Number=Sing\t8\tnmod\t_\t_",
"13\tמתכת\tמתכת\tNOUN\tNOUN\tGender=Fem|Number=Sing\t12\tcompound:smixut\t_\t_",
"14-16\tובתולדות\t_\t_\t_\t_\t_\t_\t_\t_",
"14\tו\tו\tCCONJ\tCCONJ\t_\t16\tcc\t_\t_",
"15\tב\tב\tADP\tADP\t_\t16\tcase\t_\t_",
"16\tתולדות\tתולדה\tNOUN\tNOUN\tGender=Fem|Number=Plur\t12\tconj\t_\t_",
"17-18\tהאמנות\t_\t_\t_\t_\t_\t_\t_\t_",
"17\tה\tה\tDET\tDET\t_\t18\tdet\t_\t_",
"18\tאמנות\tאומנות\tNOUN\tNOUN\tGender=Fem|Number=Sing\t16\tcompound:smixut\t_\t_",
"19-20\tוהחל\t_\t_\t_\t_\t_\t_\t_\t_",
"19\tו\tו\tCCONJ\tCCONJ\t_\t20\tcc\t_\t_",
"20\tהחל\tהחל\tVERB\tVERB\tGender=Masc|Number=Sing|Person=3|Tense=Past\t4\tconj\t_\t_",
"21\tלפרסם\tפרסם\tVERB\tVERB\t\t20\txcomp\t_\t_",
"22\tמאמרים\tמאמר\tNOUN\tNOUN\tGender=Masc|Number=Plur\t21\tobj\t_\t_",
"23\tהומוריסטיים\tהומוריסטי\tADJ\tADJ\tGender=Masc|Number=Plur\t22\tamod\t_\t_"
]
]
📚 詳細文檔
模型目前支持3種輸出格式:
- JSON:模型為輸入中的每個句子返回一個JSON對象,包含句子文本、命名實體識別實體和標記列表。對於每個標記,還會包含每個任務的輸出。
model.predict(..., output_style='json')
- UD:模型根據希伯來語UD樹庫的風格,為每個句子返回完整的UD輸出。
model.predict(..., output_style='ud')
- IAHLT風格的UD:該模型返回完整的UD輸出,並進行了一些細微修改以匹配IAHLT的風格。這些差異主要體現在某些依存關係的粒度、單詞後綴的拆分方式以及隱含的定冠詞上。實際的標記行為不變。
model.predict(..., output_style='iahlt_ud')
🔧 技術細節
文檔未提及技術實現細節,故跳過該章節。
📄 許可證
本作品採用知識共享署名4.0國際許可協議進行許可。
📖 引用
如果你在研究中使用了DictaBERT-joint,請引用MRL Parsing without Tears: The Case of Hebrew
。
@misc{shmidman2024mrl,
title={MRL Parsing Without Tears: The Case of Hebrew},
author={Shaltiel Shmidman and Avi Shmidman and Moshe Koppel and Reut Tsarfaty},
year={2024},
eprint={2403.06970},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Indonesian Roberta Base Posp Tagger
MIT
這是一個基於印尼語RoBERTa模型微調的詞性標註模型,在indonlu數據集上訓練,用於印尼語文本的詞性標註任務。
序列標註
Transformers 其他

I
w11wo
2.2M
7
Bert Base NER
MIT
基於BERT微調的命名實體識別模型,可識別四類實體:地點(LOC)、組織機構(ORG)、人名(PER)和雜項(MISC)
序列標註 英語
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
該模型是基於RoBERTa微調的序列標註模型,用於識別和移除醫療記錄中的受保護健康信息(PHI/PII)。
序列標註
Transformers 支持多種語言

D
obi
1.1M
33
Ner English Fast
Flair自帶的英文快速4類命名實體識別模型,基於Flair嵌入和LSTM-CRF架構,在CoNLL-03數據集上達到92.92的F1分數。
序列標註
PyTorch 英語
N
flair
978.01k
24
French Camembert Postag Model
基於Camembert-base的法語詞性標註模型,使用free-french-treebank數據集訓練
序列標註
Transformers 法語

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基於XLM-Roberta-large架構微調的西班牙語命名實體識別模型,在CoNLL-2002數據集上表現優異。
序列標註
Transformers 西班牙語

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基於NusaBert-v1.3在印尼語NER任務上微調的命名實體識別模型
序列標註
Transformers 其他

N
cahya
759.09k
3
Ner English Large
Flair框架內置的英文4類大型NER模型,基於文檔級XLM-R嵌入和FLERT技術,在CoNLL-03數據集上F1分數達94.36。
序列標註
PyTorch 英語
N
flair
749.04k
44
Punctuate All
MIT
基於xlm-roberta-base微調的多語言標點符號預測模型,支持12種歐洲語言的標點符號自動補全
序列標註
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基於xlm-roberta-base微調的日語命名實體識別模型
序列標註
Transformers 支持多種語言

X
tsmatz
630.71k
25
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98