Dictabert Joint
D
Dictabert Joint
由 dicta-il 开发
针对现代希伯来语的最先进多任务联合解析BERT模型,支持前缀分割、形态消歧、词典分析、句法解析和命名实体识别五大任务
下载量 3,678
发布时间 : 1/10/2024
模型简介
该模型是为现代希伯来语设计的联合解析模型,可同时处理多种自然语言处理任务,包括词法、句法和语义分析。
模型特点
多任务联合解析
单一模型同时处理希伯来语的词法、句法和语义分析任务
语法树可视化支持
输出结果可直接用于生成语法树可视化
灵活的任务组合
可选择性地启用/禁用特定任务头,按需使用模型功能
多种输出格式
支持JSON、UD格式和IAHLT风格UD格式三种输出方式
模型能力
希伯来语前缀分割
希伯来语形态消歧
希伯来语词典分析(词形还原)
希伯来语句法解析(依存树)
希伯来语命名实体识别
使用案例
学术研究
希伯来语语言学分析
用于研究希伯来语的词法、句法特征
提供完整的语言学分析结果
教育应用
希伯来语学习辅助
帮助学习者理解希伯来语句法结构和词形变化
可视化语法分析结果
🚀 DictaBERT:现代希伯来语的先进BERT套件
DictaBERT是一款用于希伯来语的先进语言模型,它能够同时处理前缀分割、形态消歧、词法分析(词形还原)、句法分析(依存树)和命名实体识别等多项任务。该模型的详细信息可查看此处。此外,你还可以通过这个链接体验模型的实时演示,直观查看句法树的可视化结果。
🚀 快速开始
DictaBERT是一款针对希伯来语的先进语言模型,可用于处理多种自然语言处理任务。它可以输出JSON、UD等格式的结果,适用于不同的应用场景。
✨ 主要特性
- 多任务处理:能够同时处理前缀分割、形态消歧、词法分析(词形还原)、句法分析(依存树)和命名实体识别等多项任务。
- 多种输出格式:支持JSON、UD(符合希伯来语UD树库风格)以及IAHLT风格的UD输出。
- 灵活配置:可以根据需求选择不初始化某些任务的头部,以提高处理效率。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
以下是一个使用DictaBERT进行预测的基础示例,展示了如何以JSON格式输出结果:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictabert-joint')
model = AutoModel.from_pretrained('dicta-il/dictabert-joint', trust_remote_code=True)
model.eval()
sentence = 'בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים'
print(model.predict([sentence], tokenizer, output_style='json')) # 其他返回格式见下文
输出结果:
[
{
"text": "בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים",
"tokens": [
{
"token": "בשנת",
"syntax": {
"word": "בשנת",
"dep_head_idx": 2,
"dep_func": "obl",
"dep_head": "השלים"
},
"seg": [
"ב",
"שנת"
],
"lex": "שנה",
"morph": {
"token": "בשנת",
"pos": "NOUN",
"feats": {
"Gender": "Fem",
"Number": "Sing"
},
"prefixes": [
"ADP"
],
"suffix": false
}
},
{
"token": "1948",
"syntax": {
"word": "1948",
"dep_head_idx": 0,
"dep_func": "compound",
"dep_head": "בשנת"
},
"seg": [
"1948"
],
"lex": "1948",
"morph": {
"token": "1948",
"pos": "NUM",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "השלים",
"syntax": {
"word": "השלים",
"dep_head_idx": -1,
"dep_func": "root",
"dep_head": "הומוריסטיים"
},
"seg": [
"השלים"
],
"lex": "השלים",
"morph": {
"token": "השלים",
"pos": "VERB",
"feats": {
"Gender": "Masc",
"Number": "Sing",
"Person": "3",
"Tense": "Past"
},
"prefixes": [],
"suffix": false
}
},
{
"token": "אפרים",
"syntax": {
"word": "אפרים",
"dep_head_idx": 2,
"dep_func": "nsubj",
"dep_head": "השלים"
},
"seg": [
"אפרים"
],
"lex": "אפרים",
"morph": {
"token": "אפרים",
"pos": "PROPN",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "קישון",
"syntax": {
"word": "קישון",
"dep_head_idx": 3,
"dep_func": "flat",
"dep_head": "אפרים"
},
"seg": [
"קישון"
],
"lex": "קישון",
"morph": {
"token": "קישון",
"pos": "PROPN",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "את",
"syntax": {
"word": "את",
"dep_head_idx": 6,
"dep_func": "case",
"dep_head": "לימודיו"
},
"seg": [
"את"
],
"lex": "את",
"morph": {
"token": "את",
"pos": "ADP",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "לימודיו",
"syntax": {
"word": "לימודיו",
"dep_head_idx": 2,
"dep_func": "obj",
"dep_head": "השלים"
},
"seg": [
"לימודיו"
],
"lex": "לימוד",
"morph": {
"token": "לימודיו",
"pos": "NOUN",
"feats": {
"Gender": "Masc",
"Number": "Plur"
},
"prefixes": [],
"suffix": "PRON",
"suffix_feats": {
"Gender": "Masc",
"Number": "Sing",
"Person": "3"
}
}
},
{
"token": "בפיסול",
"syntax": {
"word": "בפיסול",
"dep_head_idx": 6,
"dep_func": "nmod",
"dep_head": "לימודיו"
},
"seg": [
"ב",
"פיסול"
],
"lex": "פיסול",
"morph": {
"token": "בפיסול",
"pos": "NOUN",
"feats": {
"Gender": "Masc",
"Number": "Sing"
},
"prefixes": [
"ADP"
],
"suffix": false
}
},
{
"token": "מתכת",
"syntax": {
"word": "מתכת",
"dep_head_idx": 7,
"dep_func": "compound",
"dep_head": "בפיסול"
},
"seg": [
"מתכת"
],
"lex": "מתכת",
"morph": {
"token": "מתכת",
"pos": "NOUN",
"feats": {
"Gender": "Fem",
"Number": "Sing"
},
"prefixes": [],
"suffix": false
}
},
{
"token": "ובתולדות",
"syntax": {
"word": "ובתולדות",
"dep_head_idx": 7,
"dep_func": "conj",
"dep_head": "בפיסול"
},
"seg": [
"וב",
"תולדות"
],
"lex": "תולדה",
"morph": {
"token": "ובתולדות",
"pos": "NOUN",
"feats": {
"Gender": "Fem",
"Number": "Plur"
},
"prefixes": [
"CCONJ",
"ADP"
],
"suffix": false
}
},
{
"token": "האמנות",
"syntax": {
"word": "האמנות",
"dep_head_idx": 9,
"dep_func": "compound",
"dep_head": "ובתולדות"
},
"seg": [
"ה",
"אמנות"
],
"lex": "אומנות",
"morph": {
"token": "האמנות",
"pos": "NOUN",
"feats": {
"Gender": "Fem",
"Number": "Sing"
},
"prefixes": [
"DET"
],
"suffix": false
}
},
{
"token": "והחל",
"syntax": {
"word": "והחל",
"dep_head_idx": 2,
"dep_func": "conj",
"dep_head": "השלים"
},
"seg": [
"ו",
"החל"
],
"lex": "החל",
"morph": {
"token": "והחל",
"pos": "VERB",
"feats": {
"Gender": "Masc",
"Number": "Sing",
"Person": "3",
"Tense": "Past"
},
"prefixes": [
"CCONJ"
],
"suffix": false
}
},
{
"token": "לפרסם",
"syntax": {
"word": "לפרסם",
"dep_head_idx": 11,
"dep_func": "xcomp",
"dep_head": "והחל"
},
"seg": [
"לפרסם"
],
"lex": "פרסם",
"morph": {
"token": "לפרסם",
"pos": "VERB",
"feats": {},
"prefixes": [],
"suffix": false
}
},
{
"token": "מאמרים",
"syntax": {
"word": "מאמרים",
"dep_head_idx": 12,
"dep_func": "obj",
"dep_head": "לפרסם"
},
"seg": [
"מאמרים"
],
"lex": "מאמר",
"morph": {
"token": "מאמרים",
"pos": "NOUN",
"feats": {
"Gender": "Masc",
"Number": "Plur"
},
"prefixes": [],
"suffix": false
}
},
{
"token": "הומוריסטיים",
"syntax": {
"word": "הומוריסטיים",
"dep_head_idx": 13,
"dep_func": "amod",
"dep_head": "מאמרים"
},
"seg": [
"הומוריסטיים"
],
"lex": "הומוריסטי",
"morph": {
"token": "הומוריסטיים",
"pos": "ADJ",
"feats": {
"Gender": "Masc",
"Number": "Plur"
},
"prefixes": [],
"suffix": false
}
}
],
"root_idx": 2,
"ner_entities": [
{
"phrase": "1948",
"label": "TIMEX"
},
{
"phrase": "אפרים קישון",
"label": "PER"
}
]
}
]
高级用法
如果你只需要某个任务的输出,可以告诉模型不初始化某些头部,例如:
model = AutoModel.from_pretrained('dicta-il/dictabert-joint', trust_remote_code=True, do_lex=False)
可选参数列表:do_lex
, do_syntax
, do_ner
, do_prefix
, do_morph
。
此外,还可以选择以UD格式获取响应:
sentence = 'בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים'
print(model.predict([sentence], tokenizer, output_style='ud'))
输出结果:
[
[
"# sent_id = 1",
"# text = בשנת 1948 השלים אפרים קישון את לימודיו בפיסול מתכת ובתולדות האמנות והחל לפרסם מאמרים הומוריסטיים",
"1-2\tבשנת\t_\t_\t_\t_\t_\t_\t_\t_",
"1\tב\tב\tADP\tADP\t_\t2\tcase\t_\t_",
"2\tשנת\tשנה\tNOUN\tNOUN\tGender=Fem|Number=Sing\t4\tobl\t_\t_",
"3\t1948\t1948\tNUM\tNUM\t\t2\tcompound:smixut\t_\t_",
"4\tהשלים\tהשלים\tVERB\tVERB\tGender=Masc|Number=Sing|Person=3|Tense=Past\t0\troot\t_\t_",
"5\tאפרים\tאפרים\tPROPN\tPROPN\t\t4\tnsubj\t_\t_",
"6\tקישון\tקישון\tPROPN\tPROPN\t\t5\tflat\t_\t_",
"7\tאת\tאת\tADP\tADP\t\t8\tcase:acc\t_\t_",
"8-10\tלימודיו\t_\t_\t_\t_\t_\t_\t_\t_",
"8\tלימוד_\tלימוד\tNOUN\tNOUN\tGender=Masc|Number=Plur\t4\tobj\t_\t_",
"9\t_של_\tשל\tADP\tADP\t_\t10\tcase\t_\t_",
"10\t_הוא\tהוא\tPRON\tPRON\tGender=Masc|Number=Sing|Person=3\t8\tnmod:poss\t_\t_",
"11-12\tבפיסול\t_\t_\t_\t_\t_\t_\t_\t_",
"11\tב\tב\tADP\tADP\t_\t12\tcase\t_\t_",
"12\tפיסול\tפיסול\tNOUN\tNOUN\tGender=Masc|Number=Sing\t8\tnmod\t_\t_",
"13\tמתכת\tמתכת\tNOUN\tNOUN\tGender=Fem|Number=Sing\t12\tcompound:smixut\t_\t_",
"14-16\tובתולדות\t_\t_\t_\t_\t_\t_\t_\t_",
"14\tו\tו\tCCONJ\tCCONJ\t_\t16\tcc\t_\t_",
"15\tב\tב\tADP\tADP\t_\t16\tcase\t_\t_",
"16\tתולדות\tתולדה\tNOUN\tNOUN\tGender=Fem|Number=Plur\t12\tconj\t_\t_",
"17-18\tהאמנות\t_\t_\t_\t_\t_\t_\t_\t_",
"17\tה\tה\tDET\tDET\t_\t18\tdet\t_\t_",
"18\tאמנות\tאומנות\tNOUN\tNOUN\tGender=Fem|Number=Sing\t16\tcompound:smixut\t_\t_",
"19-20\tוהחל\t_\t_\t_\t_\t_\t_\t_\t_",
"19\tו\tו\tCCONJ\tCCONJ\t_\t20\tcc\t_\t_",
"20\tהחל\tהחל\tVERB\tVERB\tGender=Masc|Number=Sing|Person=3|Tense=Past\t4\tconj\t_\t_",
"21\tלפרסם\tפרסם\tVERB\tVERB\t\t20\txcomp\t_\t_",
"22\tמאמרים\tמאמר\tNOUN\tNOUN\tGender=Masc|Number=Plur\t21\tobj\t_\t_",
"23\tהומוריסטיים\tהומוריסטי\tADJ\tADJ\tGender=Masc|Number=Plur\t22\tamod\t_\t_"
]
]
📚 详细文档
模型目前支持3种输出格式:
- JSON:模型为输入中的每个句子返回一个JSON对象,包含句子文本、命名实体识别实体和标记列表。对于每个标记,还会包含每个任务的输出。
model.predict(..., output_style='json')
- UD:模型根据希伯来语UD树库的风格,为每个句子返回完整的UD输出。
model.predict(..., output_style='ud')
- IAHLT风格的UD:该模型返回完整的UD输出,并进行了一些细微修改以匹配IAHLT的风格。这些差异主要体现在某些依存关系的粒度、单词后缀的拆分方式以及隐含的定冠词上。实际的标记行为不变。
model.predict(..., output_style='iahlt_ud')
🔧 技术细节
文档未提及技术实现细节,故跳过该章节。
📄 许可证
本作品采用知识共享署名4.0国际许可协议进行许可。
📖 引用
如果你在研究中使用了DictaBERT-joint,请引用MRL Parsing without Tears: The Case of Hebrew
。
@misc{shmidman2024mrl,
title={MRL Parsing Without Tears: The Case of Hebrew},
author={Shaltiel Shmidman and Avi Shmidman and Moshe Koppel and Reut Tsarfaty},
year={2024},
eprint={2403.06970},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers 其他

I
w11wo
2.2M
7
Bert Base NER
MIT
基于BERT微调的命名实体识别模型,可识别四类实体:地点(LOC)、组织机构(ORG)、人名(PER)和杂项(MISC)
序列标注 英语
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
该模型是基于RoBERTa微调的序列标注模型,用于识别和移除医疗记录中的受保护健康信息(PHI/PII)。
序列标注
Transformers 支持多种语言

D
obi
1.1M
33
Ner English Fast
Flair自带的英文快速4类命名实体识别模型,基于Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上达到92.92的F1分数。
序列标注
PyTorch 英语
N
flair
978.01k
24
French Camembert Postag Model
基于Camembert-base的法语词性标注模型,使用free-french-treebank数据集训练
序列标注
Transformers 法语

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基于XLM-Roberta-large架构微调的西班牙语命名实体识别模型,在CoNLL-2002数据集上表现优异。
序列标注
Transformers 西班牙语

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基于NusaBert-v1.3在印尼语NER任务上微调的命名实体识别模型
序列标注
Transformers 其他

N
cahya
759.09k
3
Ner English Large
Flair框架内置的英文4类大型NER模型,基于文档级XLM-R嵌入和FLERT技术,在CoNLL-03数据集上F1分数达94.36。
序列标注
PyTorch 英语
N
flair
749.04k
44
Punctuate All
MIT
基于xlm-roberta-base微调的多语言标点符号预测模型,支持12种欧洲语言的标点符号自动补全
序列标注
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基于xlm-roberta-base微调的日语命名实体识别模型
序列标注
Transformers 支持多种语言

X
tsmatz
630.71k
25
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98