🚀 DaCy large
DaCyは、最先端のパイプラインを備えたデンマーク語処理フレームワークであり、デンマーク語のパイプラインを分析する機能も備えています。DaCyの最大のパイプラインは、デンマーク語依存構造木バンクにおける品詞タグ付けと依存構造解析で最先端の性能を達成しており、固有表現認識、固有表現曖昧性解消、照応解析でも競争力のある性能を発揮しています。詳細を読むには、DaCyリポジトリを参照して、DaCyの使用方法や結果の再現方法に関する資料を確認してください。DaCyには、パッケージの使用方法に関するガイドや、デンマーク語の自然言語処理パイプラインのバイアスと堅牢性に関する行動テストも含まれています。
✨ 主な機能
- デンマーク語の品詞タグ付け、依存構造解析、固有表現認識、固有表現曖昧性解消、照応解析などの機能を提供します。
- 最先端のパイプラインを備えており、高い性能を発揮します。
- デンマーク語のパイプラインを分析する機能も備えています。
📦 モデル情報
属性 |
详情 |
モデル名 |
da_dacy_large_trf-0.2.0 |
ライブラリ名 |
spacy |
データセット |
universal_dependencies、dane、alexandrainst/dacoref |
評価指標 |
accuracy |
ライセンス |
apache-2.0 |
モデル性能
タスク名 |
評価指標 |
値 |
データセット |
NER |
NER Precision |
0.8858195212 |
DaNE (test) |
NER |
NER Recall |
0.8620071685 |
DaNE (test) |
NER |
NER F Score |
0.8737511353 |
DaNE (test) |
TAG |
TAG (XPOS) Accuracy |
0.9913668347 |
UD Danish DDT (test) |
POS |
POS (UPOS) Accuracy |
0.9908174469 |
UD Danish DDT (test) |
MORPH |
Morph (UFeats) Accuracy |
0.9880227568 |
UD Danish DDT (test) |
LEMMA |
Lemma Accuracy |
0.9589423796 |
UD Danish DDT (test) |
UNLABELED_DEPENDENCIES |
Unlabeled Attachment Score (UAS) |
0.9280885781 |
UD Danish DDT (test) |
LABELED_DEPENDENCIES |
Labeled Attachment Score (LAS) |
0.9079997669 |
UD Danish DDT (test) |
SENTS |
Sentences F-Score |
1.0 |
UD Danish DDT (test) |
coreference-resolution |
LEA |
0.4672143289 |
DaCoref (custom) |
coreference-resolution |
Named entity Linking Precision |
0.84 |
DaNED (custom) |
coreference-resolution |
Named entity Linking Recall |
0.2153846154 |
DaNED (custom) |
coreference-resolution |
Named entity Linking F Score |
0.3428571429 |
DaNED (custom) |
📚 詳細情報
モデルの詳細
特徴 |
説明 |
名前 |
da_dacy_large_trf |
バージョン |
0.2.0 |
spaCy |
>=3.5.2,<3.6.0 |
デフォルトパイプライン |
transformer , tagger , morphologizer , trainable_lemmatizer , parser , ner , coref , span_resolver , span_cleaner , entity_linker |
コンポーネント |
transformer , tagger , morphologizer , trainable_lemmatizer , parser , ner , coref , span_resolver , span_cleaner , entity_linker |
ベクトル |
0キー、0個の一意のベクトル (0次元) |
ソース |
UD Danish DDT v2.11 (Johannsen, Anders; Martínez Alonso, Héctor; Plank, Barbara) DaNE (Rasmus Hvingelby, Amalie B. Pauli, Maria Barrett, Christina Rosted, Lasse M. Lidegaard, Anders Søgaard) DaCoref (Buch-Kromann, Matthias) DaNED (Barrett, M. J., Lam, H., Wu, M., Lacroix, O., Plank, B., & Søgaard, A.) chcaa/dfm-encoder-large-v1 (The Danish Foundation Models team) |
ライセンス |
Apache-2.0 |
作者 |
Kenneth Enevoldsen |
ラベルスキーム
ラベルスキームを表示 (4つのコンポーネントに対する211個のラベル)
コンポーネント |
ラベル |
tagger |
ADJ , ADP , ADV , AUX , CCONJ , DET , INTJ , NOUN , NUM , PART , PRON , PROPN , PUNCT , SCONJ , SYM , VERB , X |
morphologizer |
長いリストなので省略。元のREADMEを参照してください。 |
parser |
ROOT , acl:relcl , advcl , advmod , advmod:lmod , amod , appos , aux , case , cc , ccomp , compound:prt , conj , cop , dep , det , expl , fixed , flat , iobj , list , mark , nmod , nmod:poss , nsubj , nummod , obj , obl , obl:lmod , obl:tmod , punct , xcomp |
ner |
LOC , MISC , ORG , PER |
精度
タイプ |
スコア |
TOKEN_ACC |
99.92 |
TOKEN_P |
99.70 |
TOKEN_R |
99.77 |
TOKEN_F |
99.74 |
SENTS_P |
100.00 |
SENTS_R |
100.00 |
SENTS_F |
100.00 |
TAG_ACC |
99.14 |
POS_ACC |
99.08 |
MORPH_ACC |
98.80 |
MORPH_MICRO_P |
99.45 |
MORPH_MICRO_R |
99.32 |
MORPH_MICRO_F |
99.39 |
DEP_UAS |
92.81 |
DEP_LAS |
90.80 |
ENTS_P |
88.58 |
ENTS_R |
86.20 |
ENTS_F |
87.38 |
LEMMA_ACC |
95.89 |
COREF_LEA_F1 |
46.72 |
COREF_LEA_PRECISION |
45.91 |
COREF_LEA_RECALL |
47.56 |
NEL_SCORE |
34.29 |
NEL_MICRO_P |
84.00 |
NEL_MICRO_R |
21.54 |
NEL_MICRO_F |
34.29 |
NEL_MACRO_P |
86.71 |
NEL_MACRO_R |
24.70 |
NEL_MACRO_F |
37.28 |
トレーニング
このモデルは、spaCyを使用してトレーニングされ、Weights & Biasesにログが記録されています。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。