fi_core_news_lgオープンソースフィンランド語処理モデル - 無料でデプロイ可能、品詞やエンティティなどの分析に対応しています

Fi Core News Lg

spacyによって開発

spaCyが提供するCPU最適化されたフィンランド語処理パイプライン。品詞タグ付け、依存解析、固有表現認識などの完全なNLP機能を含む

シーケンスラベリングその他#フィンランド語NLP #マルチタスク処理 #高精度品詞タグ付け

ダウンロード数 53

リリース時間 : 5/2/2022

モデル概要

これはフィンランド語向けの大規模な自然言語処理モデルで、完全なテキスト処理パイプラインを含み、品詞タグ付け、形態素解析、依存解析、固有表現認識などのタスクをサポートします。モデルはCPU使用に最適化されており、訓練可能なレンマ化ツールも含まれています。

モデル特徴

CPU最適化

CPU使用シナリオに特化して最適化されており、GPUがない環境での展開に適している

完全NLPパイプライン

トークン化から固有表現認識までの完全な自然言語処理パイプラインを提供

高精度品詞タグ付け

品詞タグ付け精度は97.09%（XPOS）および96.28%（UPOS）を達成

訓練可能なレンマ化ツール

訓練可能なレンマ化コンポーネントを含み、精度は86.53%

モデル能力

品詞タグ付け

形態素解析

依存解析

固有表現認識

レンマ化

文分割

使用事例

テキスト分析

フィンランド語テキストの文法解析

フィンランド語テキストに対して品詞タグ付けや依存関係解析を含む完全な文法解析を実施

無ラベル依存精度(UAS)83.71%、ラベル付き依存精度(LAS)79.41%

フィンランド語固有表現認識

フィンランド語テキスト中の人名、地名、組織名などの固有表現を認識

NER F値81.83%

言語学習

フィンランド語学習支援

学習者がフィンランド語の文構造や語形変化を分析するのを支援

形態素特徴精度92.22%

🚀 fi_core_news_lg

このモデルは、CPU向けに最適化されたフィンランド語のパイプラインです。様々な自然言語処理タスクに使用でき、高い精度を誇ります。

🚀 クイックスタート

詳細情報については、こちらを参照してください。

✨ 主な機能

このモデルは、以下のタスクに最適化されています。

名前付きエンティティ認識 (NER)
品詞タグ付け (TAG)
汎用品詞タグ付け (POS)
形態素解析 (MORPH)
語幹化 (LEMMA)
依存構造解析 (UNLABELED_DEPENDENCIES、LABELED_DEPENDENCIES)
文分割 (SENTS)

📚 ドキュメント

モデル情報

属性	詳情
モデル名	`fi_core_news_lg`
バージョン	`3.7.0`
spaCyバージョン	`>=3.7.0,<3.8.0`
デフォルトパイプライン	`tok2vec`, `tagger`, `morphologizer`, `parser`, `lemmatizer`, `attribute_ruler`, `ner`
コンポーネント	`tok2vec`, `tagger`, `morphologizer`, `parser`, `lemmatizer`, `senter`, `attribute_ruler`, `ner`
ベクトル	floret (200000, 300)
ソース	UD Finnish TDT v2.8 (Ginter, Filip; Kanerva, Jenna; Laippala, Veronika; Miekka, Niko; Missilä, Anna; Ojala, Stina; Pyysalo, Sampo) TurkuONE (ffe2040e) (Jouni Luoma, Li-Hsin Chang, Filip Ginter, Sampo Pyysalo) Explosion Vectors (OSCAR 2109 + Wikipedia + OpenSubtitles + WMT News Crawl) (Explosion)
ライセンス	`CC BY-SA 4.0`
作者	Explosion

評価指標

タスク名	指標名	指標タイプ	値
NER	NER Precision	precision	0.8236272879
NER	NER Recall	recall	0.813030386
NER	NER F Score	f_score	0.8182945309
TAG	TAG (XPOS) Accuracy	accuracy	0.9709439124
POS	POS (UPOS) Accuracy	accuracy	0.9628474502
MORPH	Morph (UFeats) Accuracy	accuracy	0.9221890983
LEMMA	Lemma Accuracy	accuracy	0.8653065672
UNLABELED_DEPENDENCIES	Unlabeled Attachment Score (UAS)	f_score	0.8371365653
LABELED_DEPENDENCIES	Labeled Attachment Score (LAS)	f_score	0.7941298453
SENTS	Sentences F-Score	f_score	0.9083487941

ラベルスキーム

ラベルスキームを表示 (4つのコンポーネントに対する2145個のラベル)

コンポーネント	ラベル
`tagger`	`A`, `Adj`, `Adp`, `Adv`, `Adv_V`, `C`, `C_V`, `Foreign`, `Interj`, `N`, `Num`, `Pron`, `Punct`, `Symb`, `V`, `V_Pron`, `_SP`
`morphologizer`	多数のラベルがあります。元のドキュメントを参照してください。