🚀 卡門伯特命名實體識別模型(camembert-ner)
卡門伯特命名實體識別模型(camembert-ner)是一個基於卡門伯特(camemBERT)微調的命名實體識別模型,用於處理法語文本的命名實體識別任務。它在維基命名實體法語數據集(wikiner-fr)上進行訓練,在電子郵件和聊天數據上表現出色。
🚀 快速開始
卡門伯特命名實體識別模型(camembert-ner)是一個從卡門伯特(camemBERT)在維基命名實體法語數據集(wikiner-fr)上微調而來的命名實體識別模型。
該模型在維基命名實體法語數據集(約 170634 個句子)上進行訓練。
模型在電子郵件/聊天數據上進行了驗證,特別是在這類數據上的表現優於其他模型。
特別是,該模型在不以大寫字母開頭的實體上似乎效果更好。
✨ 主要特性
- 基於卡門伯特(camemBERT)微調,適用於法語命名實體識別任務。
- 在維基命名實體法語數據集上訓練,數據量約為 170634 個句子。
- 在電子郵件和聊天數據上表現出色,尤其對不以大寫字母開頭的實體識別效果較好。
📦 安裝指南
使用 HuggingFace 加載卡門伯特命名實體識別模型(camembert-ner)及其子詞分詞器:
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/camembert-ner")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/camembert-ner")
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/camembert-ner")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/camembert-ner")
from transformers import pipeline
nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne14, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015.")
[{'entity_group': 'ORG',
'score': 0.9472818374633789,
'word': 'Apple',
'start': 0,
'end': 5},
{'entity_group': 'PER',
'score': 0.9838564991950989,
'word': 'Steve Jobs',
'start': 74,
'end': 85},
{'entity_group': 'LOC',
'score': 0.9831605950991312,
'word': 'Los Altos',
'start': 87,
'end': 97},
{'entity_group': 'LOC',
'score': 0.9834540486335754,
'word': 'Californie',
'start': 100,
'end': 111},
{'entity_group': 'PER',
'score': 0.9841555754343668,
'word': 'Steve Jobs',
'start': 115,
'end': 126},
{'entity_group': 'PER',
'score': 0.9843501806259155,
'word': 'Steve Wozniak',
'start': 127,
'end': 141},
{'entity_group': 'PER',
'score': 0.9841533899307251,
'word': 'Ronald Wayne',
'start': 144,
'end': 157},
{'entity_group': 'ORG',
'score': 0.9468960364659628,
'word': 'Apple Computer',
'start': 243,
'end': 257}]
📚 詳細文檔
訓練數據
訓練數據的分類如下:
屬性 |
詳情 |
模型類型 |
基於卡門伯特(camemBERT)微調的命名實體識別模型 |
訓練數據 |
維基命名實體法語數據集(wikiner-fr),約 170634 個句子 |
訓練數據的分類說明:
縮寫 |
描述 |
O |
非命名實體 |
MISC |
其他實體 |
PER |
人名 |
ORG |
組織名 |
LOC |
地名 |
模型性能(評估指標:seqeval)
整體性能
精度 |
召回率 |
F1 值 |
0.8859 |
0.8971 |
0.8914 |
按實體類型的性能
實體類型 |
精度 |
召回率 |
F1 值 |
PER |
0.9372 |
0.9598 |
0.9483 |
ORG |
0.8099 |
0.8265 |
0.8181 |
LOC |
0.8905 |
0.9005 |
0.8955 |
MISC |
0.8175 |
0.8117 |
0.8146 |
相關文章
如果你對如何使用該模型的結果來訓練一個用於電子郵件簽名檢測的 LSTM 模型感興趣,可以閱讀以下文章:
LSTM 模型用於電子郵件簽名檢測
📄 許可證
本項目採用 MIT 許可證。