🚀 意大利語微調NER的BERT模型
本模型是基於 dbmdz/bert-base-italian-cased 在wiki_neural數據集上微調得到的。它在意大利語的標記分類任務,尤其是命名實體識別(NER)任務中表現出色,能夠高效準確地處理相關文本。
🚀 快速開始
使用以下代碼即可快速調用該模型進行命名實體識別:
from transformers import pipeline
ner_pipeline = pipeline("ner", model="nickprock/bert-italian-finetuned-ner", aggregation_strategy="simple")
text = "La sede storica della Olivetti è ad Ivrea"
output = ner_pipeline(text)
✨ 主要特性
- 精準度高:在評估集上,該模型取得了優異的成績,損失值僅為0.0361,準確率達到了0.9918。
- 多指標優秀:除了準確率,在精確率(Precision)、召回率(Recall)和F1值等指標上也表現出色,分別為0.9438、0.9542和0.9490。
- 語言適配:專門針對意大利語進行了微調,能夠更好地處理意大利語的文本。
📚 詳細文檔
模型描述
該模型用於意大利語的標記分類實驗,特別是命名實體識別(NER)任務。
預期用途和限制
此模型可用於標記分類任務,特別是命名實體識別。它是針對意大利語進行微調的。
訓練和評估數據
使用的數據集是 wikiann。
訓練過程
訓練超參數
在訓練過程中使用了以下超參數:
- 學習率(learning_rate): 2e-05
- 訓練批次大小(train_batch_size): 8
- 評估批次大小(eval_batch_size): 8
- 隨機種子(seed): 42
- 優化器(optimizer): Adam,其中betas=(0.9,0.999),epsilon=1e-08
- 學習率調度器類型(lr_scheduler_type): 線性
- 訓練輪數(num_epochs): 3
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
F1值 |
準確率 |
0.0297 |
1.0 |
11050 |
0.0323 |
0.9324 |
0.9420 |
0.9372 |
0.9908 |
0.0173 |
2.0 |
22100 |
0.0324 |
0.9445 |
0.9514 |
0.9479 |
0.9915 |
0.0057 |
3.0 |
33150 |
0.0361 |
0.9438 |
0.9542 |
0.9490 |
0.9918 |
框架版本
- Transformers 4.27.3
- Pytorch 1.13.0
- Datasets 2.1.0
- Tokenizers 0.13.2
📄 許可證
本模型採用MIT許可證。
其他信息
- 語言:意大利語
- 標籤:generated_from_trainer
- 指標:精確率(precision)、召回率(recall)、F1值(f1)、準確率(accuracy)
- 示例:
- 示例1:'Ciao, sono Giacomo. Vivo a Milano e lavoro da Armani. '
- 示例2:'Domenica andrò allo stadio con Giovanna a guardare la Fiorentina. '
- 基礎模型:dbmdz/bert-base-italian-cased
- 模型索引:
- 名稱:bert-italian-finetuned-ner
- 結果:
- 任務類型:標記分類(token-classification)
- 數據集:wiki_neural
- 指標:精確率、召回率、F1值、準確率等具體數值見上文。