🚀 微調版大型RoBERTa命名實體識別模型
本模型是在PLOD-unfiltered數據集上對roberta-large進行微調後的版本。它在解決命名實體識別問題上表現出色,能夠精準地識別文本中的實體信息,為相關自然語言處理任務提供有力支持。
🚀 快速開始
本模型是在 PLOD-unfiltered 數據集上對 roberta-large 進行微調後的版本。它在評估集上取得了以下成績:
- 損失值:0.1393
- 精確率:0.9663
- 召回率:0.9627
- F1值:0.9645
- 準確率:0.9608
✨ 主要特性
模型描述
RoBERTa 是一個基於自監督學習方式,在大量英文文本語料庫上預訓練的 Transformer 模型。這意味著它僅在原始文本上進行預訓練,沒有人工對其進行任何標註(這也是它可以利用大量公開可用數據的原因),並通過自動流程從這些文本中生成輸入和標籤。
更確切地說,它是通過掩碼語言模型(Masked Language Modeling,MLM)目標進行預訓練的。對於一個句子,模型會隨機掩碼輸入中 15% 的單詞,然後將整個掩碼後的句子輸入模型,讓模型預測被掩碼的單詞。這與傳統的循環神經網絡(RNNs)不同,RNNs 通常是逐個處理單詞;也與像 GPT 這樣的自迴歸模型不同,自迴歸模型會在內部掩碼未來的標記。這種方式使模型能夠學習到句子的雙向表示。
通過這種方式,模型學習到英語語言的內部表示,這些表示可用於提取對下游任務有用的特徵。例如,如果你有一個帶標籤句子的數據集,你可以使用 BERT 模型生成的特徵作為輸入,訓練一個標準的分類器。
📚 詳細文檔
預期用途和限制
更多信息待補充。
訓練和評估數據
該模型使用 PLOD-Unfiltered 數據集進行微調。此數據集用於模型的訓練和評估。PLOD 數據集於 2022 年在 LREC 會議上發佈,該數據集有助於構建用於縮寫檢測任務的序列標註模型。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:8
- 評估批次大小:4
- 隨機種子:42
- 優化器:Adam,β=(0.9, 0.999),ε=1e - 08
- 學習率調度器類型:線性
- 訓練輪數:6
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
F1值 |
準確率 |
0.1281 |
1.0 |
14233 |
0.1300 |
0.9557 |
0.9436 |
0.9496 |
0.9457 |
0.1056 |
2.0 |
28466 |
0.1076 |
0.9620 |
0.9552 |
0.9586 |
0.9545 |
0.0904 |
3.0 |
42699 |
0.1054 |
0.9655 |
0.9585 |
0.9620 |
0.9583 |
0.0743 |
4.0 |
56932 |
0.1145 |
0.9658 |
0.9602 |
0.9630 |
0.9593 |
0.0523 |
5.0 |
71165 |
0.1206 |
0.9664 |
0.9619 |
0.9641 |
0.9604 |
0.044 |
6.0 |
85398 |
0.1393 |
0.9663 |
0.9627 |
0.9645 |
0.9608 |
框架版本
- Transformers:4.18.0
- Pytorch:1.10.1+cu111
- Datasets:2.1.0
- Tokenizers:0.12.1
📄 許可證
本項目採用 MIT 許可證。
📋 模型信息
屬性 |
詳情 |
模型類型 |
微調版大型 RoBERTa 命名實體識別模型 |
訓練數據 |
PLOD-unfiltered 數據集 |
模型創建者 |
Leonardo Zilio、Hadeel Saadany、Prashant Sharma、Diptesh Kanojia、Constantin Orasan |
基礎模型 |
roberta-large |
評估指標 |
精確率、召回率、F1值、準確率 |