🚀 roberta-base-finetuned-ner
本模型是在 PLOD-filtered 數據集上對 roberta-base 進行微調後的版本。它能有效解決令牌分類任務,在評估集上展現出了較高的性能,為相關自然語言處理任務提供了有力支持。
✨ 主要特性
- 基於預訓練模型:以
roberta-base
為基礎模型進行微調,充分利用了預訓練模型的語言理解能力。
- 多指標表現優異:在精度、召回率、F1值和準確率等多個評估指標上都取得了較高的分數。
- 適用於特定數據集:在
surrey-nlp/PLOD-filtered
數據集上進行訓練和評估,可用於縮寫檢測等序列標註任務。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型描述
RoBERTa 是一種基於自監督學習方式,在大量英文語料庫上預訓練的 Transformer 模型。這意味著它僅在原始文本上進行預訓練,無需人工標註(因此可以使用大量公開可用的數據),並通過自動流程從這些文本中生成輸入和標籤。
更確切地說,它是通過掩碼語言模型(Masked language modeling,MLM)目標進行預訓練的。對於一個句子,模型會隨機掩碼輸入中 15% 的單詞,然後將整個掩碼後的句子輸入模型,讓模型預測被掩碼的單詞。這與傳統的循環神經網絡(RNNs)不同,RNNs 通常是逐個處理單詞,也與像 GPT 這樣的自迴歸模型不同,自迴歸模型會在內部掩碼未來的令牌。這種方式使模型能夠學習句子的雙向表示。
通過這種方式,模型學習到了英語語言的內部表示,可用於提取對下游任務有用的特徵。例如,如果您有一個帶標籤句子的數據集,就可以使用 BERT 模型生成的特徵作為輸入,訓練一個標準的分類器。
預期用途與限制
更多信息待補充。
訓練和評估數據
該模型使用 PLOD-Filtered 數據集進行微調。此數據集用於模型的訓練和評估,PLOD 數據集於 2022 年 LREC 會議上發佈,可幫助構建用於縮寫檢測任務的序列標註模型。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:32
- 評估批次大小:8
- 隨機種子:42
- 優化器:Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 學習率調度器類型:線性
- 訓練輪數:6
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精度 |
召回率 |
F1值 |
準確率 |
0.1179 |
1.99 |
7000 |
0.1130 |
0.9602 |
0.9517 |
0.9559 |
0.9522 |
0.0878 |
3.98 |
14000 |
0.1106 |
0.9647 |
0.9564 |
0.9606 |
0.9567 |
0.0724 |
5.96 |
21000 |
0.1149 |
0.9646 |
0.9582 |
0.9614 |
0.9576 |
框架版本
- Transformers 4.18.0
- Pytorch 1.10.1 + cu111
- Datasets 2.1.0
- Tokenizers 0.12.1
🔧 技術細節
模型信息
屬性 |
詳情 |
模型類型 |
基於 roberta-base 微調的令牌分類模型 |
訓練數據 |
surrey-nlp/PLOD-filtered 數據集 |
評估指標
該模型在評估集上取得了以下結果:
- 損失:0.1148
- 精度:0.9645
- 召回率:0.9583
- F1值:0.9614
- 準確率:0.9576
📄 許可證
本模型採用 MIT 許可證。
模型創建者
- Leonardo Zilio
- Hadeel Saadany
- Prashant Sharma
- Diptesh Kanojia
- Constantin Orasan
模型索引
- 名稱:roberta-base-finetuned-ner
- 結果:
- 任務:
- 數據集:
- 名稱:surrey-nlp/PLOD-filtered
- 類型:令牌分類
- 參數:PLODfiltered
- 指標:
- 類型:精度
- 值:0.9644756447594547
- 名稱:精度
- 類型:召回率
- 值:0.9583209148378798
- 名稱:召回率
- 類型:F1值
- 值:0.9613884293804785
- 名稱:F1值
- 類型:準確率
- 值:0.9575894768204436
- 名稱:準確率
模型小部件示例
- 文本:Light dissolved inorganic carbon (DIC) resulting from the oxidation of hydrocarbons.
- 文本:RAFs are plotted for a selection of neurons in the dorsal zone (DZ) of auditory cortex in Figure 1.
- 文本:Images were acquired using a GE 3.0T MRI scanner with an upgrade for echo - planar imaging (EPI).