🚀 蒸餾RoBERTa基礎模型 - SQuAD v2
本模型是基於SQuAD v2數據集對distilroberta-base進行微調後的版本,可用於抽取式問答任務,能處理問題與上下文不匹配的情況。同時,該模型支持PyTorch
、Tensorflow
和ONNX
框架。
🚀 快速開始
本模型是在抽取式問答任務——斯坦福問答數據集SQuAD2.0上進行微調的。為方便使用,該模型支持PyTorch
、Tensorflow
和ONNX
框架。
✨ 主要特性
- 該模型可以處理不匹配的問題 - 上下文對。在使用
QuestionAnsweringPipeline
時,請確保指定handle_impossible_answer=True
。
💻 使用示例
基礎用法
>>> from transformers import AutoModelForQuestionAnswering, AutoTokenizer, QuestionAnsweringPipeline
>>> model = AutoModelForQuestionAnswering.from_pretrained("squirro/distilroberta-base-squad_v2")
>>> tokenizer = AutoTokenizer.from_pretrained("squirro/distilroberta-base-squad_v2")
>>> qa_model = QuestionAnsweringPipeline(model, tokenizer)
>>> qa_model(
>>> question="What's your name?",
>>> context="My name is Clara and I live in Berkeley.",
>>> handle_impossible_answer=True
>>> )
{'score': 0.9498472809791565, 'start': 11, 'end': 16, 'answer': 'Clara'}
📚 詳細文檔
訓練和評估數據
訓練和評估均在SQuAD2.0數據集上進行。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:5e-05
- 訓練批次大小:64
- 評估批次大小:8
- 隨機種子:42
- 分佈式類型:TPU
- 設備數量:8
- 總訓練批次大小:512
- 總評估批次大小:64
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 訓練輪數:3.0
訓練結果
指標 |
值 |
訓練輪數 |
3 |
有答案樣本的精確匹配率 |
67.5776 |
有答案樣本的F1分數 |
74.3594 |
有答案樣本總數 |
5928 |
無答案樣本的精確匹配率 |
62.91 |
無答案樣本的F1分數 |
62.91 |
無答案樣本總數 |
5945 |
最佳精確匹配率 |
65.2489 |
最佳精確匹配閾值 |
0 |
最佳F1分數 |
68.6349 |
最佳F1分數閾值 |
0 |
精確匹配率 |
65.2405 |
F1分數 |
68.6265 |
評估樣本數 |
12165 |
評估總數 |
11873 |
訓練損失 |
1.40336 |
訓練運行時間 |
1365.28 |
訓練樣本數 |
131823 |
每秒訓練樣本數 |
289.662 |
每秒訓練步數 |
0.567 |
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.9.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.6
📄 許可證
本模型採用Apache-2.0許可證。
🔍 關於我們

Squirro將來自任何來源的數據與你的意圖和上下文相結合,在你需要時智能地增強決策能力!
Squirro作為一個核心洞察引擎,主要與金融服務、公共部門、專業服務和製造業等領域的全球組織合作。其客戶包括英格蘭銀行、歐洲中央銀行(ECB)、德意志聯邦銀行、渣打銀行、漢高、阿樂斯、坎德里安等眾多世界領先企業。
Squirro成立於2012年,目前在蘇黎世、倫敦、紐約和新加坡設有辦事處。有關人工智能驅動的商業洞察的更多信息,請訪問官網。
社交媒體平臺