🚀 11128093 - 11066053 - NLI模型卡片
這是一個基於Mamba狀態空間模型的二元自然語言推理分類器,在提供的COMP34812數據集上進行了微調。它可以有效處理二元自然語言推理任務,判斷句子對之間是否存在蘊含關係。
📚 詳細文檔
模型描述
本模型擴展了state - spaces/mamba - 130m架構,用於二元自然語言推理(NLI)任務(蘊含與非蘊含)。它使用了自定義分類頭,並在COMP34812 NLI數據集上進行了微調。
- 開發者:Patrick Mermelstein Lyons和Dev Soneji
- 支持語言:英語
- 模型類型:有監督學習
- 模型架構:非Transformer(選擇性狀態空間)
- 微調基礎模型:state - spaces/mamba - 130m
模型資源
- 代碼倉庫:https://huggingface.co/state - spaces/mamba - 130m
- 論文或文檔:https://arxiv.org/pdf/2312.00752.pdf
📦 安裝指南
文檔未提及安裝步驟,暫不展示。
🔧 技術細節
訓練詳情
訓練數據
使用COMP34812 NLI訓練數據集(閉源特定任務數據集),包含24400對前提 - 假設對,每對都有一個二元蘊含標籤。
訓練過程
訓練超參數
- 學習率:5e - 5
- 訓練批次大小:4
- 評估批次大小:16
- 訓練輪數:5
- 學習率調度器類型:餘弦
- 預熱比例:0.1
速度、大小和時間
- 總訓練時間:1小時17分鐘
- 訓練輪數:5
- 模型大小:約500MB
評估
測試數據與指標
測試數據
使用COMP34812 NLI開發數據集(閉源特定任務數據集),包含6700對前提 - 假設對,每對都有一個二元蘊含標籤。
評估指標
評估結果
模型的準確率達到了82.4%,馬修斯相關係數為0.649。
技術規格
硬件
- GPU:NVIDIA T4(Google Colab)
- 顯存:15.0GB
- 內存:12.7GB
- 磁盤:模型和數據佔用2GB
軟件
- Python 3.10+
- PyTorch
- HuggingFace Transformers
- mamba - ssm
- datasets, evaluate, accelerate
偏差、風險和侷限性
本模型僅限於二元蘊含檢測,並且僅在COMP34812數據集上進行了訓練。在該數據集之外的泛化能力未經測試。長度超過128個標記的句子對將被截斷。
額外信息
模型檢查點和分詞器可在https://huggingface.co/patrickmlml/mamba_nli_ensemble獲取。超參數是嚴格按照參考文獻確定的。
📄 許可證
本模型採用CC - BY - 4.0許可證。
屬性 |
詳情 |
模型類型 |
有監督學習 |
訓練數據 |
COMP34812 NLI訓練數據集(閉源特定任務數據集),包含24400對前提 - 假設對,每對都有一個二元蘊含標籤。 |
評估指標 |
準確率、馬修斯相關係數(MCC) |
⚠️ 重要提示
模型僅限於二元蘊含檢測,僅在COMP34812數據集上訓練,在該數據集之外的泛化能力未經測試,長度超過128個標記的句子對將被截斷。
💡 使用建議
若要使用該模型,可從https://huggingface.co/patrickmlml/mamba_nli_ensemble獲取模型檢查點和分詞器,超參數可參考參考文獻進行設置。