🚀 11128093 - 11066053 - NLI模型卡片
这是一个基于Mamba状态空间模型的二元自然语言推理分类器,在提供的COMP34812数据集上进行了微调。它可以有效处理二元自然语言推理任务,判断句子对之间是否存在蕴含关系。
📚 详细文档
模型描述
本模型扩展了state - spaces/mamba - 130m架构,用于二元自然语言推理(NLI)任务(蕴含与非蕴含)。它使用了自定义分类头,并在COMP34812 NLI数据集上进行了微调。
- 开发者:Patrick Mermelstein Lyons和Dev Soneji
- 支持语言:英语
- 模型类型:有监督学习
- 模型架构:非Transformer(选择性状态空间)
- 微调基础模型:state - spaces/mamba - 130m
模型资源
- 代码仓库:https://huggingface.co/state - spaces/mamba - 130m
- 论文或文档:https://arxiv.org/pdf/2312.00752.pdf
📦 安装指南
文档未提及安装步骤,暂不展示。
🔧 技术细节
训练详情
训练数据
使用COMP34812 NLI训练数据集(闭源特定任务数据集),包含24400对前提 - 假设对,每对都有一个二元蕴含标签。
训练过程
训练超参数
- 学习率:5e - 5
- 训练批次大小:4
- 评估批次大小:16
- 训练轮数:5
- 学习率调度器类型:余弦
- 预热比例:0.1
速度、大小和时间
- 总训练时间:1小时17分钟
- 训练轮数:5
- 模型大小:约500MB
评估
测试数据与指标
测试数据
使用COMP34812 NLI开发数据集(闭源特定任务数据集),包含6700对前提 - 假设对,每对都有一个二元蕴含标签。
评估指标
评估结果
模型的准确率达到了82.4%,马修斯相关系数为0.649。
技术规格
硬件
- GPU:NVIDIA T4(Google Colab)
- 显存:15.0GB
- 内存:12.7GB
- 磁盘:模型和数据占用2GB
软件
- Python 3.10+
- PyTorch
- HuggingFace Transformers
- mamba - ssm
- datasets, evaluate, accelerate
偏差、风险和局限性
本模型仅限于二元蕴含检测,并且仅在COMP34812数据集上进行了训练。在该数据集之外的泛化能力未经测试。长度超过128个标记的句子对将被截断。
额外信息
模型检查点和分词器可在https://huggingface.co/patrickmlml/mamba_nli_ensemble获取。超参数是严格按照参考文献确定的。
📄 许可证
本模型采用CC - BY - 4.0许可证。
属性 |
详情 |
模型类型 |
有监督学习 |
训练数据 |
COMP34812 NLI训练数据集(闭源特定任务数据集),包含24400对前提 - 假设对,每对都有一个二元蕴含标签。 |
评估指标 |
准确率、马修斯相关系数(MCC) |
⚠️ 重要提示
模型仅限于二元蕴含检测,仅在COMP34812数据集上训练,在该数据集之外的泛化能力未经测试,长度超过128个标记的句子对将被截断。
💡 使用建议
若要使用该模型,可从https://huggingface.co/patrickmlml/mamba_nli_ensemble获取模型检查点和分词器,超参数可参考参考文献进行设置。