bert-base-uncased-squad1.1-block-sparse-0.13-v1开源问答模型

Home

Bert Base Uncased Squad1.1 Block Sparse 0.13 V1

Developed by madlag

这是一个基于BERT基础无大小写模型在SQuAD1.1数据集上微调的问答系统模型，采用块稀疏结构，保留了原模型32.1%的权重。

问答系统

Transformers

EnglishOpen Source License:MIT #问答系统 #块稀疏结构 #动态剪枝

Downloads 25

Release Time : 3/2/2022

Model Overview

该模型主要用于问答系统任务，能够根据提供的上下文回答相关问题。它不区分大小写，且采用了动态剪枝技术以提高评估速度。

Model Features

块稀疏结构

线性层仅保留原有权重的12.5%，整体保留32.1%的权重，评估速度比密集网络快1.65倍。

动态剪枝

采用Victor Sanh改进版的动态剪枝方法，优化了模型性能。

注意力头移除

144个注意力头中移除了97个（占67.4%），进一步优化了模型结构。

Model Capabilities

问答系统

文本理解

上下文回答

Use Cases

教育

历史知识问答

根据历史文本回答相关问题，如'埃菲尔铁塔位于哪里？'

能够准确回答上下文中的问题。

信息检索

文档问答

从文档中提取信息并回答相关问题。

能够根据文档内容提供准确的答案。

🚀 BERT-base uncased模型在SQuAD v1上微调

本模型采用块稀疏化处理：线性层仅保留了原权重的 12.5%。

整体而言，该模型保留了原权重的 32.1%。

训练过程使用了Victor Sanh改进版的移动剪枝方法。

这意味着在使用块稀疏运行时，该模型在评估阶段的运行速度比密集网络快 1.65倍，不过会对准确率产生一定影响（详见下文）。

该模型是在HuggingFace的BERT基础无大小写区分的检查点上，针对SQuAD1.1数据集进行微调，并从等效模型csarron/bert-base-uncased-squad-v1中进行知识蒸馏得到的。此模型不区分大小写，即对“english”和“English”的处理结果相同。

✨ 主要特性

块稀疏化处理，减少模型权重，提升运行速度。
基于BERT基础模型微调，适用于问答任务。
不区分大小写，具有一定的灵活性。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import pipeline

qa_pipeline = pipeline(
    "question-answering",
    model="madlag/bert-base-uncased-squad1.1-block-sparse-0.13-v1",
    tokenizer="madlag/bert-base-uncased-squad1.1-block-sparse-0.13-v1"
)

predictions = qa_pipeline({
    'context': "Frédéric François Chopin, born Fryderyk Franciszek Chopin (1 March 1810 – 17 October 1849), was a Polish composer and virtuoso pianist of the Romantic era who wrote primarily for solo piano.",
    'question': "Who is Frederic Chopin?",
})

print(predictions)

📚 详细文档

剪枝细节

块剪枝的一个副作用是部分注意力头被完全移除：在总共144个注意力头中，有97个被移除（占比67.4%）。

以下是剪枝后剩余注意力头在网络中的分布详情。

剪枝细节

密度图

数据集详情

数据集	划分	样本数量
SQuAD1.1	训练集	90.6K
SQuAD1.1	评估集	11.1k

微调详情

Python版本：3.8.5
机器规格：

CPU: Intel(R) Core(TM) i7-6700K CPU
内存: 64 GiB
GPU: 1 GeForce GTX 3090，显存24GiB
GPU驱动: 455.23.05，CUDA: 11.1

结果

Pytorch模型文件大小：342M（原始BERT模型：438M）

指标	数值	原始值(表2)
EM	74.39	80.8
F1	83.26	88.5

🔧 技术细节

该模型使用改进版的移动剪枝方法进行训练，通过块稀疏化处理减少模型权重，提升运行速度。在剪枝过程中，部分注意力头被移除，对模型的性能产生了一定影响。具体的剪枝细节和性能指标可参考上文的详细文档。

📄 许可证

本模型采用MIT许可证。

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご