Bert-L12-h240-A12开源模型 - 适用于掩码语言建模任务，免费使用

首页

Bert L12 H240 A12

由 eli4s 开发

基于知识蒸馏技术预训练的BERT变体模型，隐藏层维度为240，配备12个注意力头，适用于掩码语言建模任务。

大型语言模型

Transformers

#知识蒸馏BERT #小维度隐藏层 #掩码语言模型

下载量 7

发布时间 : 3/2/2022

模型简介

该模型是BERT架构的变体，通过知识蒸馏技术进行预训练，具有独特的隐藏层维度和注意力头配置，主要用于掩码语言建模任务。

模型特点

知识蒸馏预训练

采用知识蒸馏技术进行预训练，可能继承了教师模型的优秀特性。

独特的维度配置

隐藏层维度为240，配备12个注意力头，每个头维度为20，与标准BERT模型不同。

多重损失函数

知识蒸馏过程中采用了多重损失函数组合，可能提升了模型性能。

模型能力

掩码语言预测

文本理解

上下文语义分析

使用案例

自然语言处理

文本填空

预测文本中被掩码的词汇，用于文本补全或理解任务。

语义分析

通过掩码预测理解上下文语义，可用于问答系统或文本分类。

🚀 Eli4s/Bert-L12-h240-A12 模型

该模型使用知识蒸馏技术在 bookcorpus 数据集上进行了预训练。它与 BERT 架构相同，但隐藏层大小为 240。由于它有 12 个注意力头，因此每个头的大小（20）与 BERT 基础模型（64）不同。该模型的知识蒸馏使用了多种损失函数，并且权重是从头开始初始化的。此外，该模型使用的分词器与 bert-base-uncased 模型相同。

🚀 快速开始

加载模型和分词器

from transformers import AutoModelForMaskedLM, BertTokenizer

model_name = "eli4s/Bert-L12-h240-A12"
model = AutoModelForMaskedLM.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

作为掩码语言模型使用

import torch

sentence = "Let's have a [MASK]."

model.eval()
inputs = tokenizer([sentence], padding='longest', return_tensors='pt')
output = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])

mask_index = inputs['input_ids'].tolist()[0].index(103)
masked_token = output['logits'][0][mask_index].argmax(axis=-1)
predicted_token = tokenizer.decode(masked_token)

print(predicted_token)

预测前 n 个最相关的结果

top_n = 5

vocab_size = model.config.vocab_size
logits = output['logits'][0][mask_index].tolist()
top_tokens = sorted(list(range(vocab_size)), key=lambda  i:logits[i], reverse=True)[:top_n]

tokenizer.decode(top_tokens)

✨ 主要特性

独特架构：与 BERT 架构相同，但隐藏层大小和注意力头大小不同。
知识蒸馏：使用多种损失函数进行知识蒸馏。
权重初始化：模型权重从头开始初始化。
分词器：使用与 bert-base-uncased 相同的分词器。

💻 使用示例

基础用法

from transformers import AutoModelForMaskedLM, BertTokenizer

model_name = "eli4s/Bert-L12-h240-A12"
model = AutoModelForMaskedLM.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

import torch
sentence = "Let's have a [MASK]."

model.eval()
inputs = tokenizer([sentence], padding='longest', return_tensors='pt')
output = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])

mask_index = inputs['input_ids'].tolist()[0].index(103)
masked_token = output['logits'][0][mask_index].argmax(axis=-1)
predicted_token = tokenizer.decode(masked_token)

print(predicted_token)

高级用法

top_n = 5

vocab_size = model.config.vocab_size
logits = output['logits'][0][mask_index].tolist()
top_tokens = sorted(list(range(vocab_size)), key=lambda  i:logits[i], reverse=True)[:top_n]

tokenizer.decode(top_tokens)