Bert-L12-h240-A12開源模型 - 適用於掩碼語言建模任務，免費使用

首頁

Bert L12 H240 A12

由eli4s開發

基於知識蒸餾技術預訓練的BERT變體模型，隱藏層維度為240，配備12個注意力頭，適用於掩碼語言建模任務。

大型語言模型

Transformers

#知識蒸餾BERT #小維度隱藏層 #掩碼語言模型

下載量 7

發布時間 : 3/2/2022

模型概述

該模型是BERT架構的變體，通過知識蒸餾技術進行預訓練，具有獨特的隱藏層維度和注意力頭配置，主要用於掩碼語言建模任務。

模型特點

知識蒸餾預訓練

採用知識蒸餾技術進行預訓練，可能繼承了教師模型的優秀特性。

獨特的維度配置

隱藏層維度為240，配備12個注意力頭，每個頭維度為20，與標準BERT模型不同。

多重損失函數

知識蒸餾過程中採用了多重損失函數組合，可能提升了模型性能。

模型能力

掩碼語言預測

文本理解

上下文語義分析

使用案例

自然語言處理

文本填空

預測文本中被掩碼的詞彙，用於文本補全或理解任務。

語義分析

通過掩碼預測理解上下文語義，可用於問答系統或文本分類。

🚀 Eli4s/Bert-L12-h240-A12 模型

該模型使用知識蒸餾技術在 bookcorpus 數據集上進行了預訓練。它與 BERT 架構相同，但隱藏層大小為 240。由於它有 12 個注意力頭，因此每個頭的大小（20）與 BERT 基礎模型（64）不同。該模型的知識蒸餾使用了多種損失函數，並且權重是從頭開始初始化的。此外，該模型使用的分詞器與 bert-base-uncased 模型相同。

🚀 快速開始

加載模型和分詞器

from transformers import AutoModelForMaskedLM, BertTokenizer

model_name = "eli4s/Bert-L12-h240-A12"
model = AutoModelForMaskedLM.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

作為掩碼語言模型使用

import torch

sentence = "Let's have a [MASK]."

model.eval()
inputs = tokenizer([sentence], padding='longest', return_tensors='pt')
output = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])

mask_index = inputs['input_ids'].tolist()[0].index(103)
masked_token = output['logits'][0][mask_index].argmax(axis=-1)
predicted_token = tokenizer.decode(masked_token)

print(predicted_token)

預測前 n 個最相關的結果

top_n = 5

vocab_size = model.config.vocab_size
logits = output['logits'][0][mask_index].tolist()
top_tokens = sorted(list(range(vocab_size)), key=lambda  i:logits[i], reverse=True)[:top_n]

tokenizer.decode(top_tokens)

✨ 主要特性

獨特架構：與 BERT 架構相同，但隱藏層大小和注意力頭大小不同。
知識蒸餾：使用多種損失函數進行知識蒸餾。
權重初始化：模型權重從頭開始初始化。
分詞器：使用與 bert-base-uncased 相同的分詞器。

💻 使用示例

基礎用法

from transformers import AutoModelForMaskedLM, BertTokenizer

model_name = "eli4s/Bert-L12-h240-A12"
model = AutoModelForMaskedLM.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

import torch
sentence = "Let's have a [MASK]."

model.eval()
inputs = tokenizer([sentence], padding='longest', return_tensors='pt')
output = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])

mask_index = inputs['input_ids'].tolist()[0].index(103)
masked_token = output['logits'][0][mask_index].argmax(axis=-1)
predicted_token = tokenizer.decode(masked_token)

print(predicted_token)

高級用法

top_n = 5

vocab_size = model.config.vocab_size
logits = output['logits'][0][mask_index].tolist()
top_tokens = sorted(list(range(vocab_size)), key=lambda  i:logits[i], reverse=True)[:top_n]

tokenizer.decode(top_tokens)