🚀 vBERT-2021-LARGE
vBERT-2021-LARGE是一款針對VMware特定場景優化的預訓練語言模型,有效解決了傳統BERT模型在處理VMware相關專業詞彙、技術術語和複合詞時的難題,提升了在VMware領域NLP任務中的表現。
🚀 快速開始
你可以按照以下步驟使用vBERT-2021-LARGE模型獲取給定文本的特徵。
PyTorch環境
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-large')
model = BertModel.from_pretrained("VMware/vbert-2021-large")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
TensorFlow環境
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-large')
model = TFBertModel.from_pretrained('VMware/vbert-2021-large')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
✨ 主要特性
- 針對性優化:針對VMware特定的詞彙(如Tanzu、vSphere等)、技術術語和複合詞進行預訓練,解決了傳統BERT模型在這些方面的不足。
- 性能提升:在各種VMware特定的NLP下游任務(如信息檢索、分類等)基準測試中,得分高於'bert-base-uncased'模型。
📦 安裝指南
文檔未提及具體安裝步驟,可參考transformers
庫的官方文檔進行模型的安裝和使用。
📚 詳細文檔
模型信息
屬性 |
詳情 |
作者 |
R&D AI Lab, VMware Inc. |
模型日期 |
2022年4月 |
模型版本 |
2021-base |
模型類型 |
預訓練語言模型 |
許可證 |
Apache 2.0 |
動機
傳統的BERT模型在處理VMware特定的詞彙、技術術語和複合詞時存在困難(WordPiece分詞的弱點)。為了解決這些問題,我們使用BERT預訓練庫對vBERT模型進行了預訓練。我們將BERT詞彙表中前1000個未使用的標記替換為VMware特定的術語,創建了一個修改後的詞彙表。然後,在VMware領域的數據上對'bert-large-uncased'模型進行了額外66K步的預訓練(60k步使用MSL_128,6k步使用MSL_512)。
預期用途
該模型作為一個針對VMware特定場景的語言模型使用。
訓練
數據集
使用公開可用的VMware文本數據(如VMware文檔、博客等)創建預訓練語料庫,數據於2021年5月收集(約320,000個文檔)。
預處理
- 解碼HTML
- 解碼Unicode
- 去除重複字符
- 拆分複合詞
- 拼寫糾正
模型性能評估
我們在各種VMware特定的NLP下游任務(如信息檢索、分類等)上對vBERT進行了基準測試,該模型在所有基準測試中的得分均高於'bert-base-uncased'模型。
侷限性和偏差
由於該模型是在BERT模型的基礎上進行進一步預訓練的,因此可能存在與原始BERT模型相同的偏差。為了使模型性能達到最佳,數據需要使用我們內部的vNLP預處理器(未公開)進行預處理。
📄 許可證
本模型使用Apache 2.0許可證。