🚀 vBERT-2021-LARGE
vBERT-2021-LARGE是一款针对VMware特定场景优化的预训练语言模型,有效解决了传统BERT模型在处理VMware相关专业词汇、技术术语和复合词时的难题,提升了在VMware领域NLP任务中的表现。
🚀 快速开始
你可以按照以下步骤使用vBERT-2021-LARGE模型获取给定文本的特征。
PyTorch环境
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-large')
model = BertModel.from_pretrained("VMware/vbert-2021-large")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
TensorFlow环境
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-large')
model = TFBertModel.from_pretrained('VMware/vbert-2021-large')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
✨ 主要特性
- 针对性优化:针对VMware特定的词汇(如Tanzu、vSphere等)、技术术语和复合词进行预训练,解决了传统BERT模型在这些方面的不足。
- 性能提升:在各种VMware特定的NLP下游任务(如信息检索、分类等)基准测试中,得分高于'bert-base-uncased'模型。
📦 安装指南
文档未提及具体安装步骤,可参考transformers
库的官方文档进行模型的安装和使用。
📚 详细文档
模型信息
属性 |
详情 |
作者 |
R&D AI Lab, VMware Inc. |
模型日期 |
2022年4月 |
模型版本 |
2021-base |
模型类型 |
预训练语言模型 |
许可证 |
Apache 2.0 |
动机
传统的BERT模型在处理VMware特定的词汇、技术术语和复合词时存在困难(WordPiece分词的弱点)。为了解决这些问题,我们使用BERT预训练库对vBERT模型进行了预训练。我们将BERT词汇表中前1000个未使用的标记替换为VMware特定的术语,创建了一个修改后的词汇表。然后,在VMware领域的数据上对'bert-large-uncased'模型进行了额外66K步的预训练(60k步使用MSL_128,6k步使用MSL_512)。
预期用途
该模型作为一个针对VMware特定场景的语言模型使用。
训练
数据集
使用公开可用的VMware文本数据(如VMware文档、博客等)创建预训练语料库,数据于2021年5月收集(约320,000个文档)。
预处理
- 解码HTML
- 解码Unicode
- 去除重复字符
- 拆分复合词
- 拼写纠正
模型性能评估
我们在各种VMware特定的NLP下游任务(如信息检索、分类等)上对vBERT进行了基准测试,该模型在所有基准测试中的得分均高于'bert-base-uncased'模型。
局限性和偏差
由于该模型是在BERT模型的基础上进行进一步预训练的,因此可能存在与原始BERT模型相同的偏差。为了使模型性能达到最佳,数据需要使用我们内部的vNLP预处理器(未公开)进行预处理。
📄 许可证
本模型使用Apache 2.0许可证。