🚀 vBERT-2021-BASE
vBERT-2021-BASE 是一款针对 VMware 领域优化的预训练语言模型,它解决了传统 BERT 模型在处理 VMware 特定词汇、技术术语和复合词时的难题,能更好地应用于 VMware 相关的 NLP 任务。
🚀 快速开始
本模型可在 PyTorch 和 TensorFlow 框架下使用,以下是获取给定文本特征的示例代码。
💻 使用示例
基础用法(PyTorch)
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = BertModel.from_pretrained("VMware/vbert-2021-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
基础用法(TensorFlow)
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = TFBertModel.from_pretrained('VMware/vbert-2021-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
✨ 主要特性
- 针对性优化:通过替换 BERT 词汇表中前 1000 个未使用的标记为 VMware 特定术语,解决了传统 BERT 模型在处理 VMware 特定词汇、技术术语和复合词时的难题。
- 性能提升:在各种 VMware 特定的 NLP 下游任务(如信息检索、分类等)的基准测试中,得分高于 'bert-base-uncased' 模型。
📦 安装指南
文档未提及具体安装步骤,可参考 transformers
库的安装说明进行安装。
📚 详细文档
模型信息
属性 |
详情 |
作者 |
R&D AI Lab, VMware Inc. |
模型日期 |
2022 年 4 月 |
模型版本 |
2021-base |
模型类型 |
预训练语言模型 |
许可证 |
Apache 2.0 |
设计动机
传统 BERT 模型在处理 VMware 特定词汇(如 Tanzu、vSphere 等)、技术术语和复合词时存在困难。(WordPiece 分词的弱点)
我们使用 BERT 预训练库 对 vBERT 模型进行预训练,以解决上述问题。我们将 BERT 词汇表中前 1000 个未使用的标记替换为 VMware 特定术语,创建了一个修改后的词汇表。然后,我们在 VMware 领域数据上对 'bert-base-uncased' 模型进行了额外 78000 步(71000 步使用 MSL_128,7000 步使用 MSL_512)的预训练(约 5 个 epoch)。
预期用途
该模型作为特定于 VMware 的语言模型发挥作用。
训练情况
数据集
使用公开可用的 VMware 文本数据(如 VMware 文档、博客等)创建预训练语料库。数据于 2021 年 5 月收集,约有 320000 份文档。
预处理
- 解码 HTML
- 解码 Unicode
- 去除重复字符
- 拆分复合词
- 拼写校正
模型性能评估
我们在各种 VMware 特定的 NLP 下游任务(如信息检索、分类等)上对 vBERT 进行了基准测试。该模型在所有基准测试中的得分均高于 'bert-base-uncased' 模型。
局限性和偏差
由于该模型是在 BERT 模型的基础上进一步预训练的,因此可能存在与原始 BERT 模型相同的偏差。
为了使模型性能最大化,需要使用我们内部的 vNLP 预处理器(不对外公开)对数据进行预处理。
📄 许可证
本项目采用 Apache 2.0 许可证。