vbert-2021-large开源模型 - 针对技术文档与术语优化，免费定制超实用

首页

Vbert 2021 Large

由 VMware 开发

VMware研发的定制化BERT模型，针对技术文档和专有术语优化

大型语言模型

Transformers

英语开源协议:Apache-2.0 #VMware术语优化 #企业级NLP #技术文档处理

下载量 14

发布时间 : 5/11/2022

模型简介

基于BERT-large架构的预训练语言模型，专门优化了VMware领域术语处理能力

模型特点

领域术语优化

替换词汇表中1000个未使用标记为VMware专有术语（如Tanzu、vSphere等）

复合词处理增强

改进对技术复合词的分词和处理能力

增量训练

在原始BERT-large基础上进行66,000步领域适应训练

模型能力

文本理解

信息检索

文本分类

技术术语处理

使用案例

企业技术文档处理

技术文档分类

对VMware产品文档进行自动分类

性能优于标准BERT-base模型

知识库检索

增强企业知识库的语义搜索能力

🚀 vBERT-2021-LARGE

vBERT-2021-LARGE是一款针对VMware特定场景优化的预训练语言模型，有效解决了传统BERT模型在处理VMware相关专业词汇、技术术语和复合词时的难题，提升了在VMware领域NLP任务中的表现。

🚀 快速开始

你可以按照以下步骤使用vBERT-2021-LARGE模型获取给定文本的特征。

PyTorch环境

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-large')
model = BertModel.from_pretrained("VMware/vbert-2021-large")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

TensorFlow环境

from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-large')
model = TFBertModel.from_pretrained('VMware/vbert-2021-large')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

✨ 主要特性

针对性优化：针对VMware特定的词汇（如Tanzu、vSphere等）、技术术语和复合词进行预训练，解决了传统BERT模型在这些方面的不足。
性能提升：在各种VMware特定的NLP下游任务（如信息检索、分类等）基准测试中，得分高于'bert-base-uncased'模型。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的官方文档进行模型的安装和使用。

📚 详细文档

模型信息

属性	详情
作者	R&D AI Lab, VMware Inc.
模型日期	2022年4月
模型版本	2021-base
模型类型	预训练语言模型
许可证	Apache 2.0

动机

传统的BERT模型在处理VMware特定的词汇、技术术语和复合词时存在困难（WordPiece分词的弱点）。为了解决这些问题，我们使用BERT预训练库对vBERT模型进行了预训练。我们将BERT词汇表中前1000个未使用的标记替换为VMware特定的术语，创建了一个修改后的词汇表。然后，在VMware领域的数据上对'bert-large-uncased'模型进行了额外66K步的预训练（60k步使用MSL_128，6k步使用MSL_512）。