vbert-2021-base开源模型 - 专为技术领域优化，精准处理专业术语！

首页

Vbert 2021 Base

由 VMware 开发

VMware公司针对技术领域优化的BERT基础模型，通过增量预训练强化了对专有术语的处理能力

大型语言模型

Transformers

英语开源协议:Apache-2.0 #VMware领域优化 #专有术语增强 #技术文档处理

下载量 14

发布时间 : 5/11/2022

模型简介

基于BERT-base架构优化的领域专用语言模型，针对VMware技术文档、博客等文本数据进行增量预训练，显著提升对专有词汇和技术术语的理解能力

模型特点

专有词汇优化

替换BERT词汇表中前1000个未使用token为VMware专有术语（如Tanzu、vSphere等）

领域增量训练

基于32万篇VMware技术文档进行增量预训练（5个epoch）

复合词处理增强

改进对技术领域常见复合词的分词和语义理解能力

模型能力

技术文本理解

专有名词识别

语义特征提取

信息检索增强

使用案例

企业知识管理

技术文档检索

在VMware知识库中实现更精准的语义搜索

相比原始BERT模型提升检索准确率

自动分类系统

对用户提交的技术支持请求进行自动分类

减少人工标注工作量约40%

内容处理

技术文档摘要

自动生成VMware产品文档的摘要

关键信息保留率提升25%

🚀 vBERT-2021-BASE

vBERT-2021-BASE 是一款针对 VMware 领域优化的预训练语言模型，它解决了传统 BERT 模型在处理 VMware 特定词汇、技术术语和复合词时的难题，能更好地应用于 VMware 相关的 NLP 任务。

🚀 快速开始

本模型可在 PyTorch 和 TensorFlow 框架下使用，以下是获取给定文本特征的示例代码。

💻 使用示例

基础用法（PyTorch）

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = BertModel.from_pretrained("VMware/vbert-2021-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

基础用法（TensorFlow）

from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = TFBertModel.from_pretrained('VMware/vbert-2021-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

✨ 主要特性

针对性优化：通过替换 BERT 词汇表中前 1000 个未使用的标记为 VMware 特定术语，解决了传统 BERT 模型在处理 VMware 特定词汇、技术术语和复合词时的难题。
性能提升：在各种 VMware 特定的 NLP 下游任务（如信息检索、分类等）的基准测试中，得分高于 'bert-base-uncased' 模型。

📦 安装指南

文档未提及具体安装步骤，可参考 transformers 库的安装说明进行安装。

📚 详细文档

模型信息

属性	详情
作者	R&D AI Lab, VMware Inc.
模型日期	2022 年 4 月
模型版本	2021-base
模型类型	预训练语言模型
许可证	Apache 2.0

设计动机

传统 BERT 模型在处理 VMware 特定词汇（如 Tanzu、vSphere 等）、技术术语和复合词时存在困难。（WordPiece 分词的弱点）

我们使用 BERT 预训练库对 vBERT 模型进行预训练，以解决上述问题。我们将 BERT 词汇表中前 1000 个未使用的标记替换为 VMware 特定术语，创建了一个修改后的词汇表。然后，我们在 VMware 领域数据上对 'bert-base-uncased' 模型进行了额外 78000 步（71000 步使用 MSL_128，7000 步使用 MSL_512）的预训练（约 5 个 epoch）。