vbert-2021-base開源模型 - 專為技術領域優化，精準處理專業術語！

Home

Vbert 2021 Base

Developed by VMware

VMware公司針對技術領域優化的BERT基礎模型，通過增量預訓練強化了對專有術語的處理能力

大型語言模型

Transformers

EnglishOpen Source License:Apache-2.0 #VMware領域優化 #專有術語增強 #技術文檔處理

Downloads 14

Release Time : 5/11/2022

Model Overview

基於BERT-base架構優化的領域專用語言模型，針對VMware技術文檔、博客等文本數據進行增量預訓練，顯著提升對專有詞彙和技術術語的理解能力

Model Features

專有詞彙優化

替換BERT詞彙表中前1000個未使用token為VMware專有術語（如Tanzu、vSphere等）

領域增量訓練

基於32萬篇VMware技術文檔進行增量預訓練（5個epoch）

複合詞處理增強

改進對技術領域常見覆合詞的分詞和語義理解能力

Model Capabilities

技術文本理解

專有名詞識別

語義特徵提取

信息檢索增強

Use Cases

企業知識管理

技術文檔檢索

在VMware知識庫中實現更精準的語義搜索

相比原始BERT模型提升檢索準確率

自動分類系統

對用戶提交的技術支持請求進行自動分類

減少人工標註工作量約40%

內容處理

技術文檔摘要

自動生成VMware產品文檔的摘要

關鍵信息保留率提升25%

🚀 vBERT-2021-BASE

vBERT-2021-BASE 是一款針對 VMware 領域優化的預訓練語言模型，它解決了傳統 BERT 模型在處理 VMware 特定詞彙、技術術語和複合詞時的難題，能更好地應用於 VMware 相關的 NLP 任務。

🚀 快速開始

本模型可在 PyTorch 和 TensorFlow 框架下使用，以下是獲取給定文本特徵的示例代碼。

💻 使用示例

基礎用法（PyTorch）

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = BertModel.from_pretrained("VMware/vbert-2021-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

基礎用法（TensorFlow）

from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = TFBertModel.from_pretrained('VMware/vbert-2021-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

✨ 主要特性

針對性優化：通過替換 BERT 詞彙表中前 1000 個未使用的標記為 VMware 特定術語，解決了傳統 BERT 模型在處理 VMware 特定詞彙、技術術語和複合詞時的難題。
性能提升：在各種 VMware 特定的 NLP 下游任務（如信息檢索、分類等）的基準測試中，得分高於 'bert-base-uncased' 模型。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 transformers 庫的安裝說明進行安裝。

📚 詳細文檔

模型信息

屬性	詳情
作者	R&D AI Lab, VMware Inc.
模型日期	2022 年 4 月
模型版本	2021-base
模型類型	預訓練語言模型
許可證	Apache 2.0

設計動機

傳統 BERT 模型在處理 VMware 特定詞彙（如 Tanzu、vSphere 等）、技術術語和複合詞時存在困難。（WordPiece 分詞的弱點）

我們使用 BERT 預訓練庫對 vBERT 模型進行預訓練，以解決上述問題。我們將 BERT 詞彙表中前 1000 個未使用的標記替換為 VMware 特定術語，創建了一個修改後的詞彙表。然後，我們在 VMware 領域數據上對 'bert-base-uncased' 模型進行了額外 78000 步（71000 步使用 MSL_128，7000 步使用 MSL_512）的預訓練（約 5 個 epoch）。