vbert - 2021 - baseオープンソースモデル - 技術分野向けに最適化され、専門用語を正確に処理！

ホーム

Vbert 2021 Base

VMwareによって開発

VMware社が技術分野向けに最適化したBERT基本モデル。増分事前学習により専門用語の処理能力を強化

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #VMware領域最適化 #専門用語強化 #技術文書処理

ダウンロード数 14

リリース時間 : 5/11/2022

モデル概要

BERT-baseアーキテクチャを基にドメイン特化型言語モデルとして最適化。VMwareの技術文書やブログなどのテキストデータで増分事前学習を実施し、専門用語や技術用語の理解能力を大幅に向上

モデル特徴

専門用語最適化

BERTの語彙表中、使用頻度の低いトークン1000個をVMware専門用語（Tanzu、vSphereなど）に置換

ドメイン増分学習

32万件のVMware技術文書を用いて増分事前学習を実施（5エポック）

複合語処理強化

技術分野で頻出する複合語のトークン化と意味理解能力を改善

モデル能力

技術テキスト理解

固有名詞認識

意味特徴抽出

情報検索強化

使用事例

企業ナレッジマネジメント

技術文書検索

VMwareナレッジベースでより正確な意味検索を実現

オリジナルBERTモデルに比べ検索精度向上

自動分類システム

ユーザーが提出した技術サポートリクエストを自動分類

手動ラベリング作業量を約40%削減

コンテンツ処理

技術文書要約

VMware製品ドキュメントの自動要約生成

キー情報保持率25%向上

🚀 vBERT-2021-BASE

vBERT-2021-BASEは、VMware固有の単語や技術用語に対応した事前学習済み言語モデルです。VMwareのドメインデータを使用して事前学習されており、VMware固有のNLPタスクで高い性能を発揮します。

🚀 クイックスタート

このモデルを使用して、与えられたテキストの特徴を取得する方法を説明します。

PyTorchでの使用方法

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = BertModel.from_pretrained("VMware/vbert-2021-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

TensorFlowでの使用方法

from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('VMware/vbert-2021-base')
model = TFBertModel.from_pretrained('VMware/vbert-2021-base')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

✨ 主な機能

VMware固有の単語や技術用語に対応した事前学習済み言語モデル
VMwareのドメインデータを使用して事前学習されている
VMware固有のNLPタスクで高い性能を発揮する

📦 インストール

このモデルは、transformersライブラリを使用して簡単にインストールできます。以下のコマンドを実行してください。

pip install transformers

📚 ドキュメント

モデル情報

項目	詳細
著者	R&D AI Lab, VMware Inc.
モデル作成日	2022年4月
モデルバージョン	2021-base
モデルタイプ	事前学習済み言語モデル
ライセンス	Apache 2.0

開発動機

従来のBERTモデルは、VMware固有の単語（Tanzu、vSphereなど）、技術用語、および複合語に対応するのが困難です。（Weaknesses of WordPiece Tokenization）

私たちは、BERT Pretraining Libraryを使用して、上記の問題を解決するためにvBERTモデルを事前学習させました。BERTの語彙の最初の1kの未使用トークンをVMware固有の用語に置き換えて、修正された語彙を作成しました。その後、'bert-base-uncased'モデルをVMwareドメインデータでさらに78Kステップ（MSL_128で71k、MSL_512で7k）（約5エポック）事前学習させました。