bert-base-en-casedオープンソース英語基礎モデル - ウィキペディアのデータを基に訓練され、無料で利用可能

ホーム

Bert Base En Cased

Geotrendによって開発

ウィキペディアのデータセットを使って訓練された英語版の基礎BERTモデルで、bert-base-multilingual-casedのカスタマイズされた小規模版です。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #英語BERT #高精度表現 #軽量カスタマイズ

ダウンロード数 13

リリース時間 : 3/2/2022

モデル概要

このモデルはBERTの基礎アーキテクチャの英語専用版で、英語のテキストタスクの処理に特化しており、元のモデルが生成する表現を完全に再現できます。

モデル特徴

多言語の簡略版

bert-base-multilingual-casedをベースにカスタマイズ開発され、元の精度を維持しながら規模を縮小しています。

表現の一致性

元のBERTモデルが生成する表現を完全に再現できます。

軽量化

完全な多言語版と比べて、リソースの占有量が少ないです。

モデル能力

テキストマスク予測

言語表現生成

文脈理解

使用事例

テキスト補完

文章補完

文章中のマスクされた単語を予測します。

例：「パリは[MASK]の首都」 → 「フランス」と予測されます。

言語理解

文脈分析

テキストの文脈関係を理解します。

🚀 bert-base-en-cased

bert-base-multilingual-cased のカスタム言語数に対応した小型バージョンを公開しています。このモデルは、元のモデルが生成する表現と全く同じものを提供し、元の精度を維持します。

🚀 クイックスタート

このモデルは、bert-base-multilingual-cased の小型バージョンで、カスタム言語数に対応しています。通常の distilbert-base-multilingual-cased とは異なり、元のモデルが生成する表現を正確に再現し、元の精度を維持します。詳細については、論文を参照してください。

✨ 主な機能

カスタム言語数に対応した bert-base-multilingual-cased の小型バージョン。
元のモデルと同じ表現を生成し、精度を維持。

📦 インストール

このモデルは、Hugging Faceの transformers ライブラリを使用して簡単にインストールできます。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("Geotrend/bert-base-en-cased")
model = AutoModel.from_pretrained("Geotrend/bert-base-en-cased")

高度な使用法

多言語トランスフォーマーの他の小型バージョンを生成するには、GitHubリポジトリを参照してください。

📚 ドキュメント

詳細な情報については、論文を参照してください。

引用方法

@inproceedings{smallermbert,
  title={Load What You Need: Smaller Versions of Mutlilingual BERT},
  author={Abdaoui, Amine and Pradel, Camille and Sigel, Grégoire},
  booktitle={SustaiNLP / EMNLP},
  year={2020}
}