🚀 EUBERT
EUBERTは、ヨーロッパの出版物に関する膨大なコーパスで学習された事前学習済みのBERTモデルです。様々な自然言語処理タスクに微調整可能で、テキスト分類や質問応答などの幅広いアプリケーションに役立ちます。
🚀 クイックスタート
このモデルは、Hugging FaceのTransformersライブラリを使用して簡単に利用できます。以下のコード例を参考にして、モデルをロードして使用してください。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("EuropeanParliament/EUBERT")
model = AutoModel.from_pretrained("EuropeanParliament/EUBERT")
input_text = "これはサンプルのテキストです。"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model(**inputs)
✨ 主な機能
- 多言語対応:バルガリア語、チェコ語、デンマーク語など、24種類のヨーロッパ言語に対応しています。
- 汎用性:テキスト分類、質問応答、言語理解など、様々な自然言語処理タスクに適用可能です。
- 大規模コーパスでの学習:過去30年間のヨーロッパの出版物の文書を使用して学習されており、幅広いトピックとドメインをカバーしています。
📦 インストール
このモデルを使用するには、Hugging FaceのTransformersライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("EuropeanParliament/EUBERT")
model = AutoModel.from_pretrained("EuropeanParliament/EUBERT")
input_text = "これはサンプルのテキストです。"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model(**inputs)
高度な使用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer = AutoTokenizer.from_pretrained("EuropeanParliament/EUBERT")
model = AutoModelForSequenceClassification.from_pretrained("EuropeanParliament/EUBERT", num_labels=2)
input_text = "これはポジティブなテキストです。"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_id = logits.argmax().item()
📚 ドキュメント
モデル概要
属性 |
详情 |
モデル名 |
EUBERT |
モデルバージョン |
1.1 |
リリース日 |
2023年10月16日 |
モデルアーキテクチャ |
BERT (Bidirectional Encoder Representations from Transformers) |
学習データ |
European Publications Officeに登録された文書 |
モデルのユースケース |
テキスト分類、質問応答、言語理解 |
モデルの説明
EUBERTは、European Publications Officeに登録された膨大な文書コーパスで学習された事前学習済みのBERTアンケースモデルです。これらの文書は過去30年間に及び、幅広いトピックやドメインを網羅した包括的なデータセットを提供します。EUBERTは、様々な自然言語処理タスクに微調整可能な汎用的な言語モデルとして設計されており、さまざまなアプリケーションにとって貴重なリソースとなります。
想定される用途
EUBERTは、より具体的な自然言語理解モデルを構築するための出発点として機能します。その汎用性から、以下のような幅広いタスクに適しています。
- テキスト分類:EUBERTは、テキスト文書を異なるカテゴリに分類するために微調整できるため、感情分析、トピック分類、スパム検出などのアプリケーションに役立ちます。
- 質問応答:質問応答データセットでEUBERTを微調整することで、テキスト文書から回答を抽出するために使用でき、情報検索や文書要約などのタスクを容易にします。
- 言語理解:EUBERTは、固有表現認識、品詞タグ付け、テキスト生成などの一般的な言語理解タスクに使用できます。
パフォーマンス
EUBERTの具体的なパフォーマンス指標は、下流タスクや微調整に使用される学習データの品質と量によって異なります。ユーザーは、特定のタスクでモデルを微調整し、それに応じてパフォーマンスを評価することをお勧めします。
考慮事項
- データプライバシーとコンプライアンス:ユーザーは、EUBERTの使用がすべての関連するデータプライバシーとコンプライアンス規制に準拠していることを確認する必要があります。特に、機密情報や個人識別情報を扱う場合には注意が必要です。
- 微調整:EUBERTの特定のタスクでの有効性は、学習データの品質と量、および微調整プロセスに依存します。最適な結果を得るためには、注意深い実験と評価が不可欠です。
- バイアスと公平性:ユーザーは、学習データに潜在的なバイアスが存在することを認識し、特定のタスクでEUBERTを微調整する際にバイアスを軽減するための適切な措置を講じる必要があります。
🔧 技術詳細
トレーニング手順
専用のWord Pieceトークナイザの語彙サイズは2**16です。
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 5e-05
- トレーニングバッチサイズ: 32
- 評価バッチサイズ: 32
- シード: 42
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラのタイプ: 線形
- エポック数: 1.85
フレームワークのバージョン
- Transformers 4.33.3
- Pytorch 2.0.1+cu117
- Datasets 2.14.5
- Tokenizers 0.13.3
インフラストラクチャ
- ハードウェアタイプ: 4 x GPUs 24GB
- GPU日数: 16
- クラウドプロバイダ: EuroHPC
- コンピュートリージョン: Meluxina
📄 ライセンス
このモデルに関するライセンス情報は、公式リポジトリを参照してください。
作者
Sébastien Campion sebastien.campion@europarl.europa.eu