🚀 DA-Bert_Old_News_V1モデルカード
DA-Bert_Old_News_V1は、デンマークの絶対王政時代(1660年 - 1849年)の歴史的テキストで学習されたトランスフォーマーの最初のバージョンです。このモデルは、オールボー大学の研究者によって作成されました。その目的は、現代のデンマーク語とは異なる古いテキストから意味を捉えるためのドメイン固有のモデルを作成することです。
🚀 クイックスタート
以下のコードを使用して、このモデルを使い始めることができます。
✨ 主な機能
- ドメイン固有のマスクトークン予測
- 意味検索のための埋め込み抽出
- さらなる微調整
📦 インストール
インストールに関する詳細情報は提供されていません。
💻 使用例
基本的な使用法
高度な使用法
📚 ドキュメント
モデルの詳細
- 事前学習モデル:MLMタスクで事前学習されたBERTモデル
- 学習データ:ENO(Enevældens Nyheder Online) - 1762年から1848年までのデンマークとノルウェーの新聞記事、告知、広告のコーパス。約26億語のサブセットで学習されました。このデータは、特注のTranskribus Pylaiaモデルを使用して作成され、単語レベルで約5%の誤り率があります。
プロパティ |
詳細 |
モデルタイプ |
BERT |
学習データ |
ENO(Enevældens Nyheder Online) - 1762年から1848年までのデンマークとノルウェーの新聞記事、告知、広告のコーパス。約26億語のサブセットで学習されました。このデータは、特注のTranskribus Pylaiaモデルを使用して作成され、単語レベルで約5%の誤り率があります。 |
モデルの説明
モデルのソース
- リポジトリ:https://github.com/CALDISS-AAU/OldNewsBERT
- 論文:進行中
モデルの使用方法
直接使用
- このモデルは、ドメイン固有のマスクトークン予測にそのまま使用できます。
- 同様のデータに対する基本的な平均プーリング埋め込みにも使用できます。ただし、このモデルはトランスフォーマートレーナーフレームワークを使用してMLMタスクでのみ学習されているため、結果は異なる場合があります。
範囲外の使用
このモデルはENOデータセットで学習されているため、現代のデンマーク語テキストには使用できません。
バイアス、リスク、制限
このモデルは、学習データの歴史的期間に大きく制限されています。現代のデンマーク語や他のスカンジナビア諸語のマスクトークン予測にこのモデルを使用すると、モデルの性能は異なります。したがって、さらなる微調整が必要です。学習データは新聞からのものであり、このタイプの材料に対するバイアスと、特定の書き方がモデルに内在しています。新聞は文字通りの言語が多いため、比喩的な言語で定義される材料にこのモデルを使用すると、モデルの性能も異なります。コーパスの作成時のエラーに基づく小さなバイアスとリスクもモデルに存在します。前述のように、単語レベルで約5%の誤りがあり、これは事前学習モデルにも引き継がれます。これらのバイアスとリスクに対処するためのさらなる作業が予定されています。
推奨事項
このモデルは、古い世界観を表現する歴史的テキストに基づいています。これには、人種差別的、反民主的、家父長制的な感情が含まれます。このため、多くのユースケースには全く適していません。ただし、デンマークの歴史におけるこのようなバイアスを調査するために使用することができます。
学習の詳細
学習データ
学習データに関する詳細情報はまだ必要です。
学習手順
前処理
- 35文字未満のテキストは削除されました。
- 事前に決められた量のドイツ語、ラテン語、または稀な単語を含むテキストは削除されました。
- 余分な空白も削除されました。
学習ハイパーパラメータ
- 学習方式:詳細情報はまだ必要です。
- モデルは提供されたHPCシステムで約45時間学習されました。
- MLM確率は0.15に設定されました。
学習引数:
eval_strategy="steps",
overwrite_output_dir=True,
num_train_epochs=15,
per_device_train_batch_size=16,
gradient_accumulation_steps=4,
per_device_eval_batch_size=64,
logging_steps=500,
learning_rate=5e-5,
save_steps=1000,
save_total_limit=5,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
fp16=torch.cuda.is_available(),
warmup_steps=2000,
warmup_ratio=0.03,
weight_decay=0.01,
lr_scheduler_type="cosine",
dataloader_num_workers=4,
dataloader_pin_memory=True,
save_on_each_node=False,
ddp_find_unused_parameters=False,
optim="adamw_torch",
local_rank=local_rank,
評価
テストデータ、要因、メトリクス
テストデータ
テストデータに関する詳細情報はまだ必要です。
要因
要因に関する詳細情報はまだ必要です。
メトリクス
- 交差エントロピー損失。MLM学習を行うBERTでの標準的な使用法です。
- テストセットの平均損失
- パープレキシティ。損失値に基づいて計算されます。
結果
- 損失: 2.08
- テストセットの平均損失: 2.07
- パープレキシティ: 7.65
技術仕様
モデルアーキテクチャと目的
詳細情報はまだ提供されていません。
コンピュートインフラストラクチャ
デンマークの大学で利用可能なUcloudクラウドインフラストラクチャ
ハードウェア
- ハードウェアタイプ: 64 (Intel Xeon Gold 6326), 256 GBメモリ, 4 Nividia A10
- 使用時間: 44時間34分
- クラウドプロバイダー: Ucloud SDU
- コンピュートリージョン: 南デンマーク大学、オーアス大学、オールボー大学に基づくクラウドサービス
ソフトウェア
Python 3.12.8
引用
BibTeX
詳細情報はまだ必要です。
APA
詳細情報はまだ必要です。
モデルカードの作成者
- Matias Appel (mkap@adm.aau.dk)
- Johan Heinsen (heinsen@dps.aau.dk)
モデルカードの連絡先
CALDISS, AAU: www.caldiss.aau.dk