🚀 kobart-base-v2 モデルカード
BART(双方向および自己回帰型トランスフォーマー)は、入力テキストの一部にノイズを追加し、それを元のテキストに戻す オートエンコーダ
の形式で学習されます。韓国語版のBART(以下 KoBART)は、論文で使用された Text Infilling
ノイズ関数を使用して、40GB以上の韓国語テキストに対して学習された韓国語の エンコーダ - デコーダ
言語モデルです。これにより導き出された KoBART-base
を公開します。
🚀 クイックスタート
以下のコードを使用して、モデルを開始できます。
クリックして展開
from transformers import PreTrainedTokenizerFast, BartModel
tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')
✨ 主な機能
このモデルは、特徴抽出タスクに使用できます。
📦 インストール
ドキュメントにインストール手順は記載されていません。
📚 ドキュメント
モデルの詳細
- 開発者: 詳細情報が必要です
- 共有者 [オプション]: Heewon(Haven) Jeon
- モデルタイプ: 特徴抽出
- 言語 (NLP): 韓国語
- ライセンス: MIT
- 親モデル: BART
- 詳細情報のリソース:
使用方法
直接使用
このモデルは、特徴抽出タスクに使用できます。
下流の使用 [オプション]
詳細情報が必要です。
範囲外の使用
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはいけません。
バイアス、リスク、制限事項
多くの研究が、言語モデルのバイアスと公平性の問題を調査しています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。このモデルによって生成される予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザー(直接および下流の両方)は、このモデルのリスク、バイアス、および制限事項を認識する必要があります。さらなる推奨事項の詳細情報が必要です。
トレーニングの詳細
トレーニングデータ
データ |
文数 |
韓国語ウィキ |
500万 |
その他のコーパス |
2億7000万 |
韓国語ウィキペディア以外に、ニュース、書籍、모두의 말뭉치 v1.0(会話、ニュース、 ...)、青瓦台国民請願 などのさまざまなデータがモデルのトレーニングに使用されました。
語彙
サイズは30,000で、会話でよく使われる以下のような顔文字、絵文字などを追加して、該当トークンの認識能力を向上させました。
😀, 😁, 😆, 😅, 🤣, .. , :-)
, :)
, -)
, (-:
...
トレーニング手順
トークナイザー
tokenizers
パッケージの Character BPE tokenizer
で学習されました。
速度、サイズ、時間
モデル |
パラメータ数 |
タイプ |
レイヤー数 |
ヘッド数 |
ffn_dim |
隠れ次元 |
KoBART-base |
1億2400万 |
エンコーダ |
6 |
16 |
3072 |
768 |
|
|
デコーダ |
6 |
16 |
3072 |
768 |
評価
テストデータ、要因、メトリクス
テストデータ
詳細情報が必要です。
要因
詳細情報が必要です。
メトリクス
詳細情報が必要です。
結果
NSMC
モデルの作成者は、GitHubリポジトリ でも述べています。
モデル調査
詳細情報が必要です。
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
- ハードウェアタイプ: 詳細情報が必要です
- 使用時間: 詳細情報が必要です
- クラウドプロバイダー: 詳細情報が必要です
- コンピュートリージョン: 詳細情報が必要です
- 排出された炭素量: 詳細情報が必要です
技術仕様 [オプション]
モデルアーキテクチャと目的
詳細情報が必要です。
コンピュートインフラストラクチャ
ハードウェア
詳細情報が必要です。
ソフトウェア
詳細情報が必要です。
引用
BibTeX:
詳細情報が必要です。
用語集 [オプション]
詳細情報が必要です。
詳細情報 [オプション]
詳細情報が必要です。
モデルカード作成者 [オプション]
Heewon(Haven) Jeon が Ezi Ozoani および Hugging Face チームと協力して作成しました。
モデルカードの連絡先
モデルの作成者は、GitHubリポジトリ で述べています。
KoBART
関連の問題は こちら に投稿してください。
📄 ライセンス
このモデルは MIT ライセンスの下で提供されています。