🚀 roberta-news
このモデルは、サイズ、アーキテクチャ、トークナイザーアルゴリズム、およびマスク付き言語モデリングの目的を共有する点で、roberta-baseに似ています。
🚀 クイックスタート
このモデルは、HuggingFaceのパイプラインを使って以下のように利用できます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='andyreas/roberta-gen-news')
>>> print(unmasker("The weather forecast for <mask> is rain.", top_k=5))
[{'score': 0.06107175350189209,
'token': 1083,
'token_str': ' Friday',
'sequence': 'The weather forecast for Friday is rain.'},
{'score': 0.04649643227458,
'token': 1359,
'token_str': ' Saturday',
'sequence': 'The weather forecast for Saturday is rain.'
},
{'score': 0.04370906576514244,
'token': 1772,
'token_str': ' weekend',
'sequence': 'The weather forecast for weekend is rain.'},
{'score': 0.04101456701755524,
'token': 1133,
'token_str': ' Wednesday',
'sequence': 'The weather forecast for Wednesday is rain.'},
{'score': 0.03785591572523117,
'token': 1234,
'token_str': ' Sunday',
'sequence': 'The weather forecast for Sunday is rain.'}]
✨ 主な機能
このモデルは、roberta-baseと同じサイズ、アーキテクチャ、トークナイザーアルゴリズム、およびマスク付き言語モデリングの目的を持ち、ニュースのみからなるデータセットを使用してゼロから事前学習されています。
📦 インストール
ドキュメントにインストール手順に関する具体的な内容が記載されていないため、このセクションを省略します。
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='andyreas/roberta-gen-news')
>>> print(unmasker("The weather forecast for <mask> is rain.", top_k=5))
[{'score': 0.06107175350189209,
'token': 1083,
'token_str': ' Friday',
'sequence': 'The weather forecast for Friday is rain.'},
{'score': 0.04649643227458,
'token': 1359,
'token_str': ' Saturday',
'sequence': 'The weather forecast for Saturday is rain.'
},
{'score': 0.04370906576514244,
'token': 1772,
'token_str': ' weekend',
'sequence': 'The weather forecast for weekend is rain.'},
{'score': 0.04101456701755524,
'token': 1133,
'token_str': ' Wednesday',
'sequence': 'The weather forecast for Wednesday is rain.'},
{'score': 0.03785591572523117,
'token': 1234,
'token_str': ' Sunday',
'sequence': 'The weather forecast for Sunday is rain.'}]
📚 ドキュメント
モデルの説明
このモデルは、roberta-baseと同じサイズ、アーキテクチャ、トークナイザーアルゴリズム、およびマスク付き言語モデリングの目的を共有しています。RobertaForMaskedLMモデルのパラメータはランダムに初期化され、ニュースのみからなるデータセットを使用してゼロから事前学習されています。
学習データ
このモデルの学習データは、約90のメディアから収集された約13,000,000の英語記事で構成されており、各記事は見出し(タイトル)とサブヘッダー(説明)で構成されています。記事はSciride News Mineから収集され、重複する記事や見出しの前後に表示される繰り返しの「メディアタグ」(例:"| Daily Mail Online")を削除するなど、データのクリーニングが行われました。
クリーニングされたデータセットは、huggingfaceのこちらで見ることができます。roberta-newsは、データを少し再パックして急な切り捨てを避けた後、リンク先のデータセットの大部分(12,928,029 / 13,118,041)で事前学習されました。
学習
学習は、学習率2e-5で約3エポック行われ、約2450Kの総ステップのうち50Kのウォームアップステップが使用されました。
バイアス
他のモデルと同様に、roberta-newsも学習に使用されたデータに応じたバイアスの影響を受けます。
🔧 技術詳細
ドキュメントに技術的な詳細に関する具体的な内容が記載されていないため、このセクションを省略します。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。