DUOオープンソース事前学習モデル - 自然言語処理に使用され、マスク言語モデリングを無料で行えます

ホーム

Duo

s-sahooによって開発

DUOはTransformersライブラリに基づく事前学習モデルで、マスク言語モデリングタスクに特化しており、自然言語処理分野に適用されます。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #マスク言語モデリング #拡散ペア技術 #長文テキスト処理

ダウンロード数 212

リリース時間 : 2/18/2025

モデル概要

DUOモデルはマスク言語モデリング用の事前学習モデルで、GPT2 - mediumと似たパラメータ規模を持ち、OpenWebTextコーパスで学習されています。

モデル特徴

大きなコンテキスト長

1024のコンテキスト長をサポートし、長文テキストタスクの処理に適しています。

効率的な学習

OpenWebTextコーパスで100万ステップの学習を行い、モデルの性能を最適化しました。

GPT2 - mediumと似た規模

パラメータ規模はGPT2 - mediumに近く、約1.3億個の非埋め込みパラメータです。

モデル能力

マスク言語モデリング

テキスト生成

自然言語理解

使用事例

自然言語処理

テキスト補完

マスク言語モデリング能力を使って欠けているテキスト部分を補完します。

言語モデルの微調整

ベースモデルとして、特定のタスクの微調整に使用できます。

🚀 Transformers

Transformersライブラリを使用した事前学習モデルで、マスク言語モデリングを行うことができます。

🚀 クイックスタート

事前学習済みモデルをマスク言語モデリングに使用するには、以下のコードスニペットを使用します。

from transformers import AutoModelForMaskedLM, AutoTokenizer

# See the `MDLM` collection page on the hub for list of available models.
tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model = AutoModelForMaskedLM.from_pretrained('s-sahoo/duo')

実際の使用例については、このColabノートブックを参照してください。詳細情報と実装の詳細については、私たちのGitHubリポジトリを訪問してください: DUO

✨ 主な機能

このモデルは、コンテキスト長が 1024 で、約 1億3000万 の非埋め込みパラメータを持つGPT2-mediumと同程度のサイズです。OpenWebTextコーパスで100万ステップのトレーニングを行っています。詳細については、以下の論文を参照してください: The Diffusion Duality

📚 ドキュメント

引用

モデルを紹介する論文やブログ記事がある場合、そのAPAおよびBibtex情報はこのセクションに記載します。以下のBibtexを使用して、私たちの研究を引用してください。 BibTeX:

@inproceedings{
sahoo2025the,
title={The Diffusion Duality},
author={Subham Sekhar Sahoo and Justin Deschenaux and Aaron Gokaslan and Guanghan Wang and Justin T Chiu and Volodymyr Kuleshov},
booktitle={ICLR 2025 Workshop on Deep Generative Model in Machine Learning: Theory, Principle and Efficacy},
year={2025},
url={https://openreview.net/forum?id=CB0Ub2yXjC}
}