duo - distilledオープンソーステキスト生成モデル - マスク言語モデリングに無料で使用でき、性能が卓越しています！

ホーム

Duo Distilled

s-sahooによって開発

DUOはテキスト生成用の事前学習モデルで、マスク言語モデリングタスクに使用でき、OpenWebTextコーパスで訓練され、良好な性能を持っています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #マスク言語モデリング #テキスト生成 #OpenWebTextでの訓練

ダウンロード数 98.21k

リリース時間 : 4/13/2025

モデル概要

DUOは拡散ペア性に基づく事前学習モデルで、主にテキスト生成タスクに使用され、特にマスク言語モデリングに長けています。

モデル特徴

効率的な蒸留

蒸留技術を採用し、性能を維持しながらモデル規模を縮小します

長文脈処理

1024トークンの文脈長をサポートします

オープンデータでの訓練

OpenWebTextコーパスを使用して訓練されます

モデル能力

テキスト生成

マスク言語モデリング

使用事例

テキスト生成

自動補完

文脈に基づいて一貫したテキストを自動生成します

テキスト修復

欠落または誤りのある部分を含むテキストを修復します

🚀 DUO

DUOは、事前学習されたマスク言語モデルで、自然言語処理タスクに利用できます。

🚀 クイックスタート

事前学習済みのマスク言語モデルを使用するには、以下のコードを使用します。

from transformers import AutoModelForMaskedLM, AutoTokenizer

# See the `MDLM` collection page on the hub for list of available models.
tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model = AutoModelForMaskedLM.from_pretrained('s-sahoo/duo-distilled')

実践的な例については、このColabノートブックを確認してください。詳細情報と実装の詳細については、私たちのGitHubリポジトリを訪問してください：DUO

💻 使用例

基本的な使用法

from transformers import AutoModelForMaskedLM, AutoTokenizer

# See the `MDLM` collection page on the hub for list of available models.
tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model = AutoModelForMaskedLM.from_pretrained('s-sahoo/duo-distilled')

📚 ドキュメント

モデルの詳細

このモデルは、コンテキスト長が 1024 で、GPT2-mediumと同程度のサイズで、約 1億3000万 の非埋め込みパラメータを持ち、OpenWebTextコーパスで100万ステップの学習を行っています。詳細については、私たちの論文を参照してください：The Diffusion Duality。プロジェクトページ: https://s-sahoo.com/duo

引用

以下のBibTeXを使用して、私たちの研究を引用してください： BibTeX:

@inproceedings{
sahoo2025the,
title={The Diffusion Duality},
author={Subham Sekhar Sahoo and Justin Deschenaux and Aaron Gokaslan and Guanghan Wang and Justin T Chiu and Volodymyr Kuleshov},
booktitle={ICLR 2025 Workshop on Deep Generative Model in Machine Learning: Theory, Principle and Efficacy},
year={2025},
url={https://openreview.net/forum?id=CB0Ub2yXjC}
}