GPT2ベースのrugpt3smallオープンソースロシア語言語モデル - 長シーケンステキスト処理をサポート

ホーム

Rugpt3small Based On Gpt2

ai-foreverによって開発

SberDevicesチームによって開発されたロシア語事前学習Transformer言語モデル。GPT2アーキテクチャを基盤とし、1024シーケンス長をサポート、800億トークンのトレーニングデータを使用。

大規模言語モデルその他#ロシア語生成 #長文処理 #効率的な事前学習

ダウンロード数 46.92k

リリース時間 : 3/2/2022

モデル概要

このモデルはロシア語に最適化された事前学習言語モデルで、GPT2アーキテクチャに基づき設計されています。大規模なロシア語コーパスでトレーニングされ、長文生成や理解タスクをサポートします。

モデル特徴

ロシア語最適化

ロシア語の言語特性に特化して最適化されたトレーニング

長シーケンスサポート

1024シーケンス長をサポートし、微調整により2048コンテキストウィンドウまで拡張可能

効率的なトレーニング

32GPUで約1週間でトレーニングを完了

モデル能力

ロシア語テキスト生成

長文理解

言語モデリング

使用事例

自然言語処理

ロシア語テキスト生成

一貫性のあるロシア語テキストコンテンツを生成

言語モデル研究

ロシア語NLP研究のベースラインモデルとして

Property	Details
Model Type	rugpt3small_based_on_gpt2
Training Data	80B tokens
Tags	PyTorch, Transformers
Thumbnail	https://github.com/sberbank-ai/ru-gpts

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Rugpt3small Based On Gpt2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 rugpt3small_based_on_gpt2

📚 ドキュメント

著者

引用