rugpt3mediumロシア語事前学習モデル - オープンソースで1024シーケンスをサポート、大量データによる訓練で超実用的！

ホーム

Rugpt3medium Based On Gpt2

ai-foreverによって開発

GPT-2アーキテクチャに基づくロシア語事前学習言語モデルで、SberDevicesチームによって開発され、1024のシーケンス長をサポートし、訓練データ量は800億トークンに達します。

大規模言語モデル

Transformers

その他#ロシア語生成 #長文モデリング #大規模モデル事前学習

ダウンロード数 9,710

リリース時間 : 3/2/2022

モデル概要

このモデルはロシア語事前学習Transformer言語モデルで、主にロシア語テキスト生成と理解タスクに使用されます。

モデル特徴

大規模事前学習

モデルは800億トークンのロシア語データで事前学習されており、強力な言語理解能力を持っています。

長シーケンスサポート

1024のシーケンス長をサポートし、後続の微調整で2048トークンのコンテキストウィンドウに拡張可能です。

効率的な訓練

64個のGPUでわずか16日間で訓練を完了し、効率的な訓練能力を示しています。

モデル能力

ロシア語テキスト生成

ロシア語テキスト理解

使用事例

自然言語処理

ロシア語テキスト生成

ロシア語の記事、対話などのテキストコンテンツを生成するために使用できます。

ロシア語言語理解

ロシア語テキスト分類、感情分析などのタスクに使用できます。

プロパティ	詳細
モデルタイプ	rugpt3medium_based_on_gpt2
学習データ	800億トークン
学習時間	64台のGPUで約16日間
テストセットのパープレキシティ	`17.4`

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Rugpt3medium Based On Gpt2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 rugpt3medium_based_on_gpt2

🚀 クイックスタート

📚 ドキュメント

著者

引用方法