Curie-7B-v1オープンソースモデル - 無料デプロイでポーランド語テキスト生成とNLPタスクをサポート

ホーム

Curie 7B V1

szymonrucinskiによって開発

Curie-7B-v1は英語の大規模言語モデル（LLMs）を微調整してポーランド語テキスト生成に適用したモデルで、ポーランド語テキスト生成や複数のNLPタスクで優れた性能を発揮します。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #ポーランド語生成 #低データ効率 #マルチタスク適応

ダウンロード数 26

リリース時間 : 1/11/2024

モデル概要

このモデルは高品質なポーランド語データセットで言語適応事前学習（LAPT）を行い、KLEJチャレンジで微調整することで、ポーランド語テキストを生成する最高のデコーダモデルの一つとなりました。

モデル特徴

効率的な言語適応事前学習

通常必要なデータ量のわずか2-3%を使用し、複数のポーランド語NLPタスクでほぼ最高のベースラインモデルに近い性能を発揮します。

高品質なポーランド語生成

3.02のパープレキシティで、デコーダモデルの中でポーランド語テキストを生成する最高のモデルとなりました。

多機能アプリケーション

分類器、回帰器、AIアシスタントに変換可能で、さまざまなポーランド語NLPタスクに適用できます。

モデル能力

ポーランド語テキスト生成

自然言語処理タスク

テキスト分類

感情分析

固有表現認識

使用事例

自然言語処理

ポーランド語テキスト生成

高品質なポーランド語テキストを生成し、コンテンツ作成や翻訳支援などのシナリオに適用できます。

パープレキシティ3.02で、生成テキストの品質が高いです。

感情分析

ポーランド語テキストの感情傾向を分析し、ソーシャルメディア監視や顧客フィードバック分析などに適用できます。

PolEmo2.0-INタスクで92.7の精度を達成しました。

固有表現認識

ポーランド語テキスト中の固有表現を認識し、情報抽出や知識グラフ構築などに適用できます。

NKJP-NERタスクで93.4の精度を達成しました。

🚀 Curie-7B-v1

この研究は、英語の大規模言語モデル（LLM）をポーランド語のテキスト生成に微調整する可能性を示しています。3.11GB（2億7600万のポーランド語トークン）の高品質データセットで言語適応事前学習（LAPT）を行い、その後KLEJチャレンジで微調整することで、Curie-7B-v1モデルは卓越した性能を達成しました。デコーダベースのモデルの中で最低のパープレキシティ3.02でポーランド語テキストを生成するだけでなく、9つのタスクのうち8つで最小の性能差で、最良のポーランド語エンコーダ・デコーダモデルに匹敵する性能を発揮します。これは通常必要なデータセットサイズの約2 - 3％を使用して達成され、この方法の効率性を示しています。現在、このモデルはオープンソースとなっており、コミュニティの協調的な進歩に貢献しています。

🚀 クイックスタート

このセクションでは、Curie-7B-v1モデルの概要とその性能について説明します。

✨ 主な機能

英語の大規模言語モデルをポーランド語のテキスト生成に微調整することで、高い性能を達成。
デコーダベースのモデルの中で最低のパープレキシティでポーランド語テキストを生成。
通常必要なデータセットサイズの約2 - 3％で、多くのタスクで最良のポーランド語エンコーダ・デコーダモデルに匹敵する性能を発揮。

📚 ドキュメント

言語適応事前学習データセット

LAPTフェーズでは、SpeakLeashデータセットを利用しました。これはポーランド語テキストの包括的なコレクションで、元の1TBから約2GBの最高品質の抽出物に焦点を当てています。

ハードウェアとソフトウェアスタック

実験は、48GBのVRAMを持つNVIDIA RTX A6000 ADA GPU、AMD Epyc 7742プロセッサを搭載し、UbuntuとPytorch 2.0、CUDA 12.2を実行するサーバーで行われました。

適応事前学習

モデルはAdamWオプティマイザを使用してトレーニングされ、特定のハイパーパラメータを使用して性能を最適化しました。トレーニングは1エポックで完了し、合計106時間かかりました。これを超えると過学習が始まることが示されました。

ハイパーパラメータ

lora_rank: 32
lora_dropout: 0.05
lora_alpha: 16
warmup_steps: 0.1
learning_rate: 2.5 x 10^-5
neftune_noise_alpha: 2
batch_size: 128
max_seq_len: 128

KLEJ下流タスクの微調整

Curie-7B-v1は、大幅に少ないデータを使用して、9つのKLEJタスクのうち8つで最良のベースラインモデルに非常に近い性能を達成しました。これは、ポーランド語の様々な自然言語処理タスクを処理する際の効率性と能力を示しています。

性能のハイライト

NKJP-NER: 93.4
CDSC-E: 92.2
CDSC-R: 94.9
CBD: 49.0（改善の余地があることを示しています）
PolEmo2.0-IN: 92.7
PolEmo2.0-OUT: 80.0
DYK: 76.2
PSC: 98.6
AR: 86.8

結論

Curie-7B-v1モデルは、LAPTを通じて、大幅に少ないデータで8つの下流タスクで基礎モデルと同等の性能を達成します。ポーランド語テキストを生成する際の汎用性と、分類器、回帰器、AIアシスタントに変換できる能力は、この方法の有効性を強調しています。このオープンソースのポーランド語LLMは、効率的なビジネスソリューションを開発するための基盤を提供します。