オープンソースのpolka-1.1bテキスト生成モデル - ポーランド語と英語の両言語に対応し、質の高いテキスト出力を提供

ホーム

Polka 1.1b

eryk-mazusによって開発

polka-1.1bはTinyLlama-1.1Bモデルを基に、57億のポーランド語トークンで追加事前学習を行ったバイリンガル（ポーランド語と英語）テキスト生成モデルです。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #ポーランド語最適化 #バイリンガル生成 #高効率トークナイザー

ダウンロード数 174

リリース時間 : 1/6/2024

モデル概要

このモデルはTinyLlamaのトークナイザー語彙を43,882トークンに拡張し、ポーランド語テキスト生成の効率を向上させました。主にテキスト生成タスクに使用され、ポーランド語コンテンツ作成に特に適しています。

モデル特徴

高効率ポーランド語生成

トークナイザー語彙の拡張と専門的なトレーニングにより、ポーランド語テキスト生成の品質を大幅に向上

バイリンガルサポート

ポーランド語と英語の両方をサポートし、バイリンガルアプリケーションに適しています

軽量アーキテクチャ

わずか1.1Bパラメータ規模で、性能を維持しながら計算リソース要件を低減

モデル能力

ポーランド語テキスト生成

英語テキスト生成

バイリンガルテキスト継続

使用事例

コンテンツ作成

ポーランド語記事継続

冒頭段落に基づいて一貫性のあるポーランド語記事コンテンツを自動生成

生成されたコンテンツは文脈的に一貫し、ポーランド語文法規則に準拠

教育アプリケーション

ポーランド語学習支援

ポーランド語学習教材と練習テキストを生成

🚀 polka-1.1b

polka-1.1b は TinyLlama-1.1B モデルをベースに、追加で57億のポーランド語トークンで事前学習を続けることで強化されています。これらのトークンは主に MADLAD-400 データセットから取得され、DSIR を使用してポーランド語と英語のシャードを10:1の比率でサンプリングしています。さらに、PolkaはTinyLlamaトークナイザーの語彙を43,882トークンに拡張し、ポーランド語テキストの生成効率を向上させています。

学習は、DeepSpeed ZeRO-2を使用した単一の8 x RTX 4090マシンで680GPU時間かかりました。

コンテキストサイズは2,048トークンです。

image/png

🚀 クイックスタート

このモデルは、ポーランド語と英語のテキスト生成に特化しています。以下のサンプルコードを参考に、簡単に利用することができます。

✨ 主な機能

ポーランド語強化：追加のポーランド語トークンで事前学習を行い、ポーランド語の生成能力を向上。
トークナイザー拡張：語彙を拡張し、ポーランド語テキストの生成効率を改善。
コンテキストサイズ：2,048トークンのコンテキストサイズをサポート。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。

pip install torch transformers

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "eryk-mazus/polka-1.1b"

tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
tokenizer.pad_token = tokenizer.eos_token

model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", load_in_8bit=True)

prompt = """Przykładowe zapytanie do modelu"""

model_inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
with torch.no_grad():
  generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512,
    do_sample=True,
    penalty_alpha=0.6,
    top_k=5
  )

output = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(output)

📚 ドキュメント

注意事項

このベースモデルは当初、命令微調整の基礎として開発され、polka-1.1b-chat が生まれました。しかし、比較的良好な性能と効率的なバイリンガルトークナイザーの組み合わせに潜在的な価値があると考え、コミュニティと共有しています。

このモデルは首尾一貫したポーランド語テキストを生成することができますが、サイズの制限から、幻覚現象が発生する可能性があります。

評価

PolEval-2018

モデル	パープレキシティ
meta-llama/Llama-2-7b-hf	24.3
meta-llama/Llama-2-13b-hf	21.4
mistralai/Mistral-7B-v0.1	21.4
TinyLlama/TinyLlama-1.1B	40.4
sdadas/polish-gpt2-small	134.4
sdadas/polish-gpt2-medium	100.8
sdadas/polish-gpt2-large	93.2
sdadas/polish-gpt2-xl	94.1
Azurro/APT3-275M-Base	129.8
Azurro/APT3-500M-Base	153.1
Azurro/APT3-1B-Base	106.8
eryk-mazus/polka-1.1b	18.1
szymonrucinski/Curie-7B-v1	13.5
OPI-PG/Qra-1b	14.7

長文ドキュメント (2024)

現在、LLMは数千トークンのコンテキストをサポートしており、実際のアプリケーションでは長文ドキュメントの処理も一般的です。したがって、PolEval-2018のような文ベースのデータセットでパープレキシティを評価することは意味がない場合があります。さらに、PolEvalコーパスは過去数年間インターネット上で公開されているため、一部のモデルの学習セットがこのデータに汚染されている可能性があります。このため、2024年にのみ公開された長文論文からなる新しいコレクションを用意し、学習時にモデルが利用できなかった新しい知識に対するパープレキシティをより信頼性高くテストすることができます。このコーパスは、数百から約20,000トークンの5,000のドキュメントで構成されています。セットの半分は2024年2月のポーランドのニュースポータルの報道テキストで、残りの半分は2024年1月以降に公開された科学論文です。ほとんどのドキュメントは評価対象のモデルのコンテキストサイズを超えています。これらのドキュメントのパープレキシティを計算するために、この例に従って、モデルのコンテキスト長と同じサイズのチャンクに分割し、ストライドを512トークンに設定しました。

モデル	コンテキスト	パープレキシティ
meta-llama/Llama-2-7b-hf	4096	5.9
meta-llama/Llama-2-13b-hf	4096	5.3
mistralai/Mistral-7B-v0.1	4096	4.9
TinyLlama/TinyLlama-1.1B	2048	9.6
sdadas/polish-gpt2-small	2048	27.3
sdadas/polish-gpt2-medium	2048	20.3
sdadas/polish-gpt2-large	1536	18.0
sdadas/polish-gpt2-xl	1536	16.6
Azurro/APT3-275M-Base	2048	77.0
Azurro/APT3-500M-Base	2048	50.5
Azurro/APT3-1B-Base	2048	19.1
eryk-mazus/polka-1.1b	2048	6.9
szymonrucinski/Curie-7B-v1	4096	4.8
OPI-PG/Qra-1b	4096	6.1