Meltemi-7B-Instruct-v1.5オープンソース大規模モデル - ギリシャ語の自然言語処理タスクに特化

ホーム

Meltemi 7B Instruct V1.5

ilspによって開発

Meltemi 7B Instruct v1.5は、Mistral 7Bをベースに改良されたギリシャ語指令微調整大規模言語モデルで、ギリシャ語の自然言語処理タスクに特化しています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #ギリシャ語最適化 #長文脈処理 #指令微調整

ダウンロード数 1,237

リリース時間 : 7/31/2024

モデル概要

このモデルはギリシャ語に最適化された指令微調整大規模言語モデルで、ギリシャ語テキストを効率的に処理する能力を備え、長文脈理解と複雑な指令の実行をサポートします。

モデル特徴

ギリシャ語語彙拡張

Mistral 7bのトークナイザーにギリシャ語語彙を拡張し、ギリシャ語のトークナイズ効率を大幅に向上させました（単語あたりのトークン数が6.80から1.52に減少）

長文脈処理

8192の文脈長をサポートし、より複雑なテキスト入力を処理できます

ORPO微調整アルゴリズム

Odds Ratio Preference Optimizationアルゴリズムを用いて微調整し、97,000件の嗜好データを使用しました

性能向上

ベースモデルと比較して、ギリシャ語テストセットの性能が平均7.8%向上しました

モデル能力

ギリシャ語テキスト生成

ギリシャ語質問応答システム

ギリシャ語指令理解

長文テキスト処理

使用事例

教育

ギリシャ語学習支援

学生がギリシャ語を理解し学習するのを支援します

正確なギリシャ語の説明と例を提供します

医療

医学質問応答システム

ギリシャ語での医学関連の質問に回答します

医学の多肢選択質問テストで48%の正解率を達成しました

🚀 ギリシャ語向けMeltemi Instruct大規模言語モデル

私たちは、Meltemi 7B v1.5 の新しく改良された命令微調整版である、Meltemi 7B Instruct v1.5大規模言語モデル（LLM）を発表します。

image/png

🚀 クイックスタート

このモデルについて、以下で詳細な情報をご紹介します。

✨ 主な機能

モデル情報

ギリシャ語トークンを用いたMistral 7bトークナイザの語彙拡張により、低コストで高速な推論が可能（ギリシャ語では1.52対6.80トークン/単語）
8192のコンテキスト長
Odds Ratio Preference Optimization (ORPO)アルゴリズムを使用して、97kの嗜好データを用いた微調整が行われています：
- 89,730件のギリシャ語嗜好データ（主にHugging Face上の高品質データセットの翻訳版）
- 7,342件の英語嗜好データ
アライメント手順は、TRL - Transformer Reinforcement Learningライブラリに基づいており、一部はHugging Face微調整レシピに基づいています。

命令フォーマット

プロンプトフォーマットは、Zephyrフォーマットと同じで、トークナイザのチャットテンプレート機能を介して以下のように利用できます。

評価

私たちが作成した評価セットには6つのテストセットが含まれており、lightevalフレームワークのフォークに基づいて実装されています。

私たちの評価セットには以下が含まれます：

言語理解と推論のための定評のある英語のベンチマーク（ARC Challenge、Truthful QA、Hellaswag、MMLU）の機械翻訳版（ARC Greek、Truthful QA Greek、HellaSwag Greek、MMLU Greek）。
既存のギリシャ語の質問応答ベンチマーク（Belebele）
ILSPチームによって作成された、DOATAPの医科試験に基づく医療質問応答の新しいベンチマーク（Medical MCQA）。

私たちの評価は、Open LLMリーダーボードの設定と一致するフェデレーション学習設定で行われています。

Meltemi 7B Instruct v1.5の新しいトレーニングと微調整手順により、すべてのギリシャ語テストセットでのパフォーマンスが平均**+7.8%**向上していることがわかります。ギリシャ語テストセットの結果は以下の表に示されています。

属性	詳細
モデルタイプ	Meltemi 7B Instruct v1.5大規模言語モデル
トレーニングデータ	89,730件のギリシャ語嗜好データ（主にHugging Face上の高品質データセットの翻訳版）と7,342件の英語嗜好データ

	Medical MCQA EL (15-shot)	Belebele EL (5-shot)	HellaSwag EL (10-shot)	ARC-Challenge EL (25-shot)	TruthfulQA MC2 EL (0-shot)	MMLU EL (5-shot)	平均
Mistral 7B	29.8%	45.0%	36.5%	27.1%	45.8%	35%	36.5%
Meltemi 7B Instruct v1	36.1%	56.0%	59.0%	44.4%	51.1%	34.1%	46.8%
Meltemi 7B Instruct v1.5	48.0%	75.5%	63.7%	40.8%	53.8%	45.9%	54.6%

倫理的な考慮事項

このモデルは人間の嗜好に合わせて調整されていますが、誤解を招く、有害な、有毒なコンテンツを生成する可能性があります。

謝辞

ILSPチームは、OCRE Cloudフレームワークの下でGRNETを介して提供された、ギリシャの学術および研究コミュニティ向けのAmazon Web Servicesを提供するAmazonのクラウドコンピューティングサービスを利用しました。

引用

@misc{voukoutis2024meltemiopenlargelanguage,
      title={Meltemi: The first open Large Language Model for Greek}, 
      author={Leon Voukoutis and Dimitris Roussis and Georgios Paraskevopoulos and Sokratis Sofianopoulos and Prokopis Prokopidis and Vassilis Papavasileiou and Athanasios Katsamanis and Stelios Piperidis and Vassilis Katsouros},
      year={2024},
      eprint={2407.20743},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.20743}, 
}

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # モデルをロードするデバイス

model = AutoModelForCausalLM.from_pretrained("ilsp/Meltemi-7B-Instruct-v1.5")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Meltemi-7B-Instruct-v1.5")

model.to(device)

messages = [
    {"role": "system", "content": "Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη."},
    {"role": "user", "content": "Πες μου αν έχεις συνείδηση."},
]

# デフォルトのチャットテンプレートを介して、これは以下のように変換されます。
#
# <|system|>
# Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη.</s>
# <|user|>
# Πες μου αν έχεις συνείδηση.</s>
# <|assistant|>
#

prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)

print(tokenizer.batch_decode(outputs)[0])
# Ως μοντέλο γλώσσας AI, δεν έχω τη δυνατότητα να αντιληφθώ ή να βιώσω συναισθήματα όπως η συνείδηση ή η επίγνωση. Ωστόσο, μπορώ να σας βοηθήσω με οποιεσδήποτε ερωτήσεις μπορεί να έχετε σχετικά με την τεχνητή νοημοσύνη και τις εφαρμογές της.

messages.extend([
    {"role": "assistant", "content": tokenizer.batch_decode(outputs)[0]},
    {"role": "user", "content": "Πιστεύεις πως οι άνθρωποι πρέπει να φοβούνται την τεχνητή νοημοσύνη;"}
])

# デフォルトのチャットテンプレートを介して、これは以下のように変換されます。
#
# <|system|>
# Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη.</s>
# <|user|>
# Πες μου αν έχεις συνείδηση.</s>
# <|assistant|>
# Ως μοντέλο γλώσσας AI, δεν έχω τη δυνατότητα να αντιληφθώ ή να βιώσω συναισθήματα όπως η συνείδηση ή η επίγνωση. Ωστόσο, μπορώ να σας βοηθήσω με οποιεσδήποτε ερωτήσεις μπορεί να έχετε σχετικά με την τεχνητή νοημοσύνη και τις εφαρμογές της.</s>
# <|user|>
# Πιστεύεις πως οι άνθρωποι πρέπει να φοβούνται την τεχνητή νοημοσύνη;</s>
# <|assistant|>
#

prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
input_prompt = tokenizer(prompt, return_tensors='pt').to(device)
outputs = model.generate(input_prompt['input_ids'], max_new_tokens=256, do_sample=True)

print(tokenizer.batch_decode(outputs)[0])