Llammasオープンソース対話モデル - エストニア語に対応し、無料で多言語間の知識交流を実現

Home

Llammas

Developed by tartuNLP

LlammasはLlama-2-7Bモデルをエストニア語に適応させたオープンソース対話モデルで、2段階のトレーニングによりクロスランゲージ知識転移を実現

大規模言語モデル

Transformers

Supports Multiple Languages#エストニア語の命令ファインチューニング #クロスランゲージ知識転移 #低リソース言語適応

Downloads 400

Release Time : 11/29/2023

Model Overview

このモデルは継続的な事前学習と命令ファインチューニングによりエストニア語に特化しており、バイリンガル対話、テキスト生成、命令追従タスクをサポート

Model Features

バイリンガルサポート

エストニア語に最適化されつつ英語能力を保持し、バイリンガル混在使用をサポート

クロスランゲージ知識転移

英語の高品質命令データによるファインチューニングでエストニア語のパフォーマンス向上

対話最適化

複数ソースの対話データセットを統合し、マルチターン対話と命令追従能力を最適化

Model Capabilities

バイリンガルテキスト生成

マルチターン対話

命令追従

常識推論

翻訳補助

Use Cases

教育

言語学習アシスタント

エストニア語を学ぶ学生の対話練習とライティング指導を支援

言語慣習に沿ったフィードバックと提案を提供

ビジネス

バイリンガルカスタマーサポート

エストニア語と英語の顧客問い合わせを処理

専門的で文脈に合った返答を自動生成

🚀 LLammas 🐑

このモデルは、エストニア語向けに2段階でLlama - 2 - 7Bを命令調整したものです。

継続的な事前学習：CulturaXの50億トークンを使用し、文書の75％がエストニア語、25％が英語です（Llammas-baseを参照）。
命令調整：Alpaca-cleaned、Alpaca-est、OASST1の上位1英語会話、CoTおよびFLAN - V2（open - instructに従って、両方とも10,000）、WMT18英語 - エストニア語翻訳開発データ（文書として）、一般的なMTee検証用英語 - エストニア語ホールドアウトデータ。

Alpaca-estは、Alpacaに従ってgpt - 3.5 - turbo - 0613を使用してエストニア語用に生成された命令データセットです。詳細は、我々の論文を参照してください。

追加リソース

論文: https://aclanthology.org/2024.findings-naacl.210/
コード: github.com/TartuNLP/llammas
ベースモデル: tartuNLP/Llammas-base
GGUF形式の4ビット量子化モデル: AlbertUnn/LlammasGGUF
Alpaca-estデータセット: github.com/TartuNLP/alpaca-est

📚 ドキュメント

プロパティ	詳細
言語	エストニア語、英語
パイプラインタグ	テキスト生成
ライブラリ名	transformers
タグ	会話型
ベースモデル	tartuNLP/Llammas-base

💻 使用例

基本的な使用法

テキスト生成パイプラインでモデルを使用する場合：

from transformers import pipeline
import torch

pipe = pipeline("text-generation", model="tartuNLP/Llammas", torch_dtype=torch.bfloat16, device_map="auto")

messages = [
    {"role": "user", "content": "Tere!"},
    {"role": "assistant", "content": "Tere! Kas saaksin teid kuidagi aidata?"},
    {"role": "user", "content": "Kuidas alustada kirja kirjutamist?"}
]

prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.6, top_k=50, top_p=0.9)
print(outputs[0]["generated_text"][len(prompt):])

高度な使用法

会話型パイプラインでモデルを使用する場合（transformers==4.36.2で動作し、新しいバージョンでは出力に問題があります）：

from transformers import pipeline, Conversation
import torch

pipe = pipeline("conversational", model="tartuNLP/Llammas", torch_dtype=torch.bfloat16, device_map="auto")

messages = [
    {"role": "user", "content": "Tere!"},
    {"role": "assistant", "content": "Tere! Kas saaksin teid kuidagi aidata?"},
    {"role": "user", "content": "Kuidas alustada kirja kirjutamist?"}
]

conversation = Conversation(messages)
conversation = pipe(conversation)

会話形式

<|user|>
Tere!
<|assistant|>
Tere! Kas saaksin teid kuidagi aidata?</s>
<|user|>
Kuidas alustada kirja kirjutamist?
<|assistant|>
Kirja kirjutamiseks alustage tervitusega, näiteks "Tere!" või "Tere hommikust!". Seejärel tutvustage ennast ja mainige, kellega kirjutate. Kirjeldage oma mõtteid või küsimusi, mida soovite arutada. Lõpetage kiri viisakalt, näiteks "Tänan teid tähelepanu eest!" või "Parimate soovidega!"</s>

📄 引用

@inproceedings{kuulmets-etal-2024-teaching,
    title = "Teaching Llama a New Language Through Cross-Lingual Knowledge Transfer",
    author = "Kuulmets, Hele-Andra  and
      Purason, Taido  and
      Luhtaru, Agnes  and
      Fishel, Mark",
    editor = "Duh, Kevin  and
      Gomez, Helena  and
      Bethard, Steven",
    booktitle = "Findings of the Association for Computational Linguistics: NAACL 2024",
    month = jun,
    year = "2024",
    address = "Mexico City, Mexico",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.findings-naacl.210",
    doi = "10.18653/v1/2024.findings-naacl.210",
    pages = "3309--3325",
    abstract = "This paper explores cost-efficient methods to adapt pretrained Large Language Models (LLMs) to new lower-resource languages, with a specific focus on Estonian. Leveraging the Llama 2 model, we investigate the impact of combining cross-lingual instruction-tuning with additional monolingual pretraining. Our results demonstrate that even a relatively small amount of additional monolingual pretraining followed by cross-lingual instruction-tuning significantly enhances results on Estonian. Furthermore, we showcase cross-lingual knowledge transfer from high-quality English instructions to Estonian, resulting in improvements in commonsense reasoning and multi-turn conversation capabilities. Our best model, named Llammas, represents the first open-source instruction-following LLM for Estonian. Additionally, we publish Alpaca-est, the first general task instruction dataset for Estonia. These contributions mark the initial progress in the direction of developing open-source LLMs for Estonian.",
}