🚀 Latxa-Llama-3.1-70B-Instruct-FP8
Latxa 3.1 70B Instructは、メタのLLaMAモデルをベースにした大規模言語モデルで、バスク語のデータに特化して訓練され、バスク語のデジタル開発を促進することを目的としています。
🚀 クイックスタート
以下のコードを使用して、モデルを使用することができます。
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-70B-Instruct-FP8')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
✨ 主な機能
- バスク語特化: バスク語のデータに対して最適化された大規模言語モデルです。
- 高い性能: バスク語の標準ベンチマークで、Llama-3.1-Instructを大きく上回る性能を発揮します。
- チャット対応: チャット会話にも適しており、ユーザーの質問に適切に応答します。
📦 インストール
このモデルはtransformers
ライブラリを使用して動作します。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-70B-Instruct-FP8')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
📚 ドキュメント
モデルの詳細
モデルの説明
Latxaは、メタのLLaMAモデルをベースにした大規模言語モデル(LLM)のファミリーです。現在のLLMは、英語などの高リソース言語では信じられないほどの性能を発揮しますが、バスク語やその他の低リソース言語の場合、その性能はランダムな推測に近くなります。これらの制限は、デジタル開発において高リソース言語と低リソース言語の間のギャップを広げます。私たちは、これらの制限を克服し、バスク語のLLMベースの技術と研究の開発を促進するためにLatxaを提案しています。Latxaモデルは、元のモデルと同じアーキテクチャを持ち、Latxa Corpus v1.1という高品質のバスク語コーパスでさらに訓練されています。
属性 |
詳情 |
開発者 |
HiTZ Research Center & IXA Research group (University of the Basque Country UPV/EHU) |
モデルタイプ |
言語モデル |
言語 |
eu |
ライセンス |
llama3.1 |
親モデル |
meta-llama/Llama-3.1-70B-Instruct |
連絡先 |
hitz@ehu.eus |
用途
Latxaモデルは、バスク語のデータで使用することを想定しています。他の言語での性能は保証されていません。元のモデルと同様に、LatxaはLlama-3.1 Licenseを継承しており、商用および研究用途が許可されています。
直接的な使用
Latxa Instructモデルは、指示に従うように訓練されており、チャットアシスタントとしても機能します。
範囲外の使用
このモデルは、他人を害したり、人権を侵害したりするなどの悪意のある活動には使用されることを想定していません。すべての下流アプリケーションは、現行の法律と規制に準拠する必要があります。適切なリスク評価と軽減策なしに本番環境で無責任に使用することも推奨されません。
バイアス、リスク、および制限
潜在的に不快または有害なコンテンツを軽減するために、Latxaは慎重に選択され処理されたデータで訓練されています。このデータは主に地元のメディア、全国/地域の新聞、百科事典、ブログから収集されています(Latxa Corpus v1.1を参照)。しかし、このモデルはLlama 3.1モデルをベースにしているため、同じバイアス、リスク、および制限を持つ可能性があります。詳細については、Llamaの倫理的配慮と制限事項を参照してください。
評価
私たちは、モデルを複数選択タスクの5-shot設定で評価しました。各データセットのバスク語のパーティションを使用しました。アリーナの結果は、将来公開されます。
テストデータ、要因、およびメトリクス
テストデータ
- Belebele (Bandarkar et al.):Belebeleは、122の言語バリアントにまたがる複数選択式の機械読解(MRC)データセットです。私たちは、このモデルを5-shot方式で評価しました。
- データカード: https://huggingface.co/datasets/facebook/belebele
- X-StoryCloze (Lin et al.):XStoryClozeは、英語のStoryClozeデータセットを10の非英語言語に専門家によって翻訳したものです。Story Clozeは、4文の物語の正しい結末を選ぶことからなる常識推論データセットです。私たちは、このモデルを5-shot方式で評価しました。
- データカード: https://huggingface.co/datasets/juletxara/xstory_cloze
- EusProficiency (Etxaniz et al., 2024):EusProficiencyは、過去のEGA試験のさまざまなトピックに関する5,169の問題から構成されています。これは、バスク語の公式のC1レベルの能力証明書です。
- データカード: https://huggingface.co/datasets/HiTZ/EusProficiency
- EusReading (Etxaniz et al., 2024):EusReadingは、同じ過去のEGA試験セットから採取された352の読解問題から構成されています。
- データカード: https://huggingface.co/datasets/HiTZ/EusReading
- EusTrivia (Etxaniz et al., 2024):EusTriviaは、複数のオンラインソースから収集された1,715の雑学問題から構成されています。問題の56.3%は初等レベル(3 - 6年生)で、残りは難問と見なされています。
- データカード: https://huggingface.co/datasets/HiTZ/EusTrivia
- EusExams (Etxaniz et al., 2024):EusExamsは、バスクのいくつかの機関(公的医療システムのOsakidetza、バスク政府、ビルバオとガスティスの市議会、バスク大学(UPV/EHU)など)が実施する公務員試験の準備をするために設計されたテストのコレクションです。
- データカード: https://huggingface.co/datasets/HiTZ/EusExams
メトリクス
複数選択問題として構成されているため、私たちは正解率を使用しています。
結果
タスク |
Llama-3.1 8B Instruct |
Latxa 3.1 8B Instruct |
Llama-3.1 70B Instruct |
Latxa 3.1 70B Instruct |
Belebele |
73.89 |
80.00 |
89.11 |
91.00 |
X-Story Cloze |
61.22 |
71.34 |
69.69 |
77.83 |
EusProficiency |
34.13 |
52.83 |
43.59 |
68.00 |
EusReading |
49.72 |
62.78 |
72.16 |
78.98 |
EusTrivia |
45.01 |
61.05 |
62.51 |
74.17 |
EusExams |
46.21 |
56.00 |
63.28 |
71.56 |
環境への影響
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定することができます。
- ハードウェアタイプ: HPCクラスター、4 x A100 64Gbノード x64
- 使用時間(総GPU時間): 16005.12h
- クラウドプロバイダー: CINECA HPC
- コンピュートリージョン: イタリア
- 排出された炭素: 1901.41kg CO2 eq
謝辞
この研究は、バスク政府(IKER - GAITUプロジェクト)によって部分的に支援されています。
また、デジタル変革と公務省 - EUによる資金提供 - NextGenerationEUの枠組み内で、参照番号2022/TL22/00215335のプロジェクトによっても部分的に支援されています。
これらのモデルは、EuroHPC Joint UndertakingのプロジェクトEHPC - EXT - 2023E01 - 013の下で、CINECAのLeonardoスーパーコンピューターで訓練されました。
引用
近日公開予定です。
その間は、以下を参照できます。
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
⚠️ 重要提示
これは、元のLatxa 3.1 70B InstructのFP8量子化バージョンです。
⚠️ 重要提示
このモデルはまだ開発中です。
さらなる訓練の詳細は、近い将来、対応する研究論文とともに公開されます。