🚀 HiTZ/Latxa-Llama-3.1-8B-Instruct
このモデルは、Latxa の指示付きバージョンであるLatxa 3.1 8B Instructを紹介します。この新しいLatxaはLlama-3.1 (Instruct) をベースに、高品質のバスク語コーパスであるLatxa Corpus v1.1 を使用して訓練されています。バスク語の標準ベンチマークやチャット会話で、Llama-3.1-Instructを大きく上回る性能を発揮します。
🚀 クイックスタート
以下のコードを使用して、モデルを使い始めましょう。
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-8B-Instruct')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
✨ 主な機能
- Latxaは、MetaのLLaMAモデルをベースにした大規模言語モデル (LLM) のファミリーです。
- バスク語やその他の低リソース言語に対する性能を向上させ、デジタル開発における高リソース言語と低リソース言語のギャップを縮小します。
- バスク語の標準ベンチマークやチャット会話で、Llama-3.1-Instructを大きく上回る性能を発揮します。
📚 ドキュメント
モデルの詳細
モデルの説明
Latxaは、MetaのLLaMAモデルをベースにした大規模言語モデル (LLM) のファミリーです。現在のLLMは、英語などの高リソース言語に対しては信じられないほどの性能を発揮しますが、バスク語やその他の低リソース言語の場合、その性能はランダムな推測に近くなります。これらの制限は、デジタル開発において高リソース言語と低リソース言語の間のギャップを広げます。我々は、これらの制限を克服し、バスク語に対するLLMベースの技術と研究の開発を促進するためにLatxaを提案します。Latxaモデルは、元のモデルと同じアーキテクチャを持ち、高品質のバスク語コーパスであるLatxa Corpus v1.1 でさらに訓練されています。
- 開発者: HiTZ Research Center & IXA Research group (University of the Basque Country UPV/EHU)
- モデルの種類: 言語モデル
- 言語 (NLP): eu
- ライセンス: llama3.1
- 親モデル: meta-llama/Llama-3.1-8B-Instruct
- 連絡先: hitz@ehu.eus
モデルの使用
直接的な使用
Latxa Instructモデルは、指示に従うため、またはチャットアシスタントとして機能するように訓練されています。
範囲外の使用
このモデルは、他人を害したり、人権を侵害したりするなどの悪意のある活動には使用されることを意図していません。すべての下流アプリケーションは、現行の法律と規制に準拠しなければなりません。また、適切なリスク評価と緩和策を行わずに本番環境で無責任に使用することも推奨されません。
バイアス、リスク、および制限
潜在的に不快または有害なコンテンツを軽減するために、Latxaは主に地元メディア、全国/地域の新聞、百科事典、ブログから収集された、慎重に選択および処理されたデータで訓練されています (詳細はLatxa Corpus v1.1 を参照)。ただし、このモデルはLlama 3.1モデルをベースにしているため、同じバイアス、リスク、および制限を持つ可能性があります。詳細については、Llamaの倫理的考慮事項と制限を参照してください。
評価
テストデータ、要因、および指標
テストデータ
- Belebele (Bandarkar et al.): Belebeleは、122の言語バリアントにまたがる多肢選択式の機械読解 (MRC) データセットです。このモデルは5-shot方式で評価されました。
- データカード: https://huggingface.co/datasets/facebook/belebele
- X-StoryCloze (Lin et al.): XStoryClozeは、英語のStoryClozeデータセットを10の非英語言語に専門的に翻訳したものです。Story Clozeは、4文の物語の正しい結末を選ぶ常識推論データセットです。このモデルは5-shot方式で評価されました。
- データカード: https://huggingface.co/datasets/juletxara/xstory_cloze
- EusProficiency (Etxaniz et al., 2024): EusProficiencyは、過去のEGA試験 (バスク語の公式C1レベルの能力証明書) のさまざまなトピックに関する5,169の演習問題で構成されています。
- データカード: https://huggingface.co/datasets/HiTZ/EusProficiency
- EusReading (Etxaniz et al., 2024): EusReadingは、同じ過去のEGA試験セットから抽出された352の読解演習問題 (irakurmena) で構成されています。
- データカード: https://huggingface.co/datasets/HiTZ/EusReading
- EusTrivia (Etxaniz et al., 2024): EusTriviaは、複数のオンラインソースから収集された1,715の雑学問題で構成されています。問題の56.3%は初等レベル (3 - 6年生) で、残りは難問とされています。
- データカード: https://huggingface.co/datasets/HiTZ/EusTrivia
- EusExams (Etxaniz et al., 2024): EusExamsは、バスクのいくつかの機関 (公共衛生システムのOsakidetza、バスク政府、ビルバオとガスティスの市議会、バスク大学 (UPV/EHU) など) が実施する公務員試験の準備をするために設計されたテストのコレクションです。
- データカード: https://huggingface.co/datasets/HiTZ/EusExams
指標
多肢選択問題として構成されているため、Accuracyを使用しています。
結果
タスク |
Llama-3.1 8B Instruct |
Latxa 3.1 8B Instruct |
Llama-3.1 70B Instruct |
Latxa 3.1 70B Instruct |
Belebele |
73.89 |
80.00 |
89.11 |
91.00 |
X-Story Cloze |
61.22 |
71.34 |
69.69 |
77.83 |
EusProficiency |
34.13 |
52.83 |
43.59 |
68.00 |
EusReading |
49.72 |
62.78 |
72.16 |
78.98 |
EusTrivia |
45.01 |
61.05 |
62.51 |
74.17 |
EusExams |
46.21 |
56.00 |
63.28 |
71.56 |
🔧 技術詳細
⚠️ 重要提示
このモデルはまだ開発中です。
さらなる訓練の詳細は、近い将来、対応する研究論文とともに公開されます。
📄 ライセンス
このモデルは、Llama-3.1 License を継承しており、商用および研究用途が許可されています。
🌱 環境への影響
炭素排出量は、Lacoste et al. (2019) で提示されたMachine Learning Impact calculator を使用して推定できます。
- ハードウェアの種類: HPCクラスター、4 x A100 64Gbノード x32
- 使用時間 (総GPU時間): 2,336時間
- クラウドプロバイダー: CINECA HPC
- コンピュートリージョン: イタリア
- 排出された炭素量: 277.52kg CO2 eq
🙏 謝辞
この研究は、バスク政府 (IKER-GAITUプロジェクト) によって部分的に支援されています。また、デジタル変革と公共機能省 - EU - NextGenerationEUによって資金提供された、参照番号2022/TL22/00215335のプロジェクトの枠内で部分的に支援されています。モデルは、EuroHPC共同事業の下でCINECAのLeonardoスーパーコンピューターで訓練されました (プロジェクトEHPC-EXT-2023E01-013)。
📖 引用
論文は近日公開予定です。
それまでの間、以下を参照できます。
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}