🚀 HiTZ/Latxa-Llama-3.1-70B-Instruct
このモデルは、Latxa の指示付きバージョンであるLatxa 3.1 70B Instructを導入します。新しいLatxaはLlama - 3.1 (Instruct)をベースに、言語適応技術を用いてバスク語コーパス(Etxaniz et al., 2024)で学習されています。このコーパスには430万の文書と42億のトークンが含まれています(論文準備中)。
⚠️ 重要提示
このモデルはまだ開発中です。
詳細な学習情報は、近い将来対応する研究論文とともに公開されます。
私たちの予備実験では、Latxa 3.1 70B Instructがバスク語の標準ベンチマーク、特にチャット会話でLlama - 3.1 - Instructを大きく上回ることが示されています。また、公開アリーナベースの評価では、Latxaは他のベースラインやGPT - 4oやClaude Sonnetなどの独自モデルと対戦し、ClaudeとGPT - 4に次いで3位を占め、同サイズの他の競合モデルを上回りました。公式論文は近日公開予定です。
🚀 クイックスタート
以下のコードを使用して、モデルを使用することができます。
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-70B-Instruct')
messages = [
{'role': 'user', 'content': 'Kaixo!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': 'Kaixo!'},
{'role': 'assistant', 'content': 'Kaixo! Zer moduz? Zer behar edo galdetu nahi duzu?'}
]
}
]
✨ 主な機能
モデルの説明
Latxaは、MetaのLLaMAモデルをベースにした大規模言語モデル(LLM)のファミリーです。現在のLLMは、英語などの高資源言語では信じられないほどの性能を発揮しますが、バスク語や他の低資源言語の場合、その性能はランダムな推測に近いものです。これらの制限は、デジタル開発において高資源言語と低資源言語の間のギャップを広げています。私たちは、これらの制限を克服し、バスク語のLLMベースの技術と研究の開発を促進するためにLatxaを提案しています。Latxaモデルは、元のモデルと同じアーキテクチャを持ち、Latxaコーパスv1.1という高品質のバスク語コーパスでさらに学習されています。
属性 |
详情 |
開発者 |
HiTZ研究センター & IXA研究グループ(バスク大学UPV/EHU) |
モデルタイプ |
言語モデル |
言語 |
eu |
ライセンス |
llama3.1 |
親モデル |
meta-llama/Llama-3.1-70B-Instruct |
連絡先 |
hitz@ehu.eus |
直接利用
Latxa Instructモデルは、指示に従うように学習されており、チャットアシスタントとして機能することができます。
範囲外の利用
このモデルは、他人を害したり、人権を侵害したりするなどの悪意のある活動には使用されることを意図していません。すべての下流アプリケーションは、現行の法律と規制に準拠する必要があります。また、適切なリスク評価と軽減策を行わずに本番環境で無責任に使用することも推奨されません。
🔧 技術詳細
バイアス、リスク、制限事項
潜在的に不快または有害な内容を軽減するために、Latxaは主に地元メディア、全国/地域の新聞、百科事典、ブログからのデータを慎重に選択して処理したもので学習されています(Latxaコーパスv1.1を参照)。ただし、このモデルはLlama 3.1モデルをベースにしており、同じバイアス、リスク、制限事項を持つ可能性があります。詳細については、Llamaの倫理的考慮事項と制限事項を参照してください。
学習の詳細
⚠️ 重要提示
詳細な学習情報は、近い将来対応する研究論文とともに公開されます。
評価
私たちは、複数選択タスクの5ショット設定でモデルを評価しました。各データセットのバスク語パーティションを使用しました。アリーナの結果は将来公開されます。
テストデータ、要因、指標
テストデータ
- Belebele (Bandarkar et al.):Belebeleは、122の言語バリアントにまたがる複数選択式の機械読解(MRC)データセットです。私たちは、このモデルを5ショット方式で評価しました。
- データカード: https://huggingface.co/datasets/facebook/belebele
- X - StoryCloze (Lin et al.):XStoryClozeは、英語のStoryClozeデータセットを10の非英語言語に専門家が翻訳したものです。Story Clozeは、4文の物語の正しい結末を選ぶ常識推論データセットです。私たちは、このモデルを5ショット方式で評価しました。
- データカード: https://huggingface.co/datasets/juletxara/xstory_cloze
- EusProficiency (Etxaniz et al., 2024):EusProficiencyは、過去のEGA試験(バスク語の公式C1レベルの能力証明書)のさまざまなトピックに関する5,169の演習問題で構成されています。
- データカード: https://huggingface.co/datasets/HiTZ/EusProficiency
- EusReading (Etxaniz et al., 2024):EusReadingは、同じ過去のEGA試験セットから抽出された352の読解演習(irakurmena)で構成されています。
- データカード: https://huggingface.co/datasets/HiTZ/EusReading
- EusTrivia (Etxaniz et al., 2024):EusTriviaは、複数のオンラインソースからの1,715の雑学問題で構成されています。質問の56.3%は初等レベル(3 - 6年生)で、残りは難問と見なされています。
- データカード: https://huggingface.co/datasets/HiTZ/EusTrivia
- EusExams (Etxaniz et al., 2024):EusExamsは、バスクのいくつかの機関(公的医療システムのOsakidetza、バスク政府、ビルバオとガスティスの市議会、バスク大学(UPV/EHU)など)が実施する公務員試験の準備をするために設計されたテストのコレクションです。
- データカード: https://huggingface.co/datasets/HiTZ/EusExams
指標
私たちは、複数選択問題として構成されているため、正解率を使用しています。
結果
タスク |
Llama - 3.1 8B Instruct |
Latxa 3.1 8B Instruct |
Llama - 3.1 70B Instruct |
Latxa 3.1 70B Instruct |
Belebele |
73.89 |
80.00 |
89.11 |
91.00 |
X - Story Cloze |
61.22 |
71.34 |
69.69 |
77.83 |
EusProficiency |
34.13 |
52.83 |
43.59 |
68.00 |
EusReading |
49.72 |
62.78 |
72.16 |
78.98 |
EusTrivia |
45.01 |
61.05 |
62.51 |
74.17 |
EusExams |
46.21 |
56.00 |
63.28 |
71.56 |
📄 ライセンス
Latxaモデルはバスク語データでの使用を目的としており、他の言語での性能は保証されません。元のモデルと同様に、LatxaはLlama - 3.1ライセンスを継承しており、商用および研究目的での使用が許可されています。
環境への影響
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定することができます。
- ハードウェアタイプ: HPCクラスター、4 x A100 64Gbノードx64
- 使用時間(総GPU時間): 16005.12h
- クラウドプロバイダー: CINECA HPC
- コンピュートリージョン: イタリア
- 排出された炭素: 1901.41kg CO2 eq
謝辞
この研究は、バスク政府(IKER - GAITUプロジェクト)によって部分的に支援されています。また、デジタル変革と公務省によって部分的に支援されており、EU - NextGenerationEUによって資金提供されたプロジェクト(参照番号2022/TL22/00215335)の枠組み内で行われています。モデルは、EuroHPC共同事業の下でCINECAのLeonardoスーパーコンピューターで学習され、プロジェクトはEHPC - EXT - 2023E01 - 013です。
引用
近日公開予定です。それまでの間、以下を参照してください。
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}