L

Latxa 7b V1.2

由HiTZ開發
Latxa是基於LLaMA-2架構的巴斯克語大語言模型,專為低資源語言設計,在42億token的巴斯克語料庫上訓練
下載量 875
發布時間 : 6/11/2024

模型概述

Latxa系列模型包含7B至70B參數規模,針對巴斯克語優化,在語言理解和生成任務上表現優異,支持英語和巴斯克語

模型特點

低資源語言優化
專門針對巴斯克語等低資源語言設計,填補高低資源語言間的技術鴻溝
高質量語料訓練
使用嚴格篩選的42億token巴斯克語料庫訓練,確保語言質量
多規模可選
提供7B、13B和70B三種參數規模,滿足不同計算需求
開放許可
遵循LLaMA-2許可協議,允許商業和研究用途

模型能力

巴斯克語文本生成
多選問答
閱讀理解
語言理解
英語文本生成(輔助能力)

使用案例

教育
語言能力測試
用於評估巴斯克語C1水平考試題
在EusProficiency數據集上達到30.26%準確率(5樣本)
閱讀理解輔助
幫助學生理解巴斯克語文章內容
在EusReading數據集上達到25%準確率(5樣本)
研究
低資源語言研究
為巴斯克語等低資源語言的大模型研究提供基準
發佈完整工具鏈包括模型、語料庫和評估數據集
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase