🚀 韓國大語言模型(KoLLaMA)
KoLLaMA是基於LLaMA架構,在韓語、英語和代碼數據集上訓練的語言模型。它藉助JAX框架進行訓練,並得到了谷歌TPU研究雲計劃的支持,該計劃為模型訓練提供了部分計算資源。
🚀 快速開始
目前項目仍在建設中,以下是項目的待辦事項進度:
- ✅ 完成新BBPE分詞器的訓練
- ✅ 在TPUv4 Pods上測試訓練代碼(使用模型並行)
- ✅ 完成轉換測試(從JAX到PyTorch)
- ✅ 在最小數據集上進行語言模型訓練驗證(1個句子,1000步)
- ⏳ 構建數據混洗器(課程學習)
- ⏳ 訓練7B模型
- ⏳ 訓練13B模型
- ⏳ 訓練33B模型
- ⏳ 訓練65B模型
⚠️ 重要提示
此倉庫正在建設中 🚧
✨ 主要特性
- 多語言支持:支持韓語和英語,適用於多語言場景的研究。
- 不同規模可選:提供7B、13B、33B和65B等不同參數規模的模型。
📚 詳細文檔
模型詳情
- 研發人員:Junbum Lee(又名Beomi)
- 訓練時間:KoLLaMA於2023年4月開始訓練,其中33B模型於2023年7月開始訓練。
- 模型版本:此為模型的Alpha版本。
- 模型類型:LLaMA是基於Transformer架構的自迴歸語言模型,有7B、13B、33B和65B等不同參數規模。本倉庫包含33B模型。
- 更多信息:更多信息可參考論文“LLaMA, Open and Efficient Foundation Language Models”,鏈接為https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 。
- 引用詳情
- KoLLAMA: [待確定]
- LLAMA: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
- 許可證:MIT
- 反饋渠道:有關KoLLaMA的問題和建議,可通過項目的GitHub倉庫提交issue。
預期用途
- 主要用途:KoLLaMA主要用於韓語開源大語言模型的研究。
- 目標用戶:模型的主要目標用戶是自然語言處理、機器學習和人工智能領域的研究人員。
- 不適用場景:LLaMA是基礎模型,在用於下游應用前,需進行進一步的風險評估和緩解措施。特別是,該模型未經過人類反饋訓練,可能會生成有害、冒犯性內容、錯誤信息或無用回答。
影響因素
模型性能可能因使用的語言而異。儘管訓練數據包含20種語言,但大部分數據為英文文本,因此預計模型在英文上的表現會優於其他語言。此外,先前研究表明,不同方言也可能影響模型性能,本模型也可能存在此類情況。
評估數據集
[待確定]
訓練數據集
[待確定]
倫理考量
- 數據:用於訓練模型的數據來自多個來源,主要是網絡,因此包含冒犯性、有害和有偏見的內容。預計模型會表現出訓練數據中的這些偏見。
- 人類生活:模型不用於對人類生活至關重要的決策,也不應以這種方式使用。
- 風險和危害:大語言模型的風險和危害包括生成有害、冒犯性或有偏見的內容,以及經常生成錯誤信息(有時稱為幻覺)。預計本模型也不例外。
- 使用場景:LLaMA是基礎模型,在用於下游應用前,需進一步研究和緩解風險。這些風險和潛在的不良使用場景包括但不限於生成錯誤信息、有害、有偏見或冒犯性內容。
📄 許可證
本項目採用MIT許可證。