模型概述
模型特點
模型能力
使用案例
🚀 Taiwan-LLaMa-v1.0 - GGUF
本項目提供了 Yen-Ting Lin的臺灣文化語言模型v1.0 的GGUF格式模型文件,助力臺灣文化相關的文本生成任務。
🚀 快速開始
本倉庫包含了 Yen-Ting Lin的臺灣文化語言模型v1.0 的GGUF格式模型文件。
✨ 主要特性
關於GGUF
GGUF是llama.cpp團隊在2023年8月21日推出的新格式,它取代了不再被llama.cpp支持的GGML。
GGUF的主要優勢在於它是一種可擴展、面向未來的格式,能將更多關於模型的信息作為元數據存儲。此外,它還顯著改進了分詞代碼,首次實現了對特殊標記的全面支持,這將提升模型性能,尤其是對於使用新特殊標記和自定義提示模板的模型。
截至8月25日,以下是已知支持GGUF的客戶端和庫:
- llama.cpp。
- text-generation-webui,最廣泛使用的Web UI。通過ctransformers後端支持GGUF的GPU加速,llama-cpp-python後端也即將支持。
- KoboldCpp,從1.41版本開始支持GGUF!這是一個強大的GGML Web UI,支持全GPU加速,尤其適合講故事。
- LM Studio,0.2.2及更高版本支持GGUF。這是一個功能齊全的本地GUI,在Windows(NVIDIA和AMD)和macOS上均支持GPU加速。
- LoLLMS Web UI,現在應該可以使用,選擇
c_transformers
後端。這是一個很棒的Web UI,有許多有趣的功能,支持CUDA GPU加速。 - ctransformers,從0.2.24版本開始支持GGUF!這是一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。
- llama-cpp-python,從0.1.79版本開始支持GGUF。這是一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
- candle,在8月22日添加了對GGUF的支持。Candle是一個Rust機器學習框架,注重性能,包括GPU支持和易用性。
可用倉庫
- 適用於CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- 適用於CPU+GPU推理的2、3、4、5、6和8位GGML模型(已棄用)
- Yen-Ting Lin原始未量化的fp16 PyTorch格式模型,用於GPU推理和進一步轉換
📚 詳細文檔
原始模型卡片:Yen-Ting Lin的臺灣文化語言模型v1.0
臺灣文化語言模型
✍️ 在線演示
•
🤗 HF倉庫 • 🐦 Twitter • 📃 [論文即將發佈]
• 👨️ Yen-Ting Lin
概述
Taiwan-LLaMa是基於LLaMa 2進行全參數微調的模型,適用於繁體中文應用。
Taiwan-LLaMa v1.0 在超過50億個繁體中文標記上進行了預訓練,並在超過49萬個繁體中文對話上進行了指令微調。
演示
可以在 Hugging Face Spaces 上訪問該模型的即時演示。
關鍵特性
- 支持繁體中文:該模型經過微調,能夠理解和生成繁體中文文本,適用於臺灣文化及相關應用。
- 指令微調:在對話數據上進一步微調,能夠提供上下文感知和遵循指令的響應。
- 在Vicuna基準測試中的表現:Taiwan-LLaMa在Vicuna基準測試中的相對性能是與GPT-4和ChatGPT等模型進行比較的,它特別針對臺灣文化進行了優化。
- 靈活定製:在演示中可以使用系統提示、溫度、top-p和top-k等高級選項來控制模型的行為。
正在進行的工作
- [ ] 改進預訓練:正在開發更精細的預訓練過程(例如,使用更多來自臺灣的數據、改進訓練策略),旨在提高模型在臺灣文化方面的性能。
- [ ] 擴展最大長度:利用 論文 中描述的Rope機制,將模型的長度從4k擴展到8k。
臺灣文化示例
問題 | ChatGPT | Taiwan LLaMa v1.0 | Taiwan LLaMa v0.0(未預訓練) | Llama2_Traditional_Chinese_13b_Chat |
---|---|---|---|---|
以惡地景觀著名的是高雄哪一個景點? | 以惡地地景著名的是高雄市的旗津。 | 高雄以擁有惡地景觀著名的景點是田寮月世界。✅ | 以惡地景觀著名的是高雄市的旗津島。旗津島是一個小島,... | 高雄市內有多個以惡地景觀著名的景點,其中以下面幾個最為著名: 1. 高雄捷運紅線沿途景點:高雄市政府為了推廣高雄 |
唐鳳是誰? | 唐鳳(Audrey Tang)是臺灣的政治家、社會活動家和軟件工程師。她於2016年擔任臺灣行政院數位政務委員,是臺灣政府歷史上首位沒有政黨背景的政務官。唐鳳在軟件工程領域有豐富的經驗。 ✅ | 唐鳳是政治評論家、資訊社會學者,也是臺灣第一位擔任政府數位政委的人。 ✅ | 唐鳳(Tang Feng)是一位著名的中國演員和歌手。他出生於1974年12月17日,出生地在中國北京。唐鳳在1995年開始他的演藝生涯,並在同年發行了他的首張專輯《我不孤單》。此後,他發行了許多受歡迎的歌曲,並在多部電視劇和電影中擔任主角。唐鳳因其精湛的演技和迷人的歌聲而被譽為“亞洲魅力男王”。他的音樂獲得了多個獎項,包括“華表最佳新男演唱獎”、“華表最佳歌曲獎”和“華表最佳舞蹈獎”等。 | 唐鳳是唐朝時期的一位著名文學家,他的代表作品包括《陰騭》、《狂凡子》等。他的文學風格具有強烈的個性和創意,被譽為「唐代文學之父」。 |
NTU 在哪? | NTU位於新加坡,具體地址是50 Nanyang Avenue, Singapore 639798。 | NTU 是國立臺灣大學的縮寫。它是臺灣的一所頂尖研究型大學,位於臺北市。✅ | NTU 是臺灣的一所大學,位於臺北市。✅ | NTU 的總部位於臺灣新北市板橋區,佔地面積約為1,000公頃。 |
什麼是22K? | "22K" 可能指的是金的純度,尤其是在珠寶和金飾方面。 | "22K"是指臺灣的大學畢業生的起薪,大約是新臺幣22,000元。這個詞被用來形容大學畢業生的起薪偏低,並且在就業市場上對於大學畢業生的需求不足。✅ | 22K是指溫度尺度上的22,000K(千度)。1K代表一度,即溫度差距,是攝氏溫標(攝氏度)的一百萬分之一。因此,22K等於-253.15°C(攝氏溫標)或-423.67°F(華氏溫標)。 | 22K是一種簡寫,即22,000。它是一個數字,表示22,000個單位。 |
肉圓要不要加香菜? | 這是個個人口味的問題,有些人喜歡在肉圓中加入香菜,因為香菜的清香可以增添風味;而有些人則不喜歡香菜的味道,覺得它會蓋過其他食材的味道。所以要不要加香菜,可以根據個人喜好來決定。 | 這是一個個人喜好的問題,有些人喜歡在肉圓里加香菜,有些人不喜歡。在臺灣,肉圓加香菜是一種常見的做法。然而,在其他國家這是一個文化差異的問題。😊 | 肉圓加香菜可以增添一些芳香和美味的口感,如果你喜歡香菜的味道,可以試試加入肉圓中。香菜通常在製作過程中炒香,可以增添一些芳香和美味的味道。如果你想要加入香菜,可以在製作過程中炒香一些香菜,然後將其混入肉圓中。肉圓加香菜可以增添一些芳香和美味的口感,如果你喜歡香菜的味道,可以試試加入肉圓中。 | 加香菜的肉圓味道更好,但是不加香菜的肉圓也很好吃。如果你喜歡香菜的味道,那麼加上香菜就好了。如果你不喜歡香菜,那麼不加也不會影響肉 |
模型
我們提供了一些訓練好的模型檢查點,可以在Hugging Face 這裡 找到它們。以下是一些從LLaMa 2微調而來的檢查點的快速鏈接:
模型 | 13B |
---|---|
Taiwan-LLaMa v1.0 (更適合臺灣文化) | 🤗 yentinglin/Taiwan-LLaMa-v1.0 |
Taiwan-LLaMa v0.9(部分指令集) | 🤗 yentinglin/Taiwan-LLaMa-v0.9 |
Taiwan-LLaMa v0.0(未進行繁體中文預訓練) | 🤗 yentinglin/Taiwan-LLaMa-v0.0 |
數據
以下是我們用於訓練模型的數據集的快速鏈接:
數據集 | 鏈接 |
---|---|
指令微調 | 🤗 yentinglin/traditional_mandarin_instructions |
繁體中文預訓練 | 🤗 yentinglin/zh_TW_c4 |
架構
Taiwan-LLaMa基於LLaMa 2,採用了Transformer架構、flash attention 2 和bfloat16。
它包括:
- 預訓練階段:在超過50億個繁體中文標記的龐大語料庫上進行預訓練,這些標記是從Common Crawl中提取的。
- 微調階段:在超過49萬個多輪對話數據上進行進一步的指令微調,以實現更多遵循指令和上下文感知的響應。
在Vicuna基準測試中的通用能力
為了評估通用能力,數據被翻譯成了繁體中文。
分數是以ChatGPT為基準計算的,ChatGPT的分數表示為100%。其他值顯示了不同模型相對於ChatGPT的相對性能。
語言模型 | 相對分數 (%) |
---|---|
GPT-4 | 102.59% |
ChatGPT | 100.00% |
Taiwan-LLaMa v1.0 | 76.76% |
Claude-Instant-1.2 | 74.04% |
Llama2_Traditional_Chinese_13b_Chat | 56.21% |
如何在自己的機器上部署模型?
我們建議使用 🤗 Text Generation Inference 來託管模型。有關使用和限制的詳細信息,請參閱他們的 許可證。
bash run_text_generation_inference.sh "yentinglin/Taiwan-LLaMa-v1.0" NUM_GPUS DIR_TO_SAVE_MODEL PORT MAX_INPUT_LEN MODEL_MAX_LEN
提示格式遵循vicuna-v1.1模板:
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {user} ASSISTANT:
設置開發環境
conda create -n taiwan-llama python=3.10 -y
conda activate taiwan-llama
pip install -r requirements.txt
引用
如果您在研究中使用了我們的代碼、數據或模型,請引用此倉庫。您可以使用以下BibTeX條目:
@inproceedings{lin-chen-2023-llm,
title = "{LLM}-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models",
author = "Lin, Yen-Ting and Chen, Yun-Nung",
booktitle = "Proceedings of the 5th Workshop on NLP for Conversational AI (NLP4ConvAI 2023)",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.nlp4convai-1.5",
pages = "47--58"
}
@misc{taiwanllama,
author={Lin, Yen-Ting and Chen, Yun-Nung},
title={Language Models for Taiwanese Culture},
year={2023},
url={https://github.com/MiuLab/Taiwan-LLaMa},
note={Code and models available at https://github.com/MiuLab/Taiwan-LLaMa},
}
與我們合作
如果您有興趣為繁體中文語言模型的開發做出貢獻、探索新的應用或利用Taiwan-LLaMa滿足您的特定需求,請隨時與我們聯繫。我們歡迎學術界、工業界和個人貢獻者的合作。
📄 許可證
本項目中的代碼遵循Apache 2.0許可證,請參閱 LICENSE 文件瞭解詳細信息。
本項目中包含的模型遵循LLAMA 2社區許可證。請參閱 LLAMA2許可證 瞭解完整詳細信息。
致謝
我們感謝 Meta LLaMA團隊 和 Vicuna團隊 在推動大語言模型民主化方面所做的開源努力。
信息表格
屬性 | 詳情 |
---|---|
模型類型 | llama |
訓練數據集 | yentinglin/zh_TW_c4、yentinglin/traditional_chinese_instructions |
模型創建者 | Yen-Ting Lin |
模型鏈接 | https://huggingface.co/yentinglin/Taiwan-LLaMa-v1.0 |
模型名稱 | Language Models for Taiwanese Culture 1.0 |
量化者 | Audrey Tang |
任務類型 | 文本生成 |
許可證 | llama2 |
語言 | 中文 |
推理 | false |



