🚀 梵文Qwen 7B翻譯模型
本模型是基於Qwen/Qwen2.5-7B-Instruct-1M微調的版本,針對梵文語言任務進行了優化,能夠有效處理梵文文本理解、生成及翻譯等任務。
📚 詳細文檔
模型描述
這是一個經過微調的Qwen 2.5 7B模型的融合版本,專門針對梵文語言理解和翻譯任務進行了訓練。該模型在自定義的梵文數據集上進行訓練,以增強其處理梵文文本的能力。
預期用途與侷限性
預期用途
- 梵文文本理解與生成
- 梵文 - 英文翻譯任務
- 梵文語言處理
侷限性
- 性能可能會因梵文文本的複雜程度而有所不同
- 模型的使用應遵循道德和法律準則
訓練數據
該模型在diabolic6045/Sanskrit-llama數據集上進行訓練。
訓練過程
訓練詳情
- 基礎模型:Qwen/Qwen2.5-7B-Instruct-1M
- 訓練類型:微調
- 硬件:多GPU設置
- 訓練參數:
- 學習率:2e-05
- 訓練輪數:1
- 批次大小:2(總計)
- 優化器:AdamW
- 學習率調度器:帶熱身的餘弦調度器
框架版本
- Transformers 4.49.0
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0

查看Axolotl配置
Axolotl版本:0.8.0.dev0
base_model: Qwen/Qwen2.5-7B-Instruct-1M
load_in_8bit: false
load_in_4bit: true
strict: false
datasets:
- path: diabolic6045/Sanskrit-llama
type: alpaca
dataset_prepared_path:
val_set_size: 0
output_dir: ./outputs/qlora-out
adapter: qlora
lora_model_dir:
sequence_len: 1024
sample_packing: true
eval_sample_packing: false
pad_to_sequence_len: true
lora_r: 32
lora_alpha: 16
lora_dropout: 0.05
lora_target_modules:
lora_target_linear: true
lora_fan_in_fan_out:
hub_model_id: Sanskrit-qwen-8B
wandb_project: संस्कृतम्-llama
wandb_entity:
wandb_watch: all
wandb_name: संस्कृतम्-llama
wandb_log_model:
gradient_accumulation_steps: 1
micro_batch_size: 1
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
cosine_min_lr_ratio: 0.2
learning_rate: 2e-5
train_on_inputs: false
group_by_length: false
bf16: false
fp16:
tf32: false
gradient_checkpointing: true
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: false
warmup_steps: 10
evals_per_epoch: 4
saves_per_epoch: 1
debug:
deepspeed: deepspeed_configs/zero1.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
📄 許可證
本模型根據Apache 2.0許可證發佈。
屬性 |
詳情 |
模型類型 |
基於Qwen 2.5 7B微調的梵文翻譯模型 |
訓練數據 |
diabolic6045/Sanskrit-llama數據集 |