定义实验使用的模型,使用1B参数量的Llama 3.2模型进行实验。该技术同样适用于更大规模的模型,但可能需要更长的训练时间。 model_id = "meta-llama ...
Llama-3.1-Nemotron-51B 简介 Llama-3.1-Nemotron-51B ... 即训练更小、更高效的学生模型(student model),以模仿更大的教师模型(teacher model)的功能。