北京炒股配资 小而强,英伟达剪枝、蒸馏出 Llama
IT之家 8 月 17 日消息,英伟达公司联合Meta公司发布了最新的 Llama-3.1-Minitron 4B AI 模型北京炒股配资,主要通过结构化权重剪枝、知识提炼等尖端技术,成功蒸馏(Distill)出 40 亿参数的“小而强”模型。
图源:英伟达
Llama-3.1-Minitron 4B 模型在 Llama-3.1-Minitron 8B 基础上蒸馏而来,英伟达在深度和宽度方向上使用了结构化剪枝技术。
IT之家注:剪枝是一种删除网络中不那么重要的层或神经元的技术,保留其性能的情况下,目的是减小模型的大小和复杂度。
美国国家科学院院长马西娅·麦克纳特表示,美国一直在全球科学领域处于统治地位,现在正面临来自中国等国家的挑战。
英伟达通过从模型中删除 16 层来进行深度剪枝,并将其从 8B 模型缩减为 4B 模型,此外还部署另一种技术,通过修剪嵌入维度和 MLP 中间层来进行宽度剪枝。
除了剪枝,Nvidia 还采用了经典蒸馏技术来提高 Llama-3.1-Minitron 4B 的效率。
知识蒸馏是一个过程,在这个过程中,一个较小的模型(即学生)会被训练成模仿一个更大、更复杂的模型(即教师)的行为。通过这种方式,较小模型中保留了原始模型的大部分预测能力,但速度更快,资源更节省。
英伟达将此与蒸馏技术和剪枝技术相结合,确保重新训练的 4B 模型性能优异北京炒股配资,并在更大的模型中得到很好的应用。
NvidiaLlama英伟达模型英伟达公司发布于:山东省上一篇:更好的炒股配资平台 商务部等7部门发布《关于进一步做好汽车以旧换新工作的通知》 下一篇:十大配资推荐 王者打野梯队,双T0已超标,58%胜率肉装野王诞生,典韦苦尽甘来