被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

《Distilling the Knowledge in a Neural Network》是一篇更偏工程性改进的文章,但它提出了知识蒸馏这一概念,并显著提高了模型的性能。论文被Hinton、Oriol Vinyals和Jeff Dean等专家合写,但因其缺乏创新性和影响力,在2014年被NeurIPS拒收。

谷歌发布Gemini 2.0 Pro,全型号刷榜,原生多模态,编程、物理模拟能力炸裂

谷歌发布Gemini 2.0 Pro、Flash和Lite系列模型,支持大容量上下文窗口和多模态功能。Pro版本性能最强,价格最高;Flash版本适合高频任务,价格适中;Lite版本性价比高,即将推出图像生成和语音转换等功能。

冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂

谷歌发布Gemini 2.0系列模型,包括Pro、Flash和Lite版本,可生成代码实现复杂任务,并且性能领先。Gemini 2.0 Pro在编码和复杂指令任务中表现最强,已在Google AI Studio和Vertex AI向开发人员提供试用。