DeepMind最新研究:逆向思维训练LLM可大幅提升AI推理能力
Google DeepMind的研究表明逆向思维训练大模型(LLMs)能显著提升其推理能力,通过构建包含正反向问题的数据集并利用知识蒸馏框架优化模型。
Google DeepMind的研究表明逆向思维训练大模型(LLMs)能显著提升其推理能力,通过构建包含正反向问题的数据集并利用知识蒸馏框架优化模型。
谷歌DeepMind团队提出了一种名为‘可微缓存增强’的技术,该技术通过引入外部协处理器来增强大语言模型(LLMs)的键值(kv)缓存,显著提升了推理性能,并在多个基准测试中提高了准确率和性能。
本文提出了一种新的大规模跨域行人属性识别数据集MSP60K,以及一种名为LLM-PAR的大语言模型增强框架用于提升行人属性识别的准确性。
英伟达发布Jeston Orin Nano超算,体积小至信用卡大小,内置CUDA核心和ARM CPU,提供高达每秒70万亿次的计算能力。耗电仅25瓦,价格从上代的Jetson Orin NX下降到249美元。老黄定义其为机器人处理器,支持本地信息采集训练、视觉AI处理及生成式AI应用。未来可应用于智能城市和智能家居领域。但因反垄断调查影响,普通用户暂时无法使用。
Meta田渊栋团队提出的新范式Coconut(连续思维链)在LLM推理任务中性能更强、效率更高,通过移除模型头尾的LLM head和embedding层,并使用中间状态进行自回归。
微软开源MarkItDown工具,支持PDF、Word等多种文件转换为Markdown格式,并具备调用大语言模型描述图像的功能。使用简单,代码几行即可实现转换。