分享
“动动嘴”就能编辑图像,豆包悄咪咪上线了这个超实用的新功能。
使用国产大模型豆包进行图像编辑时意外发现新功能——通过语音指令实现‘用嘴改图’,无需涂抹区域。该功能可直接上传图片并根据提示快速生成修改后的版本。
微软Ignite 2024:建立一个Agentic世界!
在今年的Microsoft Ignite 2024上,企业通过Copilot Studio创建了数万智能体,并且可以使用Azure目录中的1800个LLM模型。微软还宣布将在Microsoft 365中引入新的智能体,包括用于项目管理的新项目经理智能体、协作会议中的新Facilitator智能体、帮助员工理解和分享知识的Agent以及提供自助服务支持的员工自助服务智能体。
o1圈杀疯了,阿里又开源Marco-o1
阿里开源Marco-o1,旨在解决缺乏明确标准且奖励难以量化的开放式问题。Marco-o1结合链式思考、蒙特卡洛树搜索等技术增强推理能力,在MGSM上提高了准确性,并展示了扩展解决方案空间和利用更细粒度动作策略的优势。
NeurIPS’24|VL-SAM:北大出品,完全无训练的开放式检测分割模型
北大团队提出VL-SAM,结合视觉-语言模型和Segment-Anything模型,通过注意力图作为提示解决开放式物体检测与分割任务,性能在LVIS和CODA数据集上良好。
MMRel:多模态大模型时代的评测物体间关系理解新基准
MMRel是首个大规模、高质量的物体间关系理解数据集,用于评估和提升多模态大模型能力。包含超过22K问答对,覆盖三个领域与三种关系类型,通过半自动流程生成并提供高难度子集测试极限性能。
体验完Vidu划时代的新功能,我觉得可以正式抛弃3D渲染了。
近日发现一款优秀的2D动漫AI视频工具Vidu,其最新版本1.5引入了多主体一致性功能,实现了风格、角色和场景的一致性。用户可通过上传最多三张图片来生成一致性的视频内容,显著提高了AI视频的制作效率和效果。
NeurIPS 2024|收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架
华中科技大学提出MoE Jetpack框架,利用密集模型预训练权重微调为混合专家模型,显著提升精度和收敛速度。