字节跳动开源多模态AI Agent—UI-TARS-1.5
字节跳动开源的多模态AI Agent UI-TARS 1.5在计算机、浏览器和手机使用测试中表现优异,并在GUI定位方面显著提升。它在游戏领域也表现出强大能力,展现出出色的推理、决策和适应能力。
字节跳动开源的多模态AI Agent UI-TARS 1.5在计算机、浏览器和手机使用测试中表现优异,并在GUI定位方面显著提升。它在游戏领域也表现出强大能力,展现出出色的推理、决策和适应能力。
微软发布BitNet推理框架,通过三值量化将LLM模型大小瘦身至原来的1/16,在CPU上实现2.37到6.17倍加速,并节能82.2%,甚至可在普通笔记本CPU上运行100B参数级大模型。
awesome-ai-system-prompts 新增了 Windsurf 泄露的 system prompt,包含参考文献和知识星球服务内容介绍。
Cooragent是一款可与其他智能体协作完成复杂任务的工具,支持MCP,提供Agent Factory和Agent Workflow两种工作模式及CLI工具快速创建、编辑和删除智能体。
英伟达团队发布Eagle 2.5视觉语言模型,在长上下文多模态学习方面取得显著进展,其在Video-MME基准测试中实现了72.4%的高准确率。该模型通过信息优先采样、渐进式混合后训练和多样性驱动的数据配方等创新技术提升性能,并已在开源社区上线。
MIT讲解AI模型后训练(Post-Training)方法,涵盖数据构建、训练算法及发展趋势等内容,重点关注数据质量、推荐技术栈、评估体系和模型融合新思路等关键点,适合对指令微调、行业模型优化感兴趣的用户。
介绍了一个名为Persona Engine的开源项目,它结合了大语言模型、Live2D技术等,允许用户创建个性化的AI角色,并通过语音交互使其与用户互动。
2024年诺贝尔物理学奖授予人工智能之父Geoffrey Hinton。他在访谈中讨论了AI的短期风险(如滥用与误用)及长期风险(智能超越人类可能造成灭绝),强调大公司应增加对AI安全的研究投入,并呼吁全球合作应对AI带来的生存威胁,同时批评Elon Musk在AI安全问题上的轻率态度。