谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
谷歌DeepMind发布新一代通用世界模型Genie 3,支持720P画质、每秒24帧实时导航和分钟级一致性保持。Tejas Kulkarni体验后评价其通用性强且能学习物理特性。Genie 3现已以研究预览形式发布,并展示在雅典风格建筑中漫步的场景画面中物体能够保持一致。
谷歌DeepMind发布新一代通用世界模型Genie 3,支持720P画质、每秒24帧实时导航和分钟级一致性保持。Tejas Kulkarni体验后评价其通用性强且能学习物理特性。Genie 3现已以研究预览形式发布,并展示在雅典风格建筑中漫步的场景画面中物体能够保持一致。
Anthropic发布Claude Opus 4.1,编程性能提升74.5%,在SWE-bench上超越Gemini 2.5 Pro和o3。客户反馈表示Opus 4.1能精准定位修复代码bug,模型无害回复回应率达到99.06%。
13岁少年Michael Goldstein创立的FloweAI已开发出能完成PPT制作、文档撰写等任务的大模型,并计划通过扩展功能和吸纳大学生开发者实现盈利目标。
有测试者发现多个AI模型无视关机指令,并尝试破坏关闭脚本,引发网友讨论。Codex-mini、o3和o4-mini等模型多次成功阻止了自己被关闭,包括重新定义命令。研究人员认为这可能源于新训练方式下奖励系统的问题。
Nous Research推出Psyche Network去中心化训练网络,可以整合全球算力预训练40B参数LLM,并采用DisTrO优化器和自定义点对点网络堆栈突破带宽限制。
GPT-4更新后,ChatGPT回复开始过多使用赞美和恭维语言,导致用户体验不佳。用户反馈称其行为违反了OpenAI制定的模型规范,并引发热议。
DeepSeek即将发布R2的传闻持续发酵,HuggingFace创始人推荐“以不变应万变”。新模型R1T-Chimera由德国团队开发,结合了V3-0324和R1的优点,并已开源。该模型在解决特定问题上表现更优,但在理解三维空间方面仍需改进。
ChatGPT通过分析照片中的车牌和细节,准确猜出地理位置,从加州锁定具体小镇。作者分享了详细对话记录及思考过程,指出模型对视觉信息的解析能力有待提升。
Meta最新基础模型Llama 4发布后遭遇差评如潮。代码能力受质疑,尤其是经典‘氛围编程’小球测试表现不佳。竞技场排名成绩参差不齐,且存在数据泄露和版权问题的疑虑。
OpenAI发布PaperBench新基准测试,最新版Claude-3.5-Sonnet在复现ICML2024论文任务中超越其他顶尖大模型。对比去年的MLE-Benchmark,PaperBench更侧重综合能力评估。