高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

新智元报道编辑:定慧AI模型在基准测试中表现优秀,但在人类容易解决的问题上却频频出错。创意评测兴起,如MC-Bench利用Minecraft方块来评估模型能力,普通用户也能参与评测。这种测评范式更贴近人类对AI直观和创造力的实际期待。

Gemini 2.0刚发布多模态模式马上开源,自动生成模仿X上用户的AI对话机器人,独立艺术生成设备PaperPiAI

文章介绍了5个项目:Gemini Multimodal Live API + Pipecat聊天应用入门套件、MCP Directory Minecraft服务器目录、PaperPiAI基于Raspberry Pi的独立艺术生成系统、Research Rabbit AI驱动网络研究助手以及Reply gAI个性化回复工具。