物理问题归档

GPT-5难产内幕曝光：性能提升远低于预期，OpenAI靠新技术紧急救场，或下周发布

2025年8月2日23时作者 APPSO

GPT-5 曾一度「脑残」，多次跳票后终于登场。经历失败与争议，内部矛盾重重，最终仍被泼冷水大王马库斯警告：离AGI还远着呢。

2025年6月30日8时作者 NLP工程化

首个大规模多模态物理推理基准PhysUniBenchmark发布，包含3304道经验证的物理问题，支持多语言评估，开放性问题准确率仅为26.5%。

2025年1月22日16时作者机器之心

谷歌发布Gemini 2.0 Flash Thinking新版本，引入1M长上下文窗口，在Chatbot Arena中再次夺冠。其亮点包括强大的多模态理解和流畅的对话过程，展示了模型在多个领域的强大能力。

2024年12月20日14时作者机器之心

谷歌发布的新模型Gemini 2.0 Flash Thinking能够在1分钟左右明确展示其思考过程并解决复杂的数学和编程问题，表现出色但有时也会犯错。