日期: 2025 年 3 月 29 日
关于大模型智能体意图识别不准确问题——function call的缺陷
最近在研究大模型智能体过程中遇到的问题之一是意图识别不准确,影响了Agent的质量和效果。解决方法包括明确描述函数功能、使用多轮对话增强理解能力、利用分类模型进行意图识别及设置规则引擎兜底等。
谷歌免费王炸!Gemini 2.5 Pro 推理实测:正确率 100%,零幻觉!
谷歌最新发布的推理模型Gemini 2.5 Pro在多项基准测试中表现出色,尤其在数学、推理、多模态和长上下文方面。其性能领先于其他同类模型,并且具有自我验证的能力。实测结果显示,Gemini 2.5 Pro在一系列复杂的逻辑运算题目上均能正确解答,无一错误。
Claude“大脑”被Anthropic扒开了,发现它是这么思考的~
Anthropic分享了Claude是如何思考的:心算采用多条并行计算路径;多步推理通过连接独立的事实得出答案;幻觉被默认拒绝但可通过干预产生。此外还展示了其多语言能力和写押韵诗的能力。
杜昕润@M-A-P:SuperGPQA:探索LLMs知识与推理能力的边界
MLNLP社区举办学术Talk邀请杜昕润分享SuperGPQA评估大模型能力,涵盖285个专业领域,覆盖轻工业等未被充分评估的学科。
突发! 800+330亿美元,马斯克 xAI 收购 Twitter(X)!
马斯克旗下的人工智能公司xAI宣布已完成对社交媒体平台X的全换股收购,交易中xAI估值800亿美元,X估值330亿美元,总成本450亿美元。