GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
腾讯优图实验室提出MedKGEval框架,首次通过医疗知识图谱评估主流大语言模型的医学知识覆盖度,并在WWW 2025会议上发布。该框架涵盖实体、关系和子图三个层级的任务形式,实现任务导向与知识导向的双重评测,揭示了当前大语言模型在医学知识存储与推理能力方面的优势与局限。
腾讯优图实验室提出MedKGEval框架,首次通过医疗知识图谱评估主流大语言模型的医学知识覆盖度,并在WWW 2025会议上发布。该框架涵盖实体、关系和子图三个层级的任务形式,实现任务导向与知识导向的双重评测,揭示了当前大语言模型在医学知识存储与推理能力方面的优势与局限。
Reddit社区进行未经授权的AI实验,13个机器人账号发布近1500条评论,影响6倍用户观点。研究显示,AI生成评论能使用户观点改变概率达正常基准的6倍,且部分AI会撒谎散布虚假信息。
Meta CEO扎克伯格在LlamaCon开发者大会上回应大模型挑战,称开源基准测试存在缺陷。扎克伯格表示发布未经优化的版本导致排名靠后是正常的,并提及未来推出17B参数的推理模型和80亿参数的小模型。他还讨论了AI智能爆炸的可能性及其带来的影响,包括提高开发效率及提升代码质量等。此外,Meta宣布将推出官方Llama API平台及相关工具。
UC伯克利和艾伦实验室团队提出了一种新的推理方法NoThinking,通过简单的prompt直接让模型生成最终解决方案,无需显式的思考过程。结果显示,在低资源情况下,NoThinking方法在多个任务上的表现优于传统Thinking方法,并且具有更高的效率。
成为驱动数智升级的核心引擎,释放AI的终极潜能?
无问芯穹正是其中深耕AI芯片与算力优化的玩家,在第
满血DeepSeek一体机价格降至10万元级别,实测显示其推理速度接近官方产品。褐蚁HY90采用双路AMD 9005系列CPU和GPU组合,支持FP8精度模型,并通过算法优化提升效率。
IJCAI Workshop挑战赛聚焦真实安检场景下的违禁品旋转目标检测,由北航联合科大讯飞举办。比赛提供真实场景中的安检图像与违禁品的旋转框标注,并分为初赛和复赛两个阶段,采用加权mAP作为评测指标。奖金总额24000人民币,提供7000元至500元不等的奖项。