从找眼镜到当导购,我和豆包的24小时”室友”体验

作者在北京最繁华商圈随机询问10位年轻人使用AI助手的习惯,发现大多数人因体验不佳而放弃。豆包推出视频通话功能后,用户可以直接与AI进行视频对话,体验提升显著。文章介绍了多场测试,展示了豆包在室内和室外环境下的表现及其带来的便利性,并强调了交互方式的改变对用户体验的影响。

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 论文代码开源

腾讯ARC Lab和香港城市大学推出的新Benchmark Video-Holmes,通过复杂视频推理任务测试大模型能力。结果显示所有主流大模型在SR、IMC等指标上均不及格。Video-Holmes规避了现有基准的简单问题限制,强调多线索信息的整合与分析能力。

速递|网络安全Horizon3.ai进行新一轮1亿美元融资,估值或超7.5亿美元,ARR达3000万美元

Horizon3.ai,一家提供自主渗透测试等工具的网络安全初创公司,计划融资1亿美元,估值超过7.5亿美元。该公司已锁定至少7300万美元融资,并由NEA领投。

速递|AI办公Context获1100万美元融资,估值7000万美元,打造能“逻辑推演”数据的AI办公

Context是一家开发人工智能办公套件的初创公司,宣布完成1100万美元种子轮融资。创始人Joseph Semrai希望利用AI的强大能力来改善现有数字办公套件的表现。