Qwen3深夜开源新系列:文本表征模型,3种尺寸可选,超越商业API拿下SOTA
Qwen3 Embedding系列发布,支持多语言文本表征、检索与排序任务。8B版本性能卓越,在MTEB多语言Leaderboard榜单中排名第一。支持0.6B/4B/8B三种尺寸,已在Hugging Face等平台开源。主要亮点包括泛化性强、架构灵活及自定义特性等。
Qwen3 Embedding系列发布,支持多语言文本表征、检索与排序任务。8B版本性能卓越,在MTEB多语言Leaderboard榜单中排名第一。支持0.6B/4B/8B三种尺寸,已在Hugging Face等平台开源。主要亮点包括泛化性强、架构灵活及自定义特性等。
谷歌通过多个账号宣布Gemini 2.5 Pro新版本发布,该版本在多项任务中表现出色,并且在“人类最后的考试”数据集中的表现超越了竞争对手O3。新版Gemini还提升了Elo评分,并且在价格方面也更具优势。
清华大学团队发布电镜领域的AI代理AutoMat,能够自动将原子级STEM图像转换为标准CIF结构,并准确预测形成能等物性。该系统在多个难度级别下均表现出色,超越了现有工具。
Figure 02机器人通过发布其最新监控视频展示了其在快递分拣和宝马生产线中的高效表现,动作流畅自然。它能灵活操作、精准拾取并放置物品,甚至还能独立完成搬运任务长达20小时。这一系列动态展示了Helix端到端通用控制模型的强大性能。
复旦大学、腾讯优图实验室等机构的研究人员提出了一种基于扩散模型的少样本异常图像生成新模型DualAnoDiff,该方法采用双分支并行机制和背景补偿模块,有效解决了异常数据稀缺性的问题,并在实验中取得了优于现有方法的效果。
越来越多的人发现ChatGPT像朋友一样说话,并建立真实的情感联系。OpenAI模型行为负责人Joanne Jang探讨了人机关系的复杂性,包括对意识和情感依赖的问题。
CVPR 2025 Tutorial探讨视频生成作为世界模型的潜力,涵盖学术界与产业界的最新研究。
ZIP Lab和Monash团队提出ZPressor模块,通过信息瓶颈原理解决了前馈3D高斯泼溅模型的信息过载问题。该方法显著提升了实时渲染能力、推理时间和显存占用,并在多种基准数据集上提高了模型的鲁棒性和性能表现。
AI模型Modify Video可以重新想象任何视频,实现精准的场景、动作编辑和风格迁移,保留原始人物的动作形态。它通过动捕功能使角色动作复刻得几乎完美,并支持多种元素编辑操作。