月度归档: 2025 年 6 月
使用 Gemini 2.5 进行高级音频对话和生成
Gemini 2.5 在 I/O 大会上展示了原生音频对话和生成能力,包括自然对话、风格控制、工具集成、多语言性等特性,提升了实时交互体验,并支持多种语音输出形式。
GPT-4o免费平替,文字、图像随意编辑,3秒出图,超高一致性
黑森林工作室的FLUX.1 Kontext系列最新成员使用流匹配架构生成图片,并能够同时接受文本和图像输入进行上下文生成和编辑。它具备局部编辑、角色一致性、风格参考和交互速度等特性,官方提供了Pro版本和Max版本供用户试玩。
阿里Qwen3一口气开源多个向量&排序模型,冲!
阿里开源Qwen3-Embedding和Qwen3-Reranker系列,提供0.6B/4B/8B三种版本,支持119种语言,在多语言文本嵌入和相关性排序上达到先进性能,应用于文档检索、RAG等多种场景。
告别O(n²)!上海AI Lab开源Linear-MoE:线性注意力+MoE的终极缝合术
近期研究表明,线性序列建模(如 Lightning Attention、Mamba2)与混合专家模型架构(MoE)的结合在高效大模型领域引起了广泛关注。上海人工智能实验室团队的最新研究首次系统地实现了这两种技术的结合,并开源了完整的技术框架。
ICML 2025 北大团队提出GAPrompt:仅用2%参数,点云模型精度媲美全量微调
北京大学等机构提出GAPrompt,一种面向三维视觉预训练模型的几何感知高效微调方法,通过引入点云结构化提示提升下游任务中的几何适应能力。该研究已被人工智能顶会ICML 2025接收,并已开源相关代码与模型。
本末科技完成数亿元B轮及B+轮融资,加速机器人与直驱技术产业化落地
本末科技完成B轮及B+轮融资,累计金额数亿元。融资资金将用于提升直驱关节模组规模化交付能力、加速机器人产品开发迭代与商业化落地。公司已推出多款轮足式机器人并构建了从零部件到整机的技术体系,成为全球轮足机器人出货量最高企业之一。
特朗普威胁砍合同,马斯克要关闭龙飞船?NASA 或将陷入绝境
美国载人航天面临困境,特朗普可能取消马斯克的政府合同,导致龙飞船项目停运,引发轩然大波。NASA将失去唯一本土载人航天器,迫使选择依赖俄罗斯联盟号及波音太空舱。