12 月 2024 - 第137页共211页

Gemini 2.0发布了，可惜的是关注的人很少

2024年12月12日12时作者 AI大模型实验室

谷歌发布 Gemini 2.0 Flash 大模型，具有生成文本、图像和语音等多模态能力，性能优于前代产品，谷歌 CEO Sundar Pichai 称其为新的代理时代建模，可应用于 Android 手机视觉助手、游戏开发及编程任务等场景。

2024年12月12日12时作者 GitHubStore

远程语音卫星使用Wyoming协议进行本地唤醒词检测和音频增强，与智能家居系统无缝对接。通过Python脚本配置麦克风并运行卫星服务，支持多种唤醒词，并提供技术交流群和合作机会。

2024年12月12日12时作者 GitHubStore

无需 Docker run、pip install 或 npm i，Dockerc 可生成可执行文件供用户直接运行。支持多种操作系统和架构，并通过 Skopeo 加载镜像。

2024年12月12日12时作者新智元

Hyper-YOLO通过超图计算提升了目标检测性能，尤其在复杂场景下识别中小目标更出色。

2024年12月12日12时作者新智元

薛复昭博士分享了他在学术生涯中的七点心得，包括工程能力的重要性、与优秀人才合作、专注于重要论文、研究趋势的演变、换位思考以及博士学位的价值。他指出，虽然攻读博士学位有助于科研技能的学习，但不是从事大语言模型研究的必要条件。

2024年12月12日12时作者新智元

新智元报道
编辑：编辑部 HYZj
【新智元导读】
昨天深夜，OpenAI彻底被谷歌狙击，震撼亮相的

2024年12月12日12时作者新智元

新智元报道
编辑：泽正
【新智元导读】
英伟达团队再次于自己的老本行大发光彩。近日发布的Edify

2024年12月12日10时作者路过银河AI

字节的Flux PuLID 0.91版更新，相比前版速度更快。PuLID通过结合Lightning T2I分支和扩散分支，并引入对比对齐损失和精确的身份ID损失来实现高效身份ID定制，保持图像元素一致。优点是速度快、保真度高；缺点是换脸动作单调。