字节跳动归档 - 第11页共15页

小米新生态总监董红光开启创业，要为AI硬件打造智能体 | 智涌独家

2025年2月10日19时作者智能涌现

AI硬件创业热潮下，董红光计划开发搭载在智能玩具、眼镜和耳机等硬件上的软件。当前这些AI硬件仍处于早期阶段，存在软件生态需求缺口。

2025年2月9日14时作者小兵的AI视界

VividTalk是南京大学、阿里巴巴、字节跳动和南开大学联合开发的人工智能技术项目，通过音频驱动生成逼真的说话头像视频。该项目采用先进的3D混合先验技术和双分支运动-VAE（变分自编码器）来实现高质量的视觉效果和自然同步对话。

2025年2月7日14时作者小兵的AI视界

INFP是字节跳动研发的一种全新的音频驱动交互式头部生成框架，它能根据双轨对话音频实时生成动态虚拟人物头像，支持多语言、唱歌模式和多种场景。研究显示其在音频-唇同步性、身份保留和动作多样性等方面表现优异。

2025年2月3日23时作者机器之心

字节跳动首次披露其内部代码审查系统BitsAI-CR的技术细节，通过两阶段评论生成架构实现75%的审查准确率和26.7%的评论过时率。

2025年1月29日23时作者 PaperWeekly

旧岁已成过往新年悄然启程，PaperWeekly送出蛇年红包封面祝福。有投必中，手慢无！

2025年1月27日12时作者机器之心

Video Depth Anything 工作解决了单目深度估计在视频领域的时序一致性问题，融合时空头、时域一致性损失函数和关键帧推理策略，实现精度、速度及稳定性三者的平衡。

2025年1月24日8时作者 NLP工程化

UI-TARS 是一种智能体模型，可以直接理解并操作图形界面的原生 GUI 智能体，它具有感知、行动、推理和记忆等关键能力。相比传统拼装方法，UI-TARS 使用一个“大模型”进行端到端学习，提升了灵活性与稳健性，并在某些测试上超过了 Claude 和 GPT-4。

2025年1月23日8时作者开源星探

2024年推出的中文友好的AI编程IDE Trae发布，支持实时建议、代码片段生成等功能，内置Claude-3.5-Sonnet免费聊天模型，简化了项目开发和日常编码过程，特别适合英语非母语开发者。

2025年1月23日8时作者新智元

新智元报道
编辑：编辑部 HYZ
【新智元导读】
刚刚发布的豆包大模型1.5，不仅多模态能力全面提升