阿里巴巴推出可在手机上处理视频音频的AI模型
阿里巴巴发布Qwen2.5-Omni-7B多模态AI模型,支持文本、图像、音频和视频等多种数据形式,并在手机和平板等终端设备上高效运行,推动AI技术普及。
阿里巴巴发布Qwen2.5-Omni-7B多模态AI模型,支持文本、图像、音频和视频等多种数据形式,并在手机和平板等终端设备上高效运行,推动AI技术普及。
Figure 机器人通过强化学习技术实现了人类般自然流畅的行走。这项突破性进展解决了 ‘Sim-to-Real’ 挑战,展示了在复杂环境中自主行走的能力。
Qwen2.5-Omni 是阿里新推出的多模态AI模型,能够听音频、看视频和开口说话。它在OmniBench上表现优异,在多个测试项目中展示了出色的理解力和识别能力。
今天晚上,豆包终于上线了期待已久的深度思考功能。与传统的推理模型不同,它将思考和搜索融为一体,表现出与OpenAI的DeepResearch类似的特质。通过多次搜索和细致分析,豆包能够提供更准确的答案。作者对该功能表示肯定,并认为其性价比高、使用便捷,有望让更多人受益。
谷歌Gemini 2和OpenAI的ChatGPT 4o发布新功能引发热潮。然而,AI重绘功能早在MJ、Stable Diffusion等项目中已有成熟技术,但由于LLM玩家习惯自然语言控制工作流而非直接指令生成,导致该功能未火。
Perplexity CEO声称要接手重建美国版TikTok,但其规模与技术实力不符。这番豪言被批为离谱炒作,仅为了提高知名度和吸引眼球。