多模态输入
免费使用google Deep Research,Gemini 助手一系列重大升级
Google AI Studio中的Gemini 2.0 Flash实验性功能支持原生图像生成和多模态对话式编辑。它能根据用户故事描述生成插图,并且允许通过多轮对话来修改图像细节,同时还提供个性化的AI研究助手Deep Research。
重磅!谷歌开源Gemma-3模型:支持多模态、128K输入,27B版本在大模型匿名竞技场超过DeepSeeK V3,免费商用授权
Google开源第三代Gemma 3系列大模型,包含4个不同参数规模版本,支持多模态输入,并且表征能力非常强大。Gemma 3系列在多个评测中表现优秀,排名全球第9。
微信 + DeepSeek-R1:这是第一手实测报告,有料!
腾讯给微信接入了DeepSeek-R1,目前只有少数用户通过灰度推送优先体验新功能。使用方法是检查微信版本是否为最新版并确认搜索框中是否有AI搜索选项。微信的AI搜索支持联网搜索且不可关闭,默认模式为快速回答,深度思考模式提供更详细的信息。该功能现处于实验阶段,未来可能进一步完善。
谷歌反击,最强Gemini 2.0全家桶砸场DeepSeek!物理模拟编码惊人Jeff Dean站台
谷歌发布Gemini 2.0全家桶,支持2M上下文和代码执行能力的新模型已向所有人开放。Gemini 2.0 Pro、Flash及Lite版本分别适合不同需求的应用场景,并在多项评测中表现出色。新模型还展示了强大的编码能力和多模态功能。
谷歌通用推理模型来了:可解答数学、物理等问题,不直接给答案
谷歌DeepMind推出全新测试模型Gemini 2.0 Flash Thinking,能够通过’思考’解答物理问题,并支持多模态输入和输出。
一篇78页大模型GUI Agents全面综述~
本文综述了LLM驱动的GUI智能体的发展和进步,讨论了它们的历史演变、核心组件和技术,并展示了智能体如何通过自然语言处理技术执行多种任务,包括Word、Photos、浏览器、Adobe Acrobat和PowerPoint操作等。