清华大学推出Dolphin语音识别模型!专攻40种东方语言,方言识别准确率提升54%!
清华大学和海天瑞声联合开源的Dolphin语音识别模型专为东方语言设计,支持40种东方语言和22种汉语方言,其small版本仅为Whisper large v3大小的一半,却提高了54.1%的平均字错率。
清华大学和海天瑞声联合开源的Dolphin语音识别模型专为东方语言设计,支持40种东方语言和22种汉语方言,其small版本仅为Whisper large v3大小的一半,却提高了54.1%的平均字错率。
微软首席技术官斯科特预言未来一年AI智能体会在记忆能力上取得重大突破,这将改变人机交互模式。当前AI智能体因缺乏长期记忆而无法提供个性化服务。凯文・斯科特提出的技术演进路径包括模块化协议、终身学习和动态记忆机制等。他相信这些技术进步能够重塑多个行业竞争格局,并指出记忆能力的进化伴随的风险,如数据滥用及可能带来的伦理问题。
北京理工大学等4大名校联合发布Mini DALL·E 3,无需额外训练即可为多数主流大模型添加文成图多模态输出能力。该系统由语言模型、路由器、适配器和图像生成模型四大模块组成,实现了用文本生成图像。
今天凌晨
1点,
OpenAI开源了一个全新的
AI Agent评测基准——
PaperBench。
该基准主要考核智能体的搜索、整合、执行等能力。
本月初Manus横空出世,迅速爆火。国内DeepWisdom团队复刻并开源OpenManus,无需邀请码,任何人都能免费使用。OpenManus在GitHub上收获40.4k Star和6.8k Fork。核心开发者为一群00后程序员,他们纯粹出于兴趣和技术信仰进行开发。
一个名为Second Me的开源项目能克隆数字人以延续人类精神和经历。它通过AI技术捕捉用户记忆,支持角色切换适应不同场景,并学习用户的偏好和行为模式。
CNET 记者 Sam Altman 拉新用户速度惊人。ChatGPT 的付费用户数量突破 2000 万人,收入从 3.33 亿美元飙涨至 4.15 亿美元。GPT-4o 还被用来制作治愈系插画,通过简单几步即可实现。