小兵的AI视界
昆仑万维开源Skywork-R1V3:38B多模态推理模型,高考数学142分刷新开源SOTA
昆仑万维Skywork-R1V3-38B开源多模态模型在高考数学、物理等跨学科任务上超越同规模闭源模型,实现视觉-语言推理新标杆。支持图像文本联合解析、多图融合、教育级链式思维展示等功能。
开源AI神器!一句话精准剪辑视频片段,UP主效率提升500%
PreenCut 是一款基于 WhisperX 高精度语音转录和 DeepSeek/豆包大模型语义理解的开源 AI 视频剪辑工具,支持自然语言检索、自动课程章节化等应用场景,代表了 AIGC 工具下沉到剪辑场景的新范式。
视觉大模型进入”会思考”时代!中国团队给AI装上”逻辑脑”
智谱AI发布GLM-4.1V-Thinking系列开源项目,首次将思维链+课程强化学习引入10B参数级视觉语言模型,支持图像、视频等多模态输入,在教育、内容创作等领域展现出卓越性能。
百万小时训练!这个中文TTS模型让AI播客告别”机械音”,效果堪比真人主播
MOSS-TTSD 是由清华大学语音与语言实验室开发的开源口语对话语音生成模型,支持中文和英文双语生成,并具备零样本语音克隆能力,广泛应用于 AI 播客、访谈、新闻报道等多种场景。
【Chrome MCP Server】GitHub趋势榜第一,这个开源神器让AI操控你的浏览器,效率提升300%!
Chrome MCP Server 作为一款开源项目,通过模型上下文协议(MCP)实现了智能浏览器控制,保障用户隐私安全,并在多个领域展示了强大自动化能力。
【MetaStone-S1】AI总在关键步骤出错?原石科技开源「自我纠错」大模型,推理链准确率暴增41%
MetaStone-S1是原石科技推出的反思型生成式大模型,采用双头共享架构和自监督学习机制,在数学、代码生成和中文推理任务中表现出色。