LLM
自然人声合成Orpheus-TTS
Orpheus TTS 是基于 Llama-3b 骨干网络的开源文本到语音系统,展示了使用大型语言模型(LLMs)进行语音合成的新能力。它支持类人语音、零样本语音克隆及指导情感和语调控制等功能,且具备低延迟特性。
Claude Code的开源替代OpenCoder,AI Agent驱动的Web测试框架Magnitude,
OpenCoder是基于Vercel AI SDK的开源替代品,提供跨平台支持和MCP功能。LINE Bot MCP Server实现模型上下文协议(MCP),连接AI代理至LINE官方账号。Saiki利用自然语言控制工具和服务,简化自动化工作流程。Magnitude作为Web测试框架,通过视觉AI适应界面变化。Hi3DGen从2D图像生成高保真3D几何体,克服现有方法的局限性。
Yann LeCun:我不玩大模型了,那都是过去式!
Meta首席AI科学家Yann LeCun表示不再对大语言模型感兴趣,认为它们并非通往真正人工智能的正确路径。他指出大语言模型缺乏理解物理世界的能力,没有持久记忆,并且无法进行真正的推理和复杂规划。
如今的Reasoning模型都不具备批判性思维!简单问题, Overthinking!离谱
MLNLP社区是一个国际化的机器学习与自然语言处理社区,致力于促进学术界、产业界及爱好者间的交流合作。最新研究表明,大型语言模型在遇到缺乏关键信息的问题时容易陷入无效思考。
一文精讲 – MCP与LLM函数调用的区别
LLM函数调用与MCP(模型上下文协议)是两种不同的技术方案。LLM函数调用允许大型语言模型生成用于调用外部函数的JSON格式输出;而MCP提供了一个标准化框架,让AI模型通过统一接口访问不同工具和服务,增强了可扩展性和效率。
集音视频翻译、配音、语音克隆于一体!一站式视频多语言转换工具Krillin AI
Krillin AI 是一款全能型音视频本地化与增强解决方案,支持横竖屏格式输出,一键启动、精准识别、智能分段等功能。
一个简单高效的 LLM 强化学习库:nanoAhaMoment
GitHub 上发布 nanoAhaMoment 库,仅需单个 80G GPU 即可实现高效 LLM 强化学习训练,支持微调基础模型并附有教程。