开源
Promptimal:AI提示优化工具,通过遗传算法快速改进你的AI提示词
Promptimal:通过遗传算法改进AI提示词,无需数据集提升效果(参考文献:[1] http://github.com/shobrook/promptimal)
超火的AI自动化操作浏览器神器!WebUI版来了,简单易用的界面,新增很多实用功能!
Brower Use WebUI 是一款基于 Browser Use 优化开发的开源工具,提供简单易用的可视化界面,支持多种大语言模型和自定义浏览器功能。它简化了复杂的自动化任务操作,提升了用户隐私保护,并增加了高清屏幕录制功能,使任务审计、错误排查和结果分享等场景更实用。
震撼!首个开源的交互式全模态大语言模型,GPT-4o realtime的开源实现。
南京大学AI团队发布的VITA-1.5开源项目是一款接近实时的多模态大型语言模型,支持中英文,显著降低交互延迟,并在语音处理和图像理解方面取得提升。
胶卷扫描处理成最终图像,手工打造AI 聊天机器人,NEXT15实时音频对话
本文介绍了Film Scan Converter图像处理软件、OpenAI WebRTC Shadcn Next15 Starter语音AI应用、小智 AI 聊天机器人项目、NVIDIA Cosmos开发者平台和Mini LLM Flow简洁LLM框架。
头条开源了LatentSync:用于口型同步的音频条件潜在扩散模型
提出了一种基于音频条件潜在扩散模型的端到端口型同步框架LatentSync,无需中间运动表示,并通过时间表示对齐 (TREPA) 提高了时间一致性。
Semi-Auto-NovelAI-to-Pixiv:集成了多种 AI 工具的项目
Semi-Auto-NovelAI-to-Pixiv项目集成了多种AI工具,旨在实现批量文生图、图生图等功能,并提供WebUI操作管理。