开源归档 - 第89页共201页

微软研究院发布了个原生 1-bit 的大语言模型：bitnet-b1.58-2B-4T

2025年4月17日8时作者 NLP工程化

微软发布原生1-bit大语言模型bitnet-b1.58-2B-4T，其在内存占用和CPU推理延迟上大幅降低，并且性能接近全精度模型。

browser-use-mcp-server：它允许 AI Agent通过浏览器控制器来浏览网页

2025年4月17日8时作者 NLP工程化

一个支持SSE和stdio双协议传输的MCP服务器，提供实时VNC流媒体功能和异步任务执行能力。

line-bot-mcp-server：将AI Agent与LINE官方账号无缝连接的MCP服务器

2025年4月17日8时作者 NLP工程化

LINE Messaging API实现高效消息推送，支持文本和Flex消息，并提供用户详细资料获取功能。

多模态AI模型再添猛将！Liquid：字节最新开源的多模态LLM，视觉与语言统一生成！

2025年4月17日8时作者开源星探

Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型，能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术，能够实现统一处理图像、文字输入输出，表现出色的视觉理解和强大的图像生成功能。

爆火开源TTS，支持零样本克隆，200ms超低延迟，情感语调超自然。

2025年4月16日23时作者开源AI项目落地

最近TTS开源项目大爆发。介绍4个模型：Medium、Small、Tiny和Nano，涵盖英语及多语言模型，并提供详细的Orpheus TTS项目简介和功能特点。

LocAgent：斯坦福联合耶鲁大学等机构推出的代码问题定位智能体

2025年4月16日14时作者小兵的AI视界

LocAgent 是一种基于图表示和大型语言模型（LLM）的代码问题定位框架，能够高效搜索和定位代码库中的相关代码实体，显著提升开发效率。

谷歌最先进的视频生成模型Veo 2，使用自然语言查询终端命令，将多种Agent框架转换为MCP服务器工具

2025年4月16日11时作者每日AI新工具

谷歌最先进的视频生成模型Veo 2能将文本、图像或两者结合转化为八秒的视频，它擅长理解简单和复杂指令，并准确模拟现实世界的物理规律。开发者可以通过Google AI Studio、Gemini API等平台使用Veo 2的核心功能包括文本到视频和图像到视频。同时介绍Python工具Zev用于自然语言查询终端命令、VS Code扩展RooFlow增强AI辅助开发、实时会议转录APIVexa支持多种平台并提供企业级安全保障的工具automcp。

斩获11.8k星！像人类一样使用浏览器，轻松实现浏览器自动化!

2025年4月16日11时作者 GitHubStore

本项目基于browser-use构建WebUI，支持多种LLM并提供自定义浏览器和持久会话功能。通过Python环境安装或Docker安装方式简单上手。

这个开源神器终结了AI数据整合的噩梦！一键聚合网页、代码、论文到剪贴板！

2025年4月16日8时作者开源星探

GitHub 上的一款开源工具OneFileLLM能自动从多种数据源提取内容并整合为单一文本文件，方便大语言模型处理。

开源AI可穿戴设备，小智AI之后的又一个爆火DIY AI硬件。

2025年4月15日23时作者开源AI项目落地

Omi是一款开源AI可穿戴设备，可以捕捉对话并提供实时转录、即时摘要等功能。它有4天电池寿命，支持离线操作，并且开放API让开发者创建应用生态。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30