微软研究院发布了个原生 1-bit 的大语言模型:bitnet-b1.58-2B-4T
微软发布原生1-bit大语言模型bitnet-b1.58-2B-4T,其在内存占用和CPU推理延迟上大幅降低,并且性能接近全精度模型。
微软发布原生1-bit大语言模型bitnet-b1.58-2B-4T,其在内存占用和CPU推理延迟上大幅降低,并且性能接近全精度模型。
LINE Messaging API实现高效消息推送,支持文本和Flex消息,并提供用户详细资料获取功能。
Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型,能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术,能够实现统一处理图像、文字输入输出,表现出色的视觉理解和强大的图像生成功能。
最近TTS开源项目大爆发。介绍4个模型:Medium、Small、Tiny和Nano,涵盖英语及多语言模型,并提供详细的Orpheus TTS项目简介和功能特点。
LocAgent 是一种基于图表示和大型语言模型(LLM)的代码问题定位框架,能够高效搜索和定位代码库中的相关代码实体,显著提升开发效率。
谷歌最先进的视频生成模型Veo 2能将文本、图像或两者结合转化为八秒的视频,它擅长理解简单和复杂指令,并准确模拟现实世界的物理规律。开发者可以通过Google AI Studio、Gemini API等平台使用Veo 2的核心功能包括文本到视频和图像到视频。同时介绍Python工具Zev用于自然语言查询终端命令、VS Code扩展RooFlow增强AI辅助开发、实时会议转录APIVexa支持多种平台并提供企业级安全保障的工具automcp。
本项目基于browser-use构建WebUI,支持多种LLM并提供自定义浏览器和持久会话功能。通过Python环境安装或Docker安装方式简单上手。
Omi是一款开源AI可穿戴设备,可以捕捉对话并提供实时转录、即时摘要等功能。它有4天电池寿命,支持离线操作,并且开放API让开发者创建应用生态。