月度归档: 2025 年 6 月
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
王劲提出FUDOKI,一种基于非掩码离散流匹配架构的通用多模态模型,实现了图像生成与文本理解的统一建模。
AI Screenshot Translator:简单实用的截图翻译工具
GitHub 上的 AI Screenshot Translator 是一款实用工具,用于翻译图像中的文本,支持 PDF 数学公式和多窗口管理,可通过自定义快捷键一键截图并翻译。
Awesome-Multimodal-LLM-for-Code:专注于多模态场景下代码生成的资源库
Awesome-Multimodal-LLM-for-Code:整合多种多模态代码生成资源的优秀库,涵盖Web前端、科学绘图等场景,提供高质量论文和数据集,并持续更新。
Kokoro TTS:一款强大的CLI文字转语音工具,能将文本快速转换为自然流畅的语音
Kokoro TTS是一款强大的CLI工具,支持多种语言和声音格式,可将文本转换为语音,并提供EPUB、PDF和TXT等多种输入选项。
Supermemory MCP:跨大型语言模型的通用记忆系统
通过system prompt要求AI在每次聊天中使用tool call传递上下文至MCP(向量数据库),用于保存历史信息并按需查询用户洞察。
3B小模型吊打72B巨头!轻量级文档解析OCR,性能超Gemini,高效且精准!
近日,Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型,它以结构-识别-关系(SRR)三元组范式实现了高效精准的文档解析,在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页,支持中英文文档处理,并能生成Markdown或JSON结构化数据,适用于企业文档处理、学术研究等场景。