开源星探，作者每时AI - 第6页共26页

3B小模型吊打72B巨头！轻量级文档解析OCR，性能超Gemini，高效且精准！

2025年6月10日8时作者开源星探

近日，Yuliang-Liu团队发布了一款名为MonkeyOCR的轻量级文档解析模型，它以结构-识别-关系（SRR）三元组范式实现了高效精准的文档解析，在英文文档解析任务中超越了Gemini 2.5 Pro和Qwen2.5-VL-72B。其处理速度达每秒0.84页，支持中英文文档处理，并能生成Markdown或JSON结构化数据，适用于企业文档处理、学术研究等场景。

无坐标时代来临！微软开源革命性GUI定位神器，注意力机制+多区域预测，适配任意屏幕！

2025年6月9日8时作者开源星探

微软开源GUI-Actor无坐标视觉定位工具，通过注意力机制直接识别目标区域，支持网页、桌面和移动端UI，性能媲美甚至超越传统方法。

AI驱动的智能交易革命！开源多智能体交易系统，模拟真实团队决策，打造高效精准的股票交易系统！

2025年6月8日8时作者开源星探

最近发现一款名为TradingAgents的开源多智能体交易系统，通过模拟真实交易团队分工协作和双模型驱动等特性，在金融投资领域显著优于传统模型。

解锁文档处理新高度！这个开源神器支持OCR+机器学习，超丰富的API接口，效率翻倍！

2025年6月7日8时作者开源星探

Dedoc是一款ISPRAS团队开源的文档提取与转换工具，支持多格式文档处理，包括Office、PDF和扫描件等，并能智能提取表格、文本格式和逻辑结构。其核心功能亮点涵盖文档逻辑结构提取、复杂表格解析以及OCR扫描件处理。

即梦图片3.0又重磅更新，这可能是对普通人最有用的一次。

2025年6月6日11时作者开源星探

昨天晚上发布的新版本图片3.0的智能参考功能上线，支持一键修改文字、风格转换和添加元素。展示了多款可爱萌宠海报及换字案例，并提醒透明PNG图片需注意格式问题。

PDF解剖大师来了！LandingAI开源神器，这个Python库让百页文档秒变结构化数据！

2025年6月6日8时作者开源星探

Agentic-Doc 是一款强大的Python库，专为从复杂文档中提取结构化数据而设计。它支持PDF、图片和URL等多种格式，并通过计算机视觉和LLM实现精准解析表格、图表、图片等信息。

突破传统检索瓶颈！阿里通义实验室发布 WebDancer，开启多步推理智能体新范式!

2025年6月5日8时作者开源星探

阿里巴巴通义实验室的WebDancer通过创新方法解决复杂信息检索问题，包括数据合成、轨迹采样、监督微调和强化学习等阶段。它展示了显著的进步，并有望在未来拓展到更广泛的场景和技术应用中。

新版DeepSeek R1你得这样用，太爽啦~

2025年5月30日16时作者开源星探

几经波折测试后发现，新版DeepSeek R1在代码能力上大幅提升接近Claude4水平，而写作和数学能力提升有限。升级后的新版本代码和审美增强明显。

腾讯混元开源新作！超强的音频驱动数字人生成模型，支持多角色、多风格及口型与表情同步！

2025年5月30日8时作者开源星探

腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar，支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频（最长14秒），生成高保真语音驱动动画，并引入了三项关键创新。

字节开源多模态复杂文档解析模型！Dolphin：页面与元素并行解析，精准解析复杂文档！

2025年5月29日8时作者开源星探

字节跳动开源多模态AI模型Dolphin，通过两阶段机制精准解析复杂文档，支持页面级和元素级解析，并提供在线Demo及本地部署指南。