Skywork-R1V是首个开源的多模态推理模型,具备先进的视觉链式思维能力
Skywork-R1V是首个开源的多模态推理模型,具备视觉链式思维能力,能够进行复杂的图像问题分解、解决视觉数学问题和解释科学医学图像。
Skywork-R1V是首个开源的多模态推理模型,具备视觉链式思维能力,能够进行复杂的图像问题分解、解决视觉数学问题和解释科学医学图像。
基于多模态大语言模型的PDF转Markdown工具,支持任意PDF文档转换为结构清晰的Markdown格式,并完整保留排版、表格等元素。
Dagger是一个开源工作流运行时,适用于AI代理和CI/CD工作流。它具有容器化执行、类型安全连接、自动工件缓存、可观测性、开放平台等特性。
Python项目排行:1. Ollama Deep Researcher;2. RD-Agent;3. System Design Primer;4. OpenBB;5.RA.Aid;6.DevOps Exercises;7.Fastrtc;8.MinerU;9.ai-hedge-fund。
Sitcom-Crafter 是一个基于剧情驱动的 3D 人类动作生成系统,由北京航空航天大学、香港中文大学(深圳)、悉尼科技大学和中山大学等高校联合开发。它能够根据用户提供的长剧情指导生成多样化且物理真实的动作,支持多种交互场景,并通过增强模块优化动作的流畅性、自然性和同步性。
SmolDocling-256M-preview高效文档转换模型,支持多种元素识别和转换。OpenSearch-SQL无需额外训练提升文本到SQL生成准确性。MarkPDFDown精准将PDF转为Markdown格式。TxAgent利用多步骤推理提供个性化治疗方案。RDAgent自动化数据驱动研发流程,加速创新研究。
LanPaint是一款无需额外训练的AI工具,能够与Stable Diffusion模型无缝对接进行高质量图像修复,支持‘思考模式’优化效果,并允许生成100%新内容。
Two years ago, Andrej Karpathy released an influential video on recreating GPT-2 from scratch.