开源
ScrapeServ:一个自托管的API,输入网址即可获取网页数据和浏览器截图
ScrapeServ:一个自托管的API,能通过输入网址获取网页数据及浏览器截图,支持滚动页面并截取不同区域。它运行在Docker容器中,部署简单,并自动处理302重定向以保证内容完整性。
17.1K Star!高效的OCR处理工具!让扫描PDF文件变得可搜索、可复制!
OCRmyPDF 是一款命令行工具,用于将扫描的 PDF 文件转换为可搜索、可复制的文档。它支持超过 100 种语言,并利用 Tesseract OCR 引擎实现高效的文字识别。
太惊艳!字节跳动 INFP,让虚拟对话 “活” 起来啦
INFP是字节跳动研发的一种全新的音频驱动交互式头部生成框架,它能根据双轨对话音频实时生成动态虚拟人物头像,支持多语言、唱歌模式和多种场景。研究显示其在音频-唇同步性、身份保留和动作多样性等方面表现优异。
酷!字节、USC、斯坦福等开源的一个动态人体图像动画模型:X-Dyna
X-Dyna 是一个基于扩散模型的动态人体图像动画工具,能利用单张人像图片和驱动视频生成逼真的人物形象动画及表情、动作迁移等应用。
李飞飞S1成本仅50美元性能媲美Deepseek-R1,Logic RL成功重现了 DeepSeek R1 Zero 模型
本文介绍了5个AI和机器学习相关项目及工具:s1用于测试时间缩放提高推理效率;R1-V通过强化学习提升视觉语言模型泛化能力与训练效率;deepseek.cpp是一个基于C++的CPU-only推理实现,旨在为DeepSeek大语言模型提供支持;Logic RL成功复现了DeepSeek R1 Zero逻辑难题数据集上的问题解决能力;OpenHealth则是一款本地运行的AI健康助手。
DeepSeek-R1:通过强化学习提高大语言模型的推理能力
论文介绍了DeepSeek-R1-Zero和DeepSeek-R1两种推理模型,前者通过大规模强化学习训练,在没有监督微调下展现卓越推理能力,后者结合多阶段训练和冷启动数据优化其性能。