技术再总结:7个开源大模型数据合成工具-涵盖微调、强化、RAG任务
2025年7月24日,北京下雨。本文回顾了六个大模型数据合成工具,并介绍了DatasetLoom平台的功能和核心提示机制,强调了在生成多样化数据时需要考虑的主题控制、难度和长度参数。
2025年7月24日,北京下雨。本文回顾了六个大模型数据合成工具,并介绍了DatasetLoom平台的功能和核心提示机制,强调了在生成多样化数据时需要考虑的主题控制、难度和长度参数。
今天讨论了大模型训练Agent-tool use的相关数据和工具。主要介绍了MSAgent-Bench-中文Agent数据集以及如何使用这些数据训练文本和多模态Agent,还提到了loss计算的设定方法。
2025年7月15日文章概述:探讨RAG与Reasoning结合的必要性和实现方案,并对比分析了18个DeepResearch项目的技术细节。
今天是2025年7月6日,星期日,北京晴天。文章介绍了六个无代码LLM、Agent和RAG开源工具,并探讨了使用推理大模型进行时间序列预测的方法及其奖励函数设计。
2025年7月5日周六,北京晴天。介绍了中文拼写和语法纠错的大模型及其开源工具,包括14种错误类型支持,并提供了多个版本的训练数据集和代码。同时总结了语音大模型的技术进展,涵盖了50多种语音语言模型的数据集、tokenizer以及主流模型资源。
掌握AI模型API的开发者们注意!Google联合Founder Park推出『从模型到行动』系列AI工作坊,邀请来自不同行业的开发者参加沉浸式动手实操活动,学习Gemini多模态能力及应用。
极智嘉成立于2015年,总部位于北京,是全球领先的智慧物流公司之一。公司即将通过港交所上市,计划发行不超过226,080,000股境外上市普通股,并将846,074,883股境内未上市股份转为境外上市股份。极智嘉连续三年在全球AMR市场占有率领先,提供多种仓储履约解决方案,在硬件和财务数据方面表现突出,获得多家知名机构投资。
京沪两地网信部门公布整治AI技术滥用阶段性进展,涵盖清理违规AI产品、强化内容标识管理等方面。专项行动划分为两个阶段,目前第一阶段任务基本完成。
2025年6月10日,北京晴。本文讨论了文档解析处理中的检测问题和语义解析问题,包括布局检测、阅读顺序识别、背景干扰、ppocrv5模型精度、跨页表格合并等问题,并提出了解决方案。