北京归档 - 每时AI

技术再总结：7个开源大模型数据合成工具-涵盖微调、强化、RAG任务

2025年7月24日14时作者老刘说NLP

2025年7月24日，北京下雨。本文回顾了六个大模型数据合成工具，并介绍了DatasetLoom平台的功能和核心提示机制，强调了在生成多样化数据时需要考虑的主题控制、难度和长度参数。

景区强制刷脸“盯”上VIP会员：办年卡入园，先交出你的脸

2025年7月22日12时作者 AI前哨站

的李明想要
办理一张园区年卡，却被工作人员告知必须拍摄照片，因为后续需要“刷脸”入园
。李明提出刷身

大模型Agent工具调用能力训练中的数据构成、Prompt构造及训练工具

2025年7月18日14时作者老刘说NLP

今天讨论了大模型训练Agent-tool use的相关数据和工具。主要介绍了MSAgent-Bench-中文Agent数据集以及如何使用这些数据训练文本和多模态Agent，还提到了loss计算的设定方法。

18个Deepresearch项目技术实现对比及RAG与Reasoning结合范式

2025年7月15日14时作者老刘说NLP

2025年7月15日文章概述：探讨RAG与Reasoning结合的必要性和实现方案，并对比分析了18个DeepResearch项目的技术细节。

6个无代码LLM、Agent、RAG开源工具及推理大模型用于时间序列预测工作

2025年7月6日14时作者老刘说NLP

今天是2025年7月6日，星期日，北京晴天。文章介绍了六个无代码LLM、Agent和RAG开源工具，并探讨了使用推理大模型进行时间序列预测的方法及其奖励函数设计。

NLP之文本纠错开源大模型：兼看语音大模型总结

2025年7月5日14时作者老刘说NLP

2025年7月5日周六，北京晴天。介绍了中文拼写和语法纠错的大模型及其开源工具，包括14种错误类型支持，并提供了多个版本的训练数据集和代码。同时总结了语音大模型的技术进展，涵盖了50多种语音语言模型的数据集、tokenizer以及主流模型资源。

跟着Google出海：教你怎么落地Gemini

2025年7月2日8时作者 Founder Park

掌握AI模型API的开发者们注意！Google联合Founder Park推出『从模型到行动』系列AI工作坊，邀请来自不同行业的开发者参加沉浸式动手实操活动，学习Gemini多模态能力及应用。

移动机器人企业「极智嘉」获赴港上市备案通知，或成仓储AMR第一股

2025年6月13日23时作者机器人开放社区

极智嘉成立于2015年，总部位于北京，是全球领先的智慧物流公司之一。公司即将通过港交所上市，计划发行不超过226,080,000股境外上市普通股，并将846,074,883股境内未上市股份转为境外上市股份。极智嘉连续三年在全球AMR市场占有率领先，提供多种仓储履约解决方案，在硬件和财务数据方面表现突出，获得多家知名机构投资。

整治AI滥用行动开展逾月，抖音微博小红书等交“成绩单”｜快讯

2025年6月12日23时作者 AI前哨站

京沪两地网信部门公布整治AI技术滥用阶段性进展，涵盖清理违规AI产品、强化内容标识管理等方面。专项行动划分为两个阶段，目前第一阶段任务基本完成。

真实场景下文档解析中的2大类8个常见问题：目录层级解析、布局检测、阅读顺序及长表格拼接

2025年6月10日14时作者老刘说NLP

2025年6月10日，北京晴。本文讨论了文档解析处理中的检测问题和语义解析问题，包括布局检测、阅读顺序识别、背景干扰、ppocrv5模型精度、跨页表格合并等问题，并提出了解决方案。

2026 年 1 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31