NLP工程化，作者每时AI

探索LLM如何捕捉和表征领域特定知识

2025年4月30日8时作者 NLP工程化

本文揭示了大型语言模型在预填充阶段的隐藏状态中内在地编码了领域特定知识，并提出了一种利用这些轨迹进行查询路由的模型选择策略，显著提高了性能特别是开放式生成任务的表现。

2025年4月30日8时作者 NLP工程化

DeepMind专家Vlad Feinberg在普林斯顿的演讲中讨论了模型规模扩展法则的历史、优化策略及未来研究方向，强调小模型客户需求、推理感知扩展法则，并建议开发硬件专用内核和改进量化技术。

2025年4月30日8时作者 NLP工程化

微软推出免费生成式AI入门课程，涵盖基础原理到实战项目全流程，支持Python和TypeScript编程语言，还提供后续对接服务、官方社群交流等资源。

2025年4月30日8时作者 NLP工程化

蒙特利尔大学研究者发表的报告全面梳理了智能体技术，涵盖构成要素、推理、行动系统以及自我进化等内容，详细介绍了AI智能体的内部机制和工作原理。

2025年4月29日8时作者 NLP工程化

研究人员提出TokenShuffle方法显著减少多模态大语言模型中的视觉token数量，提高效率并促进高质量图像生成，超越同类自回归和强扩散模型。

2025年4月29日8时作者 NLP工程化

PipelineRL是用于大规模异步强化学习的框架，支持多GPU异步训练、实时权重更新和Redis流式数据传输，提高硬件利用率和分布式训练效率。

2025年4月29日8时作者 NLP工程化

基于DeepSeek-R1微调的DeepSeek-R1T-Chimera模型在保持性能的同时显著缩短了思考时间，可作为DeepSeek-R1的加强版使用。

2025年4月29日8时作者 NLP工程化

通过VSCode插件使用Gemini-2.5-Pro和Gemini-2.5-Flash实现免费代码写作功能。

2025年4月28日8时作者 NLP工程化

MLX-Audio发布支持Dia模型的v0.1.0版本，针对MacOS设计的推理引擎MLX已支持前日爆火的语音生成模型Dia。

2025年4月28日8时作者 NLP工程化

数据库实体关系（DBER）编辑器——drawDB支持可视化编辑库表结构与关系，并可导入现有库表进行梳理，同时具备AI生成SQL功能，部署方便，基于网页应用。