T5 归档 - 每时AI

GraphRAG遇见事件图谱及llama、Qwen、DeepSeek等主流大模型架构对比总结

2025年7月21日14时作者老刘说NLP

.2,Qwen3-4B,SmolLM3-3B,DeepSeek-V3,Qwen3-235B-A22B

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

2025年3月24日16时作者机器之心

设计 RLHF 的奖励模型时也是一样。
我们知道，一个 RLHF 算法是否成功的一大关键在于其奖励模