Attention is NOT all you need!这个「去Transformer」的玩意直接把我整懵了! 2025年3月25日16时 作者 AGI Hunt 就训练出 一个 完全不用Transformer注意力 的 72B大模型,性能竟超越GPT 3.5?!