分享
大,就聪明吗?论模型的“尺寸虚胖”
文章介绍了Gemma-3和DeepSeek V3在参数量上的对比,并指出模型效果不仅仅取决于参数大小。通过详细解释Dense和MoE架构的区别及其实际应用效果,强调了参数数量并不能直接反映模型性能优劣的观点。同时讨论了知识蒸馏技术如何让小模型继承大模型的能力,而不仅仅是关注模型的规模大小。
Claude“大脑”被Anthropic扒开了,发现它是这么思考的~
Anthropic分享了Claude是如何思考的:心算采用多条并行计算路径;多步推理通过连接独立的事实得出答案;幻觉被默认拒绝但可通过干预产生。此外还展示了其多语言能力和写押韵诗的能力。
MCP玩家必备!这几个网站你都收藏了吗?
文章介绍了五个不错的mcp网站,包括pulsemcp、Smithery、cursor.directory、claude mcp和mcp.so,并对其特点进行了简要介绍。
就在刚刚!Manus 宣布收费,LangManus删库跑路,AI收费时代来了?
Manus正式推出付费订阅计划,免费用户可获1000积分基础额度,不同档位解锁更强功能和更高算力。费用分别为Starter每月39美元(3900积分),Pro每月199美元(19900积分)。
GPT-4o整活!3个小时、6个镜头重现吉卜力版《甄嬛传》名场面
网友通过GPT-4o和Morphic等工具制作了吉卜力风格的影视名场面作品,包括《星际穿越》、《魔戒》预告片以及《甄嬛传》经典桥段动画。制作过程简单且效果出色,展示了AI技术在艺术创作中的潜力。