智谱新版VLM开源模型 GLM-4.1V-9B-Thinking
基于GLM-4.1V-9B-Thinking模型,引入强化学习技术提升视觉语言模型能力,在18个任务中与8倍参数量的Qwen-2.5-VL-72B相当或超越
基于GLM-4.1V-9B-Thinking模型,引入强化学习技术提升视觉语言模型能力,在18个任务中与8倍参数量的Qwen-2.5-VL-72B相当或超越
研究团队首次提出Video-T1方法,通过Test-Time Scaling显著提升视频生成性能,提出Tree-of-Frames方法优化搜索效率和生成质量。
DeepSeek发布新模型DeepSeek-V3-0324,参数量685B,支持BF16、F8_E4M3和F32三种精度格式。主要提升性能和修复bug。
人大和阿里开源的GraphAgent是一个利用大型语言模型来模拟人类行为并生成动态社交图的框架,适用于在线社交媒体、电子商务和论文创作等场景。它通过生成带有文本属性的社会图,揭示网络中的互动,并在多个指标上优于现有方法。