首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源

首个应用型AI翻译测评榜单TransBench上线,新增幻觉率、文化禁忌词等指标。TransBench评测数据集已全面开源,涵盖多种语言,针对电商和文化特性等方面进行实战考核。目前发布的首期测评结果中,GPT-4o、DeepL Translate、Qwen系列表现突出。

天工超级智能体:用 Office Agent 重新定义 AI 生产力

昆仑万维发布天工超级智能体(Skywork)在GAIA Benchmark上力压群雄。Skywork定位为AI版的Office,涵盖文档、PPT和表格三个场景,支持多场景写作、精美可编辑幻灯片生成及数据分析与可视化等功能。