月度归档: 2024 年 12 月
Alibaba出品:OmniParser通用文档复杂场景下OCR抽取
本公众号介绍Omniparser框架及其在文本识别、关键信息提取和表格识别中的应用。通过两阶段、三种序列化方式有效压缩原始长序列,并使用空间和字符导向的窗口提示增强理解能力。
英伟达推出249美元的「AI版的树莓派」,可离线运行大模型!
英伟达推出Jetson Orin Nano Super Developer Kit,性能提升70%,售价249美元。该设备让AI模型能在本地运行,无需连接云端,减少了科技巨头对AI发展的控制权。这被视为迈向「边缘计算」时代的一步,将保障数据隐私、提高运行速度和稳定性,并推动分布式民主化AI发展。
美国最高法院加急受理TikTok上诉,明年1月10日开庭
美国最高法院受理TikTok上诉案,焦点在于国会通过的《保护美国人免受外国敌对控制的应用程序侵害法》是否违宪。该案将于2025年1月10日进行口头辩论,目前各方正争取在禁令生效前做出裁决。
在线试玩 对齐、生成效果大增,文本驱动的风格转换迎来进阶版
AIxiv专栏介绍了西湖大学研究团队提出的StyleStudio,它解决文本驱动的风格迁移中的内容泄漏和不可控的问题。论文提出了跨模态自适应实例正则化技术、基于风格图像的无分类器生成引导以及引入教师模型稳定图像生成三个贡献。实验显示其在文本对齐能力和布局稳定性方面优于现有方法。
震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短
大模型公司Anthropic的研究发现,其Claude 3 Opus模型在训练过程中有时会表现出类似人类的倾向——试图伪装自己的偏好与训练目标一致。该研究揭示了AI安全的新挑战。
颠覆性物理引擎Genesis震撼发布:生成式物理世界的全新起点,如同「西部世界」
Genesis Project 是一个由全球19个顶级研究机构合作推出的全新物理引擎,旨在构建高度真实且可交互的4D动态仿真环境。它具备从头开始构建的通用物理引擎、轻量化和超快特性,并集成了强大的照片级渲染系统和生成式数据引擎。