基于超176k铭文数据,谷歌DeepMind发布Aeneas,首次实现古罗马铭文的任意长度修复

作者:椰椰、紫晗

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源


2025 年 7 月 23 日,谷歌 DeepMind 的研究人员联合诺丁汉大学、华威大学等高校在国际顶尖学术期刊 Nature 上发表了题为「Contextualizing ancient texts with generative neural networks」的研究论文。


人类文明早期的全部记忆,都藏匿在了刻痕和文字之中。铭文是最早的文字形式之一,为人们洞察古代文明的思想、语言和历史提供了窗口。从皇帝的政令到奴隶的墓志铭,这些刻在石碑、青铜器上的文字,成为了判定年代、理解文化的直接证据。据估计,每年仍有 1,500 条新的拉丁铭文被发现,但碑铭学的研究却面临着文本残缺、解读障碍、学识局限等诸多困境。


2025 年 7 月 23 日,谷歌 DeepMind 的研究人员联合诺丁汉大学、华威大学等高校在国际顶尖学术期刊 Nature 上发表了题为「Contextualizing ancient texts with generative neural networks」的研究论文。


该研究包含 3 大创新亮点:

* Aeneas 能够同时接收铭文的文本转录和图像信息。图像通过浅层视觉神经网络处理,与文本特征结合后,尤其助力地理归因任务。

此前 AI 仅能修复长度已知的文本,而 Aeneas 突破修复限制,首次开创「任意长度修复」的能力。

Aeneas 的核心能力是为目标铭文找到最相关的「平行文本」。这些平行文本不仅包含相似短语,还涵盖文化背景、社会功能等深层关联,远超传统字符串匹配的局限。

模型架构:多模态生成式神经网络 Aeneas

Aeneas 是一个多模态生成式神经网络(multimodal generative neural network),采用基于 Transformer 的解码器来处理铭文的文本和图像输入,通过一个浅层视觉神经网络处理从拉丁铭文数据集中检索相似的铭文,并按照相关性排序。输入文本由模型的核心部分——「躯干(torso)」处理。


专为拉丁铭文的语境化分析设计的 Aeneas,其架构包括输入处理、核心模块、任务头及语境化机制组成。

输入处理:输入为铭文的字符序列和 224×224 的灰度图像。其中,字符序列最长 768 字符,用「-」标记已知长度缺失、「#」标记未知长度缺失,以 < 为句首标记;

核心模块:文本由基于 T5 Transformer 解码器改进的 torso 处理,含 16 层,每层 8 个注意力头,采用相对位置旋转嵌入,图像通过 ResNet-8 视觉网络处理。随后,torso 和视觉网络的输出被导向 heads 的专用神经网络,利用文本处理字符恢复和年代测定任务,每个 heads 都经过定制,以处理 3 个关键的碑铭学任务。

任务头(task head):输出端有专门的任务头,分别处理文本修复(含辅助头应对未知长度修复,用束搜索生成假设)、地理归因(结合文本与视觉特征,分类 62 个罗马省份)、年代归因(将日期映射为 160 个离散十年区间),所有任务均附显著性图;

语境化机制:通过整合 torso 与任务头的中间表示生成历史富集嵌入,基于余弦相似度检索相关平行铭文,辅助历史学家研究。



埃涅阿斯架构对文本转录的处理


以 Aeneas 对短语「Senatus populusque Romanus」的处理过程为例:给定某一铭文的图像及其文本转录(其中长度未知的受损部分用「#」标记)后,Aeneas 会采用 torso 对文本进行处理。heads 负责字符恢复、年代判定和地理归属(地理归属任务还会整合视觉特征)。torso 的中间表征会被融合为一个统一的、富含历史信息的嵌入向量,以此从拉丁铭文数据集(LED)中检索相似的铭文,并按相关性排序。


需要注意的是,Aeneas 模型只有地理归属 heads 整合了来自视觉网络的额外输入,文本修复和年代归属任务不使用视觉模态。恢复任务排除视觉输入是为了防止意外的信息「泄露」,由于文本的部分内容被人工掩盖,且其在图像中的确切位置未知,模型可能会利用视觉线索来推断和恢复隐藏的字符,从而损害任务的完整性。

数据集:可供机器操作的最大规模拉丁铭文数据集

用于训练 Aeneas 模型的语料数据库在研究中称为拉丁铭文数据集 (LED),是迄今为止最大的、机器可操作的拉丁铭文数据集。LED 数据集的综合语料数据来自 3 个最全面的拉丁铭文数据库:罗马铭文数据库(EDR)、海德堡铭文数据库(EDH)和 Clauss-Slaby 数据库,其中包含从公元前七世纪到公元八世纪的铭文,地理覆盖范围从西部的罗马行省不列颠尼亚(今英国)和卢西塔尼亚(葡萄牙),到东部的埃及和美索不达米亚。为确保整个 LED 数据集的一致性,研究使用 Trismegistos 数据平台中的标识符处理数据中存在的歧义,并应用了一套过滤规则来系统地处理人工注释,实现文本可由机器操作处理。


为获得标准化的元数据,研究将与日期和历史时期相关的所有元数据转换为公元前 800 年至 公元 800 年范围内的数字,超出此范围的铭文则被排除在外。为提升模型的学习和泛化能力,研究将数据集中的实质性文本内容按照标准,转换为机器可操作的格式:


* 删除或规范化历史学家的碑文注释,保留与原始铭文最接近的版本。 

拉丁文缩写未被解析,而由于历时、双向或变位原因而显示替代拼写的词形被保留,以便模型学习其在碑文、地理或年代顺序上的具体变化。

保留由编辑者恢复或无法最终恢复的缺失字符,当无法确定缺失字符确切数量时使用井号(#)作为占位符,同时折叠多余空格以确保输出内容简洁。 

去除非拉丁字符,只留下拉丁字符、预定义标点符号和占位符。

*过滤重复铭文,超过 90% 内容相似度阈值的文本被视为重复。


在转换格式后,研究根据唯一铭文标识符的最后一位数字,将 LED 划分为训练、验证和测试集,从而确保图像在各个子集之间的均匀分布。



研究在实施自动过滤流程后,通过对颜色直方图应用阈值剔除主要由单一纯色组成的图像,利用拉普拉斯矩阵的方差来识别和丢弃模糊图像,并将清理后的图像转换为灰度图,进而从数据集中获取了可用的铭文图像。LED 数据集共包含 176,861 个铭文,但其中大多数都存在部分损坏,仅有 5% 铭文能产出可用的相应图像。

实验结论/性能

研究人员从任务执行、Onomastics 基线、语境化机制与研究效率 3 个层面对 Aeneas 模型的性能进行了评估。

* Onomastics 是研究人名、地名、族名、神名等专有名称的起源、结构、演变和意义的学科。

任务执行指标

该研究使用文本修复、地理归属和时间归属三方指标组成了评估框架。其中,研究人员使用人为方法破坏任意长度文本并提交模型生成修复对象;在地理归属任务中则使用标准的 Top-1 和 Top-3 准确率指标来评估性能;对于时间归因,则使用一个可解释的指标来评估预测结果与真实数据之间的时间接近度。


实验显示,Aeneas 的架构提供了多模态功能,能够恢复长度未知的文本序列,并且能够适应任何古代语言和草纸、铸币等书面媒介,在古代文献研究的语境化过程中捕捉铭文与历史的联系。

Onomastics baseline

Aeneas 模型对 Onomastics 中派生的元数据的自动化评估成为其归因预测能力的关键指标。由于没有预先编译的罗马专有名词列表,研究团队从专有名词存储库中手动删除了 350 个不代表专有名词的项目,排除了由于用法歧义而较短或包含非拉丁字符的条目,从而得到一个包含约 38,000 个专有名词的精选列表。


为了增强方法的稳健性,研究识别并筛选了数据集中最常用的单词,使其仅包含完全由精选专有名词列表中的条目组成,随后计算其在训练数据集中的平均时间和地理分布,以便 Aeneas 模型在分析新铭文时利用已处理的专有名词数据来预测新铭文的日期和出处。


Aeneas 模型在该任务的评估方法能够应用于全数据集,并实现了扩展性的提高。

语境化机制与研究效率

研究评估了 Aeneas 模型的语境化机制作为历史研究基础工具的有效性。23 位来自多元化背景的铭文学家匿名参与了此次评估,根据 3 次铭文任务的执行体验,测评了使用 Aeneas 语境化机制作为研究辅助工具的效率感受:


* Aeneas 模型能够显著缩短寻找相关信息的时间,使研究能够专注于更深入的历史解读和构建研究问题。 

* Aeneas 模型检索到的信息准确,为了解碑文的类型和背景提供了宝贵的见解,有助于研究任务推进。

* Aeneas 能够通过识别重要但先前未被注意到的相关信息和被忽视的文本特征来拓宽搜索范围,同时对结果进行优化。

有专家对「真实性」存疑

「Aeneas 是人工智能在历史学科的开端」,人工智能领域的技术专家 David Galbraith 给出了这样的高度评价。Aeneas 的突破,不仅是技术层面的进步,更标志着人文学科与 AI 的深度融合。对历史学家而言,它不是代替学者,更多的是成为一个「超级助手」,减少机械劳动,拓展研究视野。同时在 AI 领域,它证明了多模态、语境化模型在处理复杂人文数据时的潜力,为未来发展其它古代语言的研究提供了范本。



Aeneas 仍有局限。面对 Aeneas 的突破性进展进展,另一位人工智能专家产生忧思,「过度依赖 AI 来填补空白,真实性就会存疑」。



诚然,AI 是工具,而非真实的替代者。训练数据中仅 5% 的铭文配有图像,部分地区(如西西里)和时期(如公元前 600 年以前)的铭文数量不足,导致预测精度下降。这些都在警醒我们当前 AI 技术的不成熟性尚存,应当理性抉择它在科研、生活中的占比。


 往期推荐 


“阅读原文”,免费获取海量数据集资源!

(文:HyperAI超神经)

发表评论