麻省理工学院(MIT)布勒教授(Markus J. Buehler)便是这一领域的先锋。他将生成式人工智能与材料科学相结合,探索多模态智能推理与图论的应用,通过生成式知识提取驱动科学发现。这种方法不仅为生物材料设计和功能优化提供了新思路,还可能解决AI当前最大的瓶颈之一:如何在复杂问题中实现更强的推理能力和泛化性。
正如Buehler在其2024年的最新研究中指出(添加微信pkcapital2023,获取59页论文原文),生成式AI与图论的结合正在重塑科学研究的范式。这不仅是一种技术上的突破,更是对科学发现本质的重新定义。这种跨越艺术与科学的旅程,为AI在未来的科学发展中打开了全新的可能性。
一、图谱(Graphs)的力量
简单来说,这种方法可以称之为一种“上下文增强”(context enrichment)方法。要理解它的工作原理,我们需要先弄清楚大型语言模型(LLM)的一项核心特性:上下文学习能力(in-context learning)。
通俗点讲,LLM可以接收从未见过的新上下文,对其进行学习,并基于此做出准确的预测。
举个例子,我们可以将LLM连接到一个浏览器API(例如OpenAI的实现方式),让它使用互联网。通过抓取与用户查询相关的信息,它甚至能够对其先前无法获知的最新事件做出回应。
尽管这种功能非常强大,但它的效果高度依赖于上下文的质量。那么,如果我们能够丰富提供的上下文,让LLM在更广阔的信息图谱中“探索”,进而发现那些起初并不显现的潜在知识,又会怎样呢?
这正是图谱的力量:通过创建关联性更强、更复杂的上下文环境,为LLM提供“知识地图”,它可以顺藤摸瓜,挖掘出隐藏的信息与洞见。
这种方法不仅提升了模型的表现,也为解决复杂问题开辟了全新路径。
二、从文本到图谱
布勒教授认为,标准文本虽然可以告诉我们“是什么”、“何时”、“在哪里”和“哪个”,但真正的价值在于“如何”。换句话说,如果我们能将上下文以知识的形式表达(围绕“如何”),而不是以原始文本形式呈现,就能让LLM的推理能力大大增强。
如何实现这一点呢?答案是图谱。
让我们用一个例子来说明:“基因A通过蛋白质B和P的产生与交互,以及丝状纤维C作为支架的应用,可以间接促进伤口愈合技术D。”
我们可以将这句话转换成一个知识图谱:
-
基因A → 产生 → 蛋白质B
-
蛋白质B → 交互作用于 → 蛋白质P
-
蛋白质P → 帮助形成 → 丝状纤维C
-
丝状纤维C → 被应用为 → 支架
-
丝状纤维C → 可作为 → 伤口愈合支架(技术D)
通过遍历这个图谱,我们可以得出结论:基因A → 间接促进 → 伤口愈合技术D。
通过这种方法,我们将数据中的关键模式提取出来,剔除了无关信息,专注于底层的核心关系。我们使用“节点”表示概念,用“边”表示关系,将看似无关的概念(如基因A与伤口愈合技术D)通过一系列连接关系串联起来。
通过以上例子,我们会发现图谱的优势:
-
可视化抽象结构
图谱让数据关系一目了然,帮助LLM更高效地发现隐藏的联系。
-
去噪聚焦核心
通过图谱,LLM可以快速过滤掉冗余信息,仅关注数据的本质结构。
-
快速关联推理
借助节点与边的遍历,模型可以迅速在数据中找到潜在联系,提供更强大的知识推理能力。
图谱不仅仅是用于抽象信息,它还能处理复杂知识网络,进一步提升LLM的学习和推理水平。这种结构化的信息表示方式,为解决高复杂度问题提供了新的工具和视角。
二、从内容到知识
图谱的另一大强大能力在于,它可以将来自不同来源的信息连接起来。以之前的例子为例,一项研究可能只涵盖“基因A到蛋白质P”的前三个概念,而另一项研究则可能探讨“蛋白质P与伤口愈合”之间的关系。
虽然在没有图谱的情况下也可以连接独立的来源,但图谱提供了一种自然的抽象形式。它通过内容本身,而非任意的方式,将每个来源直接联系起来。
通过图谱,我们将间接关联的概念整合为一个独特且可遍历的知识源。换句话说,图谱可以将原始内容转化为知识。
尽管前面的例子相对简单,不需要借助LLM来处理,但当面对由1000篇研究论文构建的图谱时,情况就完全不同了。这种图谱包含成千上万的节点和连接,每个节点之间可能存在100跳(100-hopped )长度的关系。
这样的复杂图谱才真正体现了AI的威力。
当将这些复杂的图谱输入到像GPT-4这样的LLM时,布勒教授指出,模型能够生成深刻的洞见,并推理出此前未曾建立过的概念之间的关系。这充分证明了LLM借助其上下文学习能力,能够探索出全新的研究路径,例如发现新的材料及其属性,或揭示看似无关概念之间的联系。
想象一下,这种方法用于探索新型抗病技术、开发新材料,甚至拓展到生物学以外的领域,会带来怎样的革命性变化。
布勒教授的研究并未止步于此。事实上,接下来的发展可能比这些还要令人震撼。
三、宇宙中的奥秘
之前的方法展示了如何通过直接关系将概念间的“鸿沟”填平,连接那些表面上看似无关的事物。而布勒教授进一步提出了同构性(isomorphism)这一概念。
同构性指的是在两个或多个看似毫无关联的数据分布中存在的共同结构。简单来说,虽然两个主题看起来完全无关,但它们的数据结构可能是相同的。
万花筒理论(The Kaleidoscope Theory)指出,尽管宇宙看似无穷无尽、不断变化,其深层结构却出人意料地普遍且简单。换句话说,尽管这些规律因媒介的不同表现形式各异,但它们实际上由一些普适的基本法则支配。
这个理论之所以被称为万花筒理论,是因为万花筒通过将光线折射到一组离散的晶体上,产生了无穷多的图案。而实际上,这些变化多端的图案都来自有限、恒定的晶体结构。
基于这一理论,布勒教授提出:
例如,布勒教授发现贝多芬的《第九交响曲》的底层结构(图谱)与某一生物数据集的图谱完全一致。如果两者的结构确实是同构的,那么我们可以将一个较大的图谱扩展到另一个较小的图谱中,从而发现新的数据模式。
在上述例子中,生物数据集中的子图能够连接到许多其他节点,而基于贝多芬的图谱却较小且有限。因此,我们可以利用生物数据集已知的结构扩展,推测贝多芬图谱的潜在扩展方向。这种方法可以帮助我们在研究相对较少的领域中拓展知识,甚至加深对这些领域的理解。
通过将上下文数据以图谱形式表示,并利用同构性,AI能够大幅拓展知识边界,同时提升我们的理解能力。
这些同构性(isomorphisms)具有模态无关性(modality agnostic),这意味着它们的底层结构不仅存在于文本和数据中,也可以应用于图像、声音甚至其他形式的媒介。
这一发现揭示了AI在发现隐藏模式和跨领域关联上的巨大潜力。从艺术到生物学,从音乐到材料科学,AI借助同构性正在打开全新的探索大门。
通过这一视角,宇宙不再是一个无法捉摸的混沌,而是一幅能够解码的复杂万花筒图景。
四、从画作发现新材料
布勒教授发现,康定斯基的《构图七号》(Composition VII)与可持续发展的菌丝体材料之间存在着惊人的相似性。这一发现表明,仅通过理解画作中的模式,就可能催生出新材料的发现。
这篇研究的最大贡献在于,它可能为解锁AI的“泛化”(generalization)能力提供答案。
目前的AI模型无法对未完全分析过的数据进行有效推理。但如果模型能够将已知数据的同构关系应用于新数据,那么它就可以对未知数据进行推理。这将突破当前AI发展的一个重大瓶颈:对“未知的未知”进行推理的能力。
通过这种能力,AI不再仅仅是一个基于数据的工具,而将真正进入泛化推理的新时代。
如果AI能够推理和处理未知领域的数据,我们便能开始认真思考一个问题:我们是否正在真正创造出一种具有智能的机器?
这项研究不仅在技术上推进了AI的潜力,还为跨领域发现带来了全新的可能性。从艺术到科学,AI通过模式识别和结构映射,正逐步解开隐藏在表象之下的深层奥秘。
五、AI 的真正超级能力
这项研究不仅重新审视了AI当前的局限性,还为应对这些问题提供了令人耳目一新的解决方案——利用图谱和数据中隐藏的模式,作为探索和推演的工具。这恰恰是AI至今在许多领域中未能完全发挥的潜力。
此外,这项研究展示了某些原理在不同学科间的普适性。它突破了传统学科的界限,表明一个领域的思想可以如何用于对另一个领域的理解。这种交叉学科的方法为科学探索开辟了全新的可能性。
如果这篇文章你只记住一个观点,那就是:
人们常常将AI的未来框定为超级智能(Superintelligence),如Sam Altman等人所言。但实际上,AI的真正力量并不在于科幻小说般的“超级智能”,而是它具备一种“无趣却极为强大”的现实能力:识别我们无法察觉的模式。
通过图谱技术,我们正在进一步增强这一能力,使其能够在复杂数据中发现深层联系,加速科学研究,推动未知领域的突破。
AI被描述为魔法,并不是因为它能让企业更高效、成本更低或利润更高,而是因为它能实现我们无法独自完成的“魔幻”目标,比如利用其模式识别能力成为科学发现的有力工具,将科学的边界不断向前推进。
硅谷科技评论(SVTR.AI),在ChatGPT问世之际,创立于美国硅谷,依托AI创投库、AI创投会和风险投资,打造全球前沿科技(AI)创新生态系统。目前覆盖全球10W+ AI从业者,孵化案例:AI超级工程师模本科技;AI教育咨询公司高考纸鸢。
如果您对AI4S有兴趣,欢迎联系微信(pkcapital2023),或上方扫码加入AI创投会嘉宾团,我们每周末闭门分享,不见不散!文末阅读原文,获取更多内容。
创业公司
+
11x.ai:AI虚拟销售员,半年内突破200万美元 |
AlphaSense,金融界的“谷歌” |
Anduril Industries:AI 重新定义现代战争与和平 |
Anthropic:OpenAI”宫斗”背后的公司 |
Bardeen:让AI代理更稳更快 |
Brightwave,AI驱动的投研助手 |
Calendly:日程安排助手,AI效率工具鼻祖 |
Canva:从Adobe、Figma、Canva 到 OpenAI |
Carta:想要取代纽交所的股权管理工具 |
Cerebras,打造世界最大芯片挑战AI霸主英伟达 |
Cohere:为企业提供大模型 |
Consensus:用AI解锁学术 |
CoreWeave:GPU租赁独角兽,英伟达的好盟友 |
Databricks:从数据湖到大模型丨人工智能战略 |
DeepL:从机器翻译到AI写作的语言沟通利器 |
Discord:腾讯多次押注,打造属于你自己的线上互动社区 |
DoNotPay:世界首款AI机器人律师 |
Duolingo:如何改写语言学习 |
E2B:为 AI 代理构建自动化云平台 |
Figma:从Adobe、Figma、Canva 到 OpenAI |
Figure,从体力劳动中解放全人类 |
Glean:重塑知识工作的未来 |
Grammarly:从论文查重到AI写作的沟通利器 |
Helion,AI的终极能源梦想 |
Hugging Face:开源AI的未来 |
Jenni AI:如何通过AI写作实现年入千万 |
Letta:AI代理技术栈市场地图 |
Marblism:一句AI提示词自动生成各类软件 |
Midjourney:0融资,11人,$1亿收入 |
Mistral,欧洲大模型,性价比之王 |
MultiOn,用人工智能代理给软件装上大脑 |
Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生 |
OpenAI:人工智能突破的前沿丨员工丨董事会丨营销丨GPT Store丨奥特曼丨马斯克丨微软丨产品生态 |
Pika:AI视频的未来 |
Rad AI:如何用 AI 改变医疗保健 |
Reddit:奥特曼押注基于兴趣社交的美版“贴吧” |
Replicate:1人AI公司背后的幕后英雄 |
Replite:教马斯克的儿子如何写代码 |
Perplexity:挑战谷歌,站在AI搜索最前沿 |
Runway:AI视频的未来 |
Scale AI:如何成为数字世界的“水源” |
Shein:打造下一个“中国首富” |
Skild AI,打造通用机器人“大脑 |
SpaceX:梦想照进现实,人类星际生命的曙光 |
Stability AI:SD 背后的公司和创始人 |
Stripe:马斯克和奥特曼押注的支付王者 |
Substack:美版公众号,为价值付费 |
Superhuman:邮件超人,拥抱 AI |
Telegram,俄罗斯兄弟的密聊纸飞机 |
Vannevar Labs:AI+国防,军事人工智能掘金者 |
Vercel,如何用AI引领技术开发? |
Zapier:ChatGPT最受欢迎插件的过去和未来 |
给创始人 |
People(找人):如何找到创业合伙人丨如何聘请CEO丨如何确定CEO的薪水丨如何分配股权和头衔丨如何组建和召开董事会丨选择自己的创业导师 丨找这种人实现快速裂变 |
Funding(找钱):如何写商业计划书丨初创公司估值丨如何做电梯演讲丨如何确认真实投资意愿丨如何选择VC丨早期融资的“科学”与策略丨初创公司的融资生存法则丨风险投资人最关心的一个指标丨“七条法则”让投资人主动“敲门” |
Vision(找方向):性格决定创业成败丨如何成为亿万富翁丨如何做出困难的决定丨如何寻找创业方向丨如何在海外启动新产品丨GTM指南丨不要像投资人那样思考丨创始人与市场契合度丨为什么初创公司会失败丨什么决定创业成败丨如何建立社交媒体形象丨PMF决定初创的未来丨创始人的必读书单丨 5 点创业洞见丨如何做增长 |
AI创业:如何打造AI驱动的公司丨AI创业如何选赛道丨如何打造AI软件产品丨AI公司要不要融资丨AI初创公司商业模式丨AI原生公司定价策略丨AI初创公司增长策略 |
投资机构
+
A16Z:全球AI产品Top100丨人工智能到底能做什么丨AI将会拯救世界 |
Air Street Capital:State of AI(2024) |
Alphabet谷歌战投:全球最牛AI战投是如何炼成的丨人工智能战略 |
Altimeter:谁是AI C端赢家 |
Amazon:人工智能战略 |
Apple:产品收入变迁丨 AI 并购之王 |
Battery Ventures:AI正推动云计算的下一波增长 |
Bessemer Venture Partners:Cloud 100(2024)丨如何打造AI核心竞争力 |
Bond:AI将改变教育和教学方法 |
Coatue:AI革命丨AI是超级周期的开始 |
Cowboy:AI大势所趋 |
Daniel Gross:硅谷90后AI投资人 |
Dawn Capital:如何通过人工智能增强人脉 |
Elad Gil:关于人工智能我所不知道的事情 |
Emergence:生成式 AI 六大最新趋势 |
FirstMark:MAD 24问,AI 2023年总结,2024年展望 |
Forerunner:超个性化和动态交互才是未来 |
Foundation Capital:服务即软件的万亿机会 |
Founders Fund:如何投出下一个独角兽丨彼得·泰尔丨泰尔研究员 |
General Catalyst:AI+医疗支持者 |
ICONIQ:小扎的朋友圈丨AI成为大企业战略核心 |
Insight Partners:AI应用将如何实现人机协同丨AI Agent正在颠覆自动化 |
Lightspeed:AI+法律市场机会地图 |
M12(微软):如何抢占AI投资制高点丨收入拆解 |
Menlo Ventures:2024企业Gen AI现状报告丨AI代理全面崛起丨Gen AI 应用拐点已到丨AI+安全市场地图丨企业AI架构的设计原则 |
NVIDIA:收入丨AI投资策略 |
Sam Altman(山姆·奥特曼):如何做早期投资丨地产生意丨投资帝国丨婚礼丨阅读清单 |
Sapphire:AI原生应用丨AI进入调整期丨AI 行研 丨 销售人工智能如何重塑 GTM |
Scale Venture Partners:如何用AI工具解决硬件难题? |
Sequoia(红杉资本):如何做投资丨代理型AI应用崛起丨生成式AI进入第二阶段 |
Sierra Ventures:垂直场景将是最大的创业机会 |
SOSV: 从草根到帝国 |
TRAC:风投界的水晶球 |
Thrive Capital:高位接盘OpenAI |
Wing Venture Capital:2024年企业科技 30 强(ET 30) |
YC:全球排名第一的AI投资机构丨给年轻创始人建议丨如何独立思考 |
20VC:从播客主持人到风投大佬 |
给投资人 |
行业:精品基金/超级基金丨AI驱动VC丨通才/专才风投人丨VC/PE丨孵化器丨加速器丨初创工作室 |
技能:如何及早识别独角兽丨如何避免7大投资陷阱丨合伙人是怎么炼成的丨Souring的艺术丨颜值如何影响VC决策丨如何快速解读对方性格丨硅谷投资人的武器库丨如何用数据控制初创公司团队风险丨什么决定创业成败 |
AI投资:如何评估AI初创公司丨海外投资人谈AI新趋势丨应该关注哪些AI公司丨AI 创投七大新趋势丨全球AI创投生态丨全球AI投资机构Top10 |
行业研究
+
AI工程师有多强?3天上线全球首个AI数库 |
“AI张雪峰”诞生,北大团队用 AI 重塑教育咨询 |
1人团队,百万营收的AI套壳 |
2024 年必读人工智能书单 |
加密信条:数字货币的前世、今生和未来 |
内容创作指南,如何通过写作赚钱? |
传统公司如何抓住AI浪潮? |
全球七大科技巨头的 4000 亿美元 AI 战略布局 |
全球 Gen AI 独角兽大盘点,中国4家大模型上榜 |
AI大模型:海外 | 数学 | 性价比 | 编程 | 医疗 | 评估 | 训练成本 | 小模型 |
AI 创始人 | 华裔创始人 | 北美科技人才中心地图丨职业经历丨教育背景丨斯坦福丨普林斯顿丨多伦多大学 |
AI 公司地理和行业分布 | 以色列 | 德国 | 旧金山湾区 | 欧洲丨法国 |
福布斯AI 50 | 斯坦福AI指数 | 企业科技AI 30 | 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25丨2024年全球最具价值独角兽丨Gen AI专利公司 Top20丨开源 AI 初创公司 Top 75丨开源 AI 开发者工具 Top 20丨全球数据中心按功耗排名 Top 50丨PH 2023年度最佳应用丨2023年北美新增独角兽 |
AI+国防安防:如何重新定义现代战场的核心竞争力 |
AI+人力资源:用科技重塑就业与招聘的未来 |
AI+搜索:全球新锐公司谁能杀出重围? |
AI+社交:该怎么玩? |
AI+编程:公司排行榜丨市场地图丨AI工程师丨SaaS的新曙光 |
AI+金融:如何缔造下一个金融科技传奇丨大模型在金融投资领域的应用丨AI将如何改变会计 |
AI+游戏:市场研究报告丨初创公司Top 10 |
AI+机器人 |
AI+医疗:市场地图丨心理/精神公司 |
AI+教育:市场地图 |
AI+客服:市场地图 |
AI+法律:市场地图 |
AI+视频:市场地图丨3D视频 |
AI+生产力工具市场地图 |
AI周报
+
001 | 002 | 003 | 004 | 005 | 006 | 007 | 008 | 009 | 010 |
011 | 012 | 013 | 014 | 015 | 016 | 017 | 018 | 019 | 020 |
021 | 022 | 023 | 024 | 025 | 026 | 027 | 028 | 029 | 030 |
031 | 032 | 033 | 034 | 035 | 036 | 037 | 038 | 039 | 040 |
041 | 042 | 043 | 044 | 045 | 046 | 047 | 048 |
049 |
050 |
051 | 052 |
053 |
054 |
055 |
056 |
057 |
058 |
059 |
060 |
061 |
062 |
063 |
064 |
065 | 066 |
067 |
068 | 069 | 070 |
071 | 072 | 073 | 074 | 075 | 076 | 077 | 078 | 079 | 080 |
081 |
(文:硅谷科技评论)