2025年AI工程师必读:50篇文献带你直击人工智能技术前沿

在人工智能领域,每一天都充满了令人目不暇接的创新与突破,但如何在众多研究成果中找到对实际工程工作最有价值的资源,始终是AI从业者的一大挑战。为此,我们结合硅谷科技评论(SVTR.AI)创投库,精心策划了一份“AI工程必读文献”清单,囊括了10大热门领域的50篇高质量论文、模型和博客文章(文末阅读原文,获取下载链接)。

这份清单的设计初衷非常明确:帮助AI工程师们以最少的时间投入,获得最大化的知识增量。我们挑选的内容不仅仅代表当前领域的核心技术和趋势,更特别注重它们的工程可操作性。从LLMs到Benchmarks,从Prompting到RAG,再到生成式AI的应用领域(如CodeGen、视觉、语音和扩散模型),每一篇都经过严格筛选和注解,确保读者能够迅速掌握其关键要点,理解背后的工程价值。

第一部分:前沿大模型 (Frontier LLMs)


以下是关于前沿大语言模型(LLMs)发展的重要论文列表,涵盖了从最早的模型到最新的趋势。这些论文和模型的选择帮助AI工程师了解行业的关键里程碑、竞争格局以及开放模型的发展路径。


1. GPT 系列:从 GPT1 到 GPT4


  • 核心论文:从 GPT1 到 GPT4 的系列论文是理解现代语言模型演变的基础,探讨了从简单架构到复杂多任务模型的跨越。

  • 说明

    • GPT1:引入生成式预训练概念。

    • GPT2:模型规模的扩展及开放性带来的争议。

    • GPT3:大规模语言模型的性能飞跃,API商用化起点。

    • Codex 和 InstructGPT:从文本生成到代码生成,以及对人类指令的优化。

    • GPT4:多模态能力的进一步提升。


2. Claude 和 Gemini 系列


  • Claude 系列(Anthropic 开发):

    • Claude 3:了解 Claude 模型的对话能力与安全性设计。

    • 最新迭代版本为 Claude 3.5 Sonnet

  • Gemini 系列(Google DeepMind 开发):

    • Gemini 1 和 2:研究多模态模型对复杂任务的处理能力,尤其是 Gemini 2.0 Flash/Flash Thinking 的创新点。

    • Gemma 2:Google 在生成式AI领域轻量级、最先进的开源模型。


3. LLaMA 系列:开放模型的领先者


  • LLaMA 1、2 和 3:LLaMA 系列是开源模型社区的基石,其技术细节和性能直接推动了开源生态的繁荣。

  • Mistral 系列:包括 Mistral 7B 及其变种 Mixtral 和 Pixtral,可看作是 LLaMA 家族的一部分。


4. DeepSeek 系列


  • DeepSeek V1 到 V3:该系列探索了模型架构的开源路径,其进展在代码生成和多模态处理方面有重要意义。


5. Apple Intelligence


  • 这篇论文阐述了 Apple 在每台 Mac 和 iPhone 上集成 AI 模型的核心设计理念,虽未开源但对工程落地具有重要借鉴意义。


6. 其他值得关注的大模型


  • AI2 系列(包括 Olmo, Molmo, OlmOE, Tülu 3, Olmo 2):关注 AI2 在模型优化上的尝试。

  • GrokAmazon Nova:Amazon 的生成式 AI 发展方向。

  • HuggingFace SmolLM:轻量化模型的代表。

  • Alpaca 和 Vicuna:历史价值显著,展示了 LLaMA 的衍生模型如何演化。

  • Mamba 系列(Mamba 1/2)和 RWKV:未来可能具有突破性的模型架构。


7. 扩展阅读:缩放定律(Scaling Laws)


  • Kaplan 定律:模型规模与性能之间的关系。

  • Chinchilla 定律:参数和计算预算的平衡优化。

  • Emergence / Mirage 现象:理解模型性能的非线性增长。

  • Post-Chinchilla Laws:后 Chinchilla 时代对资源利用的优化。


第二部分:基准测试与评估(Benchmarks and Evals)


在构建和评估AI模型的过程中,基准测试(Benchmarks)和评估方法(Evaluations)是不可或缺的工具。以下是2025年主流实验室和研究人员重点关注的评估基准和工具,帮助AI工程师了解性能测试中的关键领域。


1. MMLU 论文


MMLU(Massive Multitask Language Understanding)是主要的知识基准测试之一,与 GPQABIG-Bench 并列。这些基准测试主要用于评估模型在广泛任务中的知识覆盖范围和准确性。

2025版本包括:

  • MMLU Pro:更复杂和高要求的知识测试。

  • GPQA Diamond:强化的问答评估。

  • BIG-Bench Hard:更具挑战性的版本。


2. MuSR 论文


MuSR 是长上下文处理评估的重要工具,与 LongBenchBABILongRULER 并列。MuSR 和其他工具帮助测试模型在长文本和复杂场景下的记忆与推理能力。

关键问题

  • 解决“Lost in the Middle”(上下文丢失)问题。

  • 处理“Needle in a Haystack”(复杂检索任务)挑战。


3. MATH 论文


MATH 是一个包含数学竞赛问题的基准数据集。MATH 数据集帮助评估模型的逻辑推理和精确计算能力,是前沿实验室的热门测试基准。

2025聚焦点

  • MATH Level 5:高级数学问题的集合。

  • AIME(美国数学邀请赛)。

  • FrontierMathAMC10/AMC12:针对顶尖模型的高难度测试。


4. IFEval 论文


IFEval 是领先的指令跟随能力评估工具,也是唯一被 Apple 采用的外部基准。IFEval 评估模型对自然语言指令的理解与执行能力,是工程应用的重要指标。

补充工具MT-Bench:作为一种间接形式的指令跟随评估。


5. ARC AGI 挑战


ARC AGI 挑战是一种著名的抽象推理基准测试,通常被视为“智商测试”。这一基准测试模型在抽象推理和逻辑能力上的潜力和瓶颈。这也是OpenAI最新的o3模型测试基准。

尽管许多基准迅速饱和,但 ARC 挑战具有持久性,仍然是评估 AGI 能力的核心工具之一。


6. 扩展阅读与补充资源


  • “Benchmarks 101” 和 “Benchmarks 201”:提供对常用基准测试的全面介绍。

  • Carlini、LMArena 和 Braintrust 系列探讨私有评估(Private Evals)、竞技场评估(Arena Evals)和产品化评估(Product Evals)的重要性。

  • LLM-as-Judge 和 Applied LLMs:分析大模型在实际应用中的表现。

值得注意的是,所有基准测试都与其背后的数据集息息相关。例如:

  • BIG-BenchMMLU 都依赖广泛的任务数据。

  • MATHIFEval 则从特定领域数据集中提取评估能力。


第三部分:提示设计、上下文学习与推理链 (Prompting, ICL & Chain of Thought)


在大语言模型(LLMs)中,提示设计、上下文学习(ICL, In-Context Learning)和推理链(Chain of Thought, CoT)是提升模型性能、适应不同任务的重要方法。本节整合了相关论文和资源,帮助工程师系统掌握这三大领域。


1. 上下文学习与提示设计


  • GPT3 论文《Language Models are Few-Shot Learners》: 开创了上下文学习(ICL)的概念,展示了如何通过少量示例(Few-Shot)让模型快速适应任务。

  • 提示注入(Prompt Injection): 这是提示设计的基础知识,建议阅读 Lilian Weng 和 Simon W. 的相关文章,了解如何避免攻击性提示或设计更高效的输入。


2. 关键论文与资源


  • The Prompt Report: 一篇全面调查提示设计领域的综述论文,可通过配套播客深入了解提示的多样化应用。

  • Chain of Thought (CoT) 论文: 提出了“推理链”方法,强调通过逐步思考和推导提升复杂任务的准确性。与 Scratchpads 和 “Let’s Think Step By Step” 方法有相似目标。

  • Tree of Thought 论文: 将推理链进一步扩展为树状思维,加入了前瞻性(Lookaheads)和回溯机制(Backtracking),适用于更复杂的推理任务。

  • Prompt Tuning 论文: 探讨了通过前缀调整(Prefix-Tuning)、解码调整(如基于熵)以及表征工程(Representation Engineering)替代手动提示设计的可能性。

  • Automatic Prompt Engineering: 指出人类在零样本提示设计(Zero-Shot Prompting)上的局限,提出通过 LLM 本身增强提示设计的思路。DSPy 论文/框架:展示了自动化提示工程的实际应用。


3. 实用资源


  • Lilian Weng 的提示设计指南: 提供了多种任务场景下提示设计的实用技巧和注意事项。

  • Eugene Yan 的教学材料: 详细讲解提示设计的案例和策略,适合初学者和中高级工程师。

  • Anthropic 的 Prompt Engineering Tutorial 和 AI Engineer Workshop: 从基础到高级的提示工程教程,注重实际操作与工程应用。


    第四部分:检索增强生成 (Retrieval Augmented Generation, RAG)


    检索增强生成(RAG)是当前 AI 工程领域中重要的技术方向之一,其核心在于将信息检索(IR)的传统方法与生成式 AI 模型相结合,解决了许多生成任务中的信息准确性和覆盖性问题。本节总结了相关的重要资源和方法,帮助工程师全面理解 RAG 的技术及其实践。


    1. 信息检索的基础


    • 推荐书籍:《信息检索导论》 尽管本书较为“严肃”,但这一领域有着超过 60 年的历史,涵盖了诸如 TF-IDF、BM25、FAISS 和 HNSW 等核心技术。理解这些“传统”方法有助于全面掌握 RAG 背后的技术逻辑。

    • 关键信息: RAG 本质是信息检索问题,掌握信息检索基础将帮助你更高效地理解和应用 RAG 技术。


    2. 2020 Meta RAG 论文


    • 由 Meta 提出的论文首次定义了 RAG 的概念,是这一技术方向的奠基之作。

    • 现代 RAG 的基础功能(HyDE、分块、重排序、多模态数据处理)在此基础上逐步发展。

    • Contextual 和 RAG 2.0: 论文的原作者后续提出了 RAG 2.0 概念,扩展了这一领域的应用场景和技术实现。


    3. 大规模文本嵌入基准MTEB (Massive Text Embedding Benchmark)


    • 当前文本嵌入领域的主流基准,但存在已知问题。

    • 嵌入模型选择

      • 常见嵌入模型如 OpenAI Embedding、Nomic Embed、Jina v3、cde-small-v1。

      • 越来越多的模型采用 Matryoshka 嵌入作为标准,值得关注。

    • 工程师可以根据实际需求选择合适的嵌入模型。


    4. 知识图谱与 RAG 的结合


    • GraphRAG 论文: 来自 Microsoft 的研究,探讨了如何将知识图谱融入 RAG。这一技术趋势在 2024 年尤为热门,与 ColBERT/ColPali/ColQwen 等技术结合紧密。

    • 应用前景: 知识图谱增强的 RAG 在需要高精度领域知识的场景(如医学和法律)中尤为重要。


    5. RAG 的评估方法


    • RAGAS 论文: OpenAI 推荐的简单 RAG 评估框架,广泛应用于实际工作场景。

    • 其他评估框架

      • Nvidia FACTS 框架:专注于减少生成模型的外部幻觉问题。

      • Extrinsic Hallucinations in LLMs:Lilian Weng 的调查报告全面分析了幻觉问题的原因和评估方法。

      • Jason Wei 关于召回与精确度的研究:帮助理解评估中的权衡关系。


    6. 行业资源与实用工具


    • LlamaIndex(课程)LangChain(视频教程): 两者在教育资源上的投资最多,适合从基础到高级的系统学习。

    • RAG 与长上下文(Long Context)的对比: RAG:在信息检索和准确性上表现出色。长上下文:在直接处理超长文本时有优势,但对硬件和计算资源要求更高。

    第五部分:智能体 (Agents)


    智能体(Agents)是 2024 年生成式 AI 技术发展的重要领域,其核心在于赋予模型长效记忆、工具使用能力及复杂任务执行的能力。本节将整理当前顶尖的智能体设计、评估方法及其应用资源,为 AI 工程师提供系统化学习路径。


    1. SWE-Bench:智能体基准测试的标杆


    SWE-Bench 论文现已成为 Anthropic、Devin 和 OpenAI 等机构采用的高知名度智能体评估基准。起初是一个编程评估基准,但现已发展为测试智能体能力(而非单纯测试 LLM 能力)的工具。扩展版本

    • SWE-AgentSWE-Bench Multimodal:加入多模态能力测试。

    • Konwinski Prize:为表现出色的智能体颁发的奖项,进一步推动了领域发展。


    2. ReAct 论文:工具使用与功能调用


    开创了智能体使用工具和功能调用的研究方向,提出了 ReAct 架构。后续发展

    • GorillaBFCL 排行榜:工具化智能体研究的代表性项目。

    • Toolformer 和 HuggingGPT 是早期的开创性研究,虽然已被更先进方法取代,但仍具有学习价值。


    3. MemGPT 论文


    • 提出了长效运行智能体的记忆模拟方法,已被 ChatGPTLangGraph 采用。

    • 相关应用: 每个智能体系统(如 MetaGPT、AutoGen 和 Smallville)几乎都以不同形式重构了 MemGPT 的核心思想。


    4. Voyager:智能体认知架构


    Nvidia 的 Voyager 论文提出了三大认知架构组件:

    • 学习路径规划(Curriculum)

    • 技能库(Skill Library)

    • 沙盒环境(Sandbox)

    技能库和学习路径可被视为智能体工作流记忆的一种形式,适用于复杂任务的分解和管理。


    5. 构建高效智能体


    Anthropic 的总结,这是一篇 2024 年末的优秀综述,强调以下关键要素:

    • 任务链式处理(Chaining)

    • 路由优化(Routing)

    • 并行化与编排(Parallelization and Orchestration)

    • 智能体性能评估与优化(Evaluation and Optimization)

    扩展阅读:OpenAI 的 Swarm 架构,探讨了多智能体协作的可能性。


    第六部分:代码生成 (Code Generation)


    代码生成是大语言模型(LLMs)在实际工程领域的重要应用之一。本节汇总了与代码生成相关的核心论文、基准和工具,为 AI 工程师提供全面的学习资源和实践指导。


    1. The Stack 系列


    The Stack 论文The Pile 的开源代码版本,专注于代码生成数据集的构建。

    后续版本:The Stack v2 和 StarCoder 延续了该系列的开放代码生成工作,为研究者提供高质量的数据资源。


    2. 开源代码生成模型


    • 推荐阅读以下代码生成模型的论文:

      • DeepSeek-Coder

      • Qwen2.5-Coder

      • CodeLlama

    • 3.5 Sonnet: 虽然被认为是目前最好的代码生成模型之一,但没有对应的论文。


    3. 代码生成基准


    • HumanEval/Codex 论文: 经典的代码生成评估基准,尽管已趋于饱和,但仍是代码生成领域的必备知识。

    • SWE-Bench: 目前更为知名的编程评估基准,但成本较高,更适用于智能体评估而非单纯模型测试。

    • 现代替代基准

      • Aider:轻量化代码评估工具。

      • CodeforcesBigCodeBench:专注于实际编程问题。

      • LiveCodeBench:实时代码生成测试。

      • SciCode:面向科学计算代码生成的专用基准。


    4. AlphaCode 系列


    • AlphaCodeium 论文: Google 的 AlphaCodeAlphaCode2 在编程问题上表现优异。

    • 引入 Flow Engineering 概念,通过优化模型流程提升性能,为基础模型带来显著增强。


    5. 代码生成中的问题与解决


    CriticGPT 论文: 阐述了 LLM 在生成代码时可能引发的安全问题。

    解决方案

    • OpenAI 开发的 CriticGPT 专注于发现代码中的安全问题。

    • Anthropic 的 SAE:通过分析 LLM 的潜在特性识别安全风险。


    6. 行业中的代码生成


    • 从研究到实践: 代码生成领域的前沿研究逐步转向行业实践。例如,Devin 等代码智能体的开发和优化,更多依赖于行业博客和实践经验,而非纯粹的学术论文。

    • 学习资源: 定期关注行业技术分享,如博客文章和技术讲座,获取更具操作性的代码生成建议。


    第七部分:视觉 (Vision)


    视觉领域(Vision)作为 AI 的重要分支,尽管近年来语言模型(LLM)的进展更为显著,但视觉模型(特别是多模态模型)依然占据重要地位。本节汇总视觉领域的核心工作、评估基准和前沿技术,为 AI 工程师提供学习和实践方向。


    1. 非 LLM 的传统视觉工作


    • YOLO 系列: YOLO(You Only Look Once)从最初的版本发展到 YOLO v11,依然是目标检测领域的经典技术。

    • 近年来,像 DETRs(DEtection TRansformers)这样的 Transformer 模型在许多任务上超越了 YOLO。

    • 推荐学习路径: 对比 YOLO 与 DETRs 的方法和性能,理解两者在不同场景下的适用性。


    2. CLIP 及后续模型


    • CLIP 论文: Alec Radford 的 CLIP 是首个成功的视觉 Transformer(ViT)模型,具有里程碑意义。

    • BLIP/BLIP2SigLIP/PaliGemma 已在多模态任务中超越 CLIP,但 CLIP 仍是必须掌握的基础。

    相关评估基准

    • MMVP(LS Live): 提出了 CLIP 的重要问题。

    • 多模态版本基准:包括 MMMU(多模态 MMLU)和 SWE-Bench 多模态版本


    3. 图像分割与视频分割


    • Segment Anything Model (SAM)SAM 2

      • 强大的图像和视频分割基础模型。

      • 结合 GroundingDINO 使用,可显著增强分割效果。

    • 实际应用: 在医疗影像、自动驾驶、以及多媒体内容处理中的广泛应用。


    4. 早期融合 vs 晚期融合


    • 早期融合研究: 比如 Meta 的 FlamingoChameleon,以及 Apple 的 AIMv2 和 Reka Core,体现了更复杂的多模态数据联合处理能力。

    • 晚期融合的局限: 如 LLaVA,虽然实现成本低,但在处理复杂任务时表现较弱。

    • 多模态模型的四条技术流派: 工程师需理解早期融合与晚期融合的优劣,并熟悉主流模型及其技术流派。


    5. 前沿视觉语言模型(VLM)


    • 最新趋势: 大量前沿视觉语言模型的工作已不再公开发表(如 GPT4V 的系统卡)。

    • 推荐掌握的模型与技术

      • GPT-4o: 熟悉其视觉能力,包括微调(finetuning)4o 视觉模型。

      • Claude 3.5 Sonnet/HaikuGemini 2.0 Flash

      • 其他值得关注的模型: PixtralLlama 3.2MoondreamQVQ


    第八部分:语音 (Voice)


    语音技术在生成式 AI 中正变得越来越重要,包括自动语音识别(ASR)和文本到语音(TTS)等领域。本节汇总语音技术的核心论文、领先模型和行业资源,为 AI 工程师提供系统化的学习方向和实践指导。


    1. Whisper 系列


    • Whisper 论文: Alec Radford 的成功 ASR 模型,成为语音识别领域的标杆。

    • 后续版本

      • Whisper v2、v3distil-whisper:开源权重可用,但未发表相关论文。

      • v3 Turbo:更高效的实现。


    2. AudioPaLM 和语音多模态


    • AudioPaLM 论文: Google 在 PaLM 演变为 Gemini 前的语音技术探索,展示了语音和文本多模态融合的潜力。

    • Meta 的探索Llama 3 在语音领域的应用,值得深入研究。

    • 未来趋势: 语音与视觉的融合(如 Gemini 2.0 的多模态能力)是语音技术的重要发展方向。


    3. 文本到语音(TTS)技术


    • NaturalSpeech 论文: 领先的 TTS 方法之一,最新版本为 NaturalSpeech v3,在自然语言生成与语音生成间的性能提升显著。

    • Kyutai Moshi 论文: 全双工语音-文本模型,具有开源权重和高调的演示。相关技术包括Hume OCTAVE 提供了更多关于语音生成的技术细节。


    4. 语音模型与实时 API


    • OpenAI Realtime API: 尽管未公开相关论文,但其在实时语音处理和生成中的表现已成为行业前沿。

    • 其他语音技术平台: 建议多样化学习,尝试以下语音技术平台: Daily、Livekit、Vapi、Assembly、Deepgram、Fireworks、Cartesia、Elevenlabs


    5. 语音技术的行业状态


    • 2024 语音技术现状报告(State of Voice 2024),提供关于语音技术生态系统的深度分析。

    • NotebookLM 的语音模型: 尽管模型未公开,但其建模过程的描述是目前已知的最深入信息。


    6. 语音与视觉的融合


    • Gemini 2.0 的多模态能力: 语音和视觉的原生融合,标志着多模态技术的发展方向。

    • 未来趋势: 随着语音和视觉技术的不断进步,2025 年及以后,语音和视觉的深度融合将成为多模态模型的标准配置。


    第九部分:图像/视频扩散模型 (Image/Video Diffusion)


    图像和视频扩散模型(Diffusion Models)是生成式 AI 在视觉内容生成中的重要技术方向。本节涵盖关键论文、前沿技术和行业资源,帮助 AI 工程师系统学习扩散模型的核心方法及其在图像和视频生成中的应用。


    1. Latent Diffusion 系列


    • Latent Diffusion 论文: 实质上是 Stable Diffusion 的核心论文,定义了现代扩散模型的基石。

    • 后续版本

      • Stable Diffusion v2、SDXL 和 SD3:展示了模型在性能和分辨率上的逐步提升。

      • BFL Flux 系列: 由 Stable Diffusion 团队开发,分为 [schnell|dev|pro] 三个版本,继续推动扩散模型的发展。


    2. DALL-E 系列


    DALL-E / DALL-E-2 / DALL-E-3 论文

    • OpenAI 的图像生成模型,定义了文本到图像生成的高标准。

    • DALL-E-3: 引入了更强的文本对齐和细节生成能力。


    3. Imagen 系列


    • Imagen / Imagen 2 / Imagen 3 论文: Google 的图像生成模型系列,强调高保真度和细节生成。

    • Ideogram:专注于文本与图像生成的结合,尤其是在文字样式和排版中的应用。


    4. 一致性模型 (Consistency Models)


    • Consistency Models 论文: 提出了轻量化的一致性生成方法(LCMs),使扩散模型的生成过程更快。

    • 近期进展: 更新版本为 sCMs(stochastic Consistency Models),进一步提高生成效率。


    5. 视频生成


    • Sora 博客文章: 文本到视频生成的最新突破,尽管没有正式论文,但凭借显著发布效果成为年度最重要的进展。

    • 相关研究

      • DiT 论文:同一作者的扩展研究。

      • 开放竞争者:如 OpenSora 提供了开源权重。

    • Lilian Weng 调查报告: 对视频生成的技术现状及应用场景进行全面分析。


    6. 推荐工具与新兴领域


    • ComfyUI: 即将上线的扩散模型界面工具,值得工程师深入了解。

    • 新兴方向

      • 文本扩散(Text Diffusion):关注文本生成的细粒度控制。

      • 音乐扩散(Music Diffusion):探索音乐生成的潜力。

      • 自回归图像生成(Autoregressive Image Generation):虽然目前是小众方向,但在特定应用中展现出强大能力。


    第十部分:微调 (Finetuning)


    微调是使生成式 AI 模型适应特定任务或场景的重要技术路径。本节总结当前微调的核心方法、工具和相关资源,帮助 AI 工程师掌握从基础到进阶的微调技术。


    1. LoRA 和 QLoRA


    LoRA (Low-Rank Adaptation)QLoRA (Quantized LoRA): 当前微调模型的事实标准,以较低成本实现高效的模型适配。

    实践建议

    • 在本地模型或大模型(如 4o)上应用 LoRA。

    • FSDP+QLoRA:结合完全分布式并行(Fully Sharded Data Parallel)与 QLoRA 进行教育性实验,有助于深入理解技术细节。


    2. 偏好微调


    DPO (Direct Preference Optimization): 作为 PPO(Proximal Policy Optimization)的替代方法,现已被 OpenAI 用于偏好微调。

    尽管效率稍逊于 PPO,但实现较为简单,是偏好驱动微调的主流选择。


    3. 特征微调


    ReFT (Representation Fine-Tuning): 提出一种不直接微调模型层,而是专注于特征的微调方法。

    更高效地调整模型表现,特别是在资源有限的情况下。


    4. 合成数据与指令微调


    Orca 3 和 AgentInstruct 论文: 使用合成数据进行微调的典型案例。

    关联资源: 参阅 NeurIPS 会议的 Synthetic Data 主题,获取高质量的微调数据生成方法。


    5. 强化学习与推理微调


    • 强化学习微调RL 微调:在大模型(如 o1)上的应用仍在争议中。

    • 推理微调

      • Let’s Verify Step By Step:通过验证链式推理过程进行模型优化。

      • Noam Brown 的公开演讲:提供了关于推理微调的实践技巧和案例分析。


    6. 学习资源


    • Unsloth Notebooks: 系统地展示了微调的全过程,包括数据准备、训练和评估。

    • HuggingFace 微调教程: 《如何微调开放 LLMs》提供了从入门到进阶的实践指南,覆盖多种微调场景。

    硅谷科技评论(SVTR.AI),在ChatGPT问世之际,创立于美国硅谷,依托AI创投库、AI创投会和风险投资,打造全球前沿科技(AI)创新生态系统。目前覆盖全球10W+ AI从业者,孵化案例:AI超级工程师模本科技;AI教育咨询公司高考纸鸢


    联系凯瑞(pkcapital2023),加入我们,共创未来!点击文末阅读原文,访问SVTR.AI,发现更多机会与精彩内容

    Startup



    +



    11x.ai:AI虚拟销售员,半年内突破200万美元
    AlphaSense,金融界的“谷歌”
    AMP Robotics,如何用AI拯救垃圾场?
    Anduril Industries:AI 重新定义现代战争与和平
    Anthropic:OpenAI”宫斗”背后的公司
    Bardeen:让AI代理更稳更快
    Brightwave,AI驱动的投研助手

    Calendly:日程安排助手,AI效率工具鼻祖

    Canva:从Adobe、Figma、Canva 到 OpenAI

    Carta:想要取代纽交所的股权管理工具
    Cerebras,打造世界最大芯片挑战AI霸主英伟达

    Cohere:为企业提供大模型

    Consensus:用AI解锁学术

    CoreWeave:GPU租赁独角兽,英伟达的好盟友

    Databricks:从数据湖到大模型人工智能战略
    DeepL:从机器翻译到AI写作的语言沟通利器
    Discord:腾讯多次押注,打造属于你自己的线上互动社区
    DoNotPay:世界首款AI机器人律师

    Duolingo:如何改写语言学习

    E2B:为 AI 代理构建自动化云平台
    Figma从Adobe、Figma、Canva 到 OpenAI
    Figure,从体力劳动中解放全人类

    Glean:重塑知识工作的未来

    Grammarly:从论文查重到AI写作的沟通利器
    Helion,AI的终极能源梦想
    Hippocratic AI,用AI缓解全球医护人员短缺
    Hugging Face:开源AI的未来
    Jenni AI:如何通过AI写作实现年入千万
    Letta:AI代理技术栈市场地图
    Marblism:一句AI提示词自动生成各类软件
    Midjourney:0融资,11人,$1亿收入
    Mistral,欧洲大模型,性价比之王
    MultiOn,用人工智能代理给软件装上大脑
    Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生
    OpenAI:人工智能突破的前沿员工董事会丨营销丨GPT Store丨奥特曼马斯克微软产品生态
    Pika:AI视频的未来
    Rad AI:如何用 AI 改变医疗保健
    Reddit:奥特曼押注基于兴趣社交的美版“贴吧”
    Replicate:1人AI公司背后的幕后英雄
    Replite:教马斯克的儿子如何写代码
    Rows:一年内用户增长20倍背后的故事
    Perplexity:挑战谷歌,站在AI搜索最前沿
    RunwayAI视频的未来
    Scale AI:如何成为数字世界的“水源”
    Shein:打造下一个“中国首富”
    Skild AI,打造通用机器人“大脑

    SpaceX:梦想照进现实,人类星际生命的曙光

    Stability AI:SD 背后的公司和创始人
    Stripe:马斯克和奥特曼押注的支付王者
    Substack:美版公众号,为价值付费

    Superhuman:邮件超人,拥抱 AI

    Telegram,俄罗斯兄弟的密聊纸飞机
    Vannevar Labs:AI+国防,军事人工智能掘金者
    Vercel,如何用AI引领技术开发?
    Zapier:ChatGPT最受欢迎插件的过去和未来
    People(找人
    如何找到创业合伙人如何聘请CEO如何确定CEO的薪水如何分配股权和头衔如何组建和召开董事会选择自己的创业导师 找这种人实现快速裂变如何找到那个“改变命运”的第一位员工?
    Funding(找钱
    如何写商业计划书初创公司估值如何做电梯演讲如何确认真实投资意愿如何选择VC早期融资的“科学”与策略初创公司的融资生存法则风险投资人最关心的一个指标“七条法则”让投资人主动“敲门”
    Vision(找方向)
    性格决定创业成败如何成为亿万富翁如何做出困难的决定如何寻找创业方向如何在海外启动新产品GTM指南不要像投资人那样思考创始人与市场契合度为什么初创公司会失败什么决定创业成败如何建立社交媒体形象PMF决定初创的未来创始人的必读书单 5 点创业洞见如何做增长
    AI创业
    如何打造AI驱动的公司AI创业如何选赛道如何打造AI软件产品AI公司要不要融资AI初创公司商业模式AI原生公司定价策略AI初创公司增长策略

    Venture



    +



    A16Z:全球AI产品Top100人工智能到底能做什么丨AI将会拯救世界
    Air Street Capital:State of AI(2024)
    Alphabet谷歌战投:全球最牛AI战投是如何炼成的人工智能战略
    Altimeter:谁是AI C端赢家
    Amazon:人工智能战略
    Apple:产品收入变迁 AI 并购之王
    Battery Ventures:AI正推动云计算的下一波增长AI正带来 4 万亿美元市场机会
    Bessemer Venture Partners:Cloud 100(2024)如何打造AI核心竞争力
    Bond:AI将改变教育和教学方法
    Coatue:AI革命AI是超级周期的开始
    Cowboy:AI大势所趋
    Daniel Gross:硅谷90后AI投资人
    Dawn Capital:如何通过人工智能增强人脉
    Elad Gil:关于人工智能我所不知道的事情
    Emergence:生成式 AI 六大最新趋势
    FirstMark:MAD 24问,AI 2023年总结,2024年展望
    Forerunner:超个性化和动态交互才是未来
    Foundation Capital:服务即软件的万亿机会
    Founders Fund:如何投出下一个独角兽彼得·泰尔泰尔研究员
    General Catalyst:AI+医疗支持者
    ICONIQ:小扎的朋友圈AI成为大企业战略核心
    Insight Partners:AI应用将如何实现人机协同AI Agent正在颠覆自动化
    Lightspeed:AI+法律市场机会地图
    M12(微软):如何抢占AI投资制高点收入拆解
    Menlo Ventures:2024企业Gen AI现状报告AI代理全面崛起Gen AI 应用拐点已到AI+安全市场地图企业AI架构的设计原则
    NVIDIA:收入按产品线拆解AI投资策略
    Sam Altman(山姆·奥特曼):如何做早期投资丨地产生意投资帝国婚礼阅读清单
    Sapphire:AI原生应用AI进入调整期AI 行研 丨 销售人工智能如何重塑 GTM
    Scale Venture Partners:如何用AI工具解决硬件难题?
    Sequoia(红杉资本):如何做投资代理型AI应用崛起生成式AI进入第二阶段
    Sierra Ventures:垂直场景将是最大的创业机会
    SOSV: 从草根到帝国
    TRAC:风投界的水晶球
    Thrive Capital:高位接盘OpenAI
    Wing Venture Capital:2024年企业科技 30 强(ET 30)
    YC:全球排名第一的AI投资机构给年轻创始人建议如何独立思考YC与A16Z的押注有何异同
    20VC:从播客主持人到风投大佬
    投资行业

    精品基金/超级基金AI驱动VC通才/专才风投人VC/PE孵化器加速器初创工作室

    投资技能
    如何及早识别独角兽如何避免7大投资陷阱合伙人是怎么炼成的Souring的艺术颜值如何影响VC决策如何快速解读对方性格硅谷投资人的武器库如何用数据控制初创公司团队风险什么决定创业成败
    AI投资
    如何评估AI初创公司海外投资人谈AI新趋势应该关注哪些AI公司AI 创投七大新趋势全球AI创投生态全球AI投资机构Top10

    Technology



    +



    AI工程师有多强?3天上线全球首个AI数库
    “AI张雪峰”诞生,北大团队用 AI 重塑教育咨询
    1人团队,百万营收的AI套壳
    2024 年必读人工智能书单
    加密信条:数字货币的前世、今生和未来
    内容创作指南,如何通过写作赚钱?
    传统公司如何抓住AI浪潮?
    全球七大科技巨头的 4000 亿美元 AI 战略布局
    全球 Gen AI 独角兽大盘点,中国4家大模型上榜
    AI大模型:海外 数学 性价比 编程 医疗 评估 训练成本 | 小模型
    AI 创始人 华裔创始人 北美科技人才中心地图职业经历教育背景斯坦福普林斯顿丨多伦多大学
    AI 公司地理和行业分布 以色列 德国 旧金山湾区 欧洲法国
    福布斯AI 50 斯坦福AI指数 企业科技AI 30 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25丨2024年全球最具价值独角兽丨Gen AI专利公司 Top20丨开源 AI 初创公司 Top 75丨开源 AI 开发者工具 Top 20丨全球数据中心按功耗排名 Top 50丨PH 2023年度最佳应用丨2023年北美新增独角兽
    AI代理:创始人该如何站上3000亿美元的风口?
    AI+国防安防:如何重新定义现代战场的核心竞争力
    AI+人力资源:用科技重塑就业与招聘的未来
    AI+搜索:全球新锐公司谁能杀出重围?
    AI+社交:该怎么玩?
    AI+编程:公司排行榜市场地图丨AI工程师SaaS的新曙光
    AI+金融:如何缔造下一个金融科技传奇大模型在金融投资领域的应用AI将如何改变会计
    AI+游戏:市场研究报告初创公司Top 10
    AI+机器人
    AI+医疗:市场地图心理/精神公司
    AI+教育:市场地图
    AI+客服:市场地图
    AI+法律:市场地图
    AI+视频:市场地图3D视频
    AI+生产力工具市场地图
    AI+科研

    Review



    +


    001 002 003 004 005 006 007 008 009 010
    011 012 013 014 015 016 017 018 019 020
    021 022 023 024 025 026 027 028 029 030
    031 032 033 034 035 036 037 038 039 040
    041 042 043 044 045 046 047 048
    049
    050 
    051 052 
    053
    054 
    055
    056
    057
    058
    059
    060
    061
    062 
    063 
    064
    065 066
    067
    068 069 070
    071  072 073 074 075 076 077 078 079 080
    081 082 083 084

    (文:硅谷科技评论)

    发表评论