
先看一下可视化结果:
- 精确的源接地:将每个摘录映射到源文本中的精确位置,实现视觉突出显示,以便于追溯和验证。
- 可靠的结构化输出:根据您的少量示例强制执行一致的输出模式,利用 Gemini 等受支持模型中的受控生成来保证稳健的结构化结果。
- 针对长文档进行优化:通过使用文本分块、并行处理和多次传递的优化策略来实现更高的召回率,克服了大型文档提取的“大海捞针”难题。
- 交互式可视化:立即生成一个独立的交互式 HTML 文件,以在原始上下文中可视化和审查数千个提取的实体。
- 灵活的 LLM 支持:支持您喜欢的模型,从基于云的 LLM(如 Google Gemini 系列)到通过内置 Ollama 界面的本地开源模型。
- 适用于任何领域:只需几个示例即可定义适用于任何领域的提取任务。LangExtract 能够适应您的需求,无需任何模型微调。
- 利用 LLM 世界知识:利用精准的提示措辞和少量示例来影响提取任务如何利用 LLM 知识。任何推断信息的准确性及其是否符合任务规范取决于所选的 LLM、任务的复杂性、提示说明的清晰度以及提示示例的性质。
# gemini-2.5-flash这是推荐的默认设置,它在速度、成本和质量之间实现了极佳的平衡。
# 对于需要更深入推理的高度复杂任务,gemini-2.5-pro可能会提供更优的结果
# The input text to be processed
input_text = "Lady Juliet gazed longingly at the stars, her heart aching for Romeo"
# Run the extraction
result = lx.extract(
text_or_documents=input_text,
prompt_description=prompt,
examples=examples,
model_id="gemini-2.5-flash",
)
https://github.com/google/langextract
(文:PaperAgent)