21 - mixed_modality(混合模态)

LangChain 文档大模型文档

模块 21：混合模态

🎯 学习目标

学习如何在单个工作流中结合文本、图像和结构化数据，构建真正的多模态 AI 应用。

📚 核心概念

什么是混合模态？

混合模态（Mixed Modality）是指在同一个 AI 工作流中处理多种类型的数据：

文本：自然语言描述、提问、指令
图像：照片、图表、截图
结构化数据：JSON、表格、数据库记录
文档：PDF、Word、Markdown

应用场景

报告生成：分析数据图表 + 生成文字报告
内容审核：同时检查文字和图片内容
智能文档处理：理解带图文的文档
数据可视化解读：分析图表并提取数据

🔑 关键模式

图文结合分析

message = HumanMessage(content=[
    {"type": "text", "text": "分析这个销售报告"},
    {"type": "image_url", "image_url": {"url": chart_url}},
    {"type": "text", "text": f"相关数据：{json.dumps(sales_data)}"}
])

结构化输出

from pydantic import BaseModel

class AnalysisResult(BaseModel):
    summary: str
    key_findings: list[str]
    data_points: dict

agent = create_agent(
    model="openai:gpt-4o",
    response_format=AnalysisResult
)

📝 本模块示例

图表+数据分析：结合图表图像和原始数据
文档理解：处理带图文的文档
多源数据融合：整合多种来源的信息

标签：

LangChain 文档大模型文档