B体育从一个医疗问诊 Agent 的出生, 看懂 LangChain、LangGraph 与 LangSmith

发布日期：2026-04-02 15:11 点击次数：128

B体育从一个医疗问诊 Agent 的出生，看懂 LangChain、LangGraph 与 LangSmith

LangChain、LangGraph和LangSmith正在重塑AIAgent的拓荒范式。从标准化接口、复杂进程编排到出产级质地考据，这三个用具组成了完满的Agent拓荒生命周期。本文通过医疗分诊Agent的实战案例，带你深度判辨这套技巧栈怎样搪塞果真业务场景中的多轮对话、进军分流和东说念主工审批等复杂需求。

在珍爱运转之前，先给这三个名词各一句话的界说，帮你在脑中建立一个基础坐标系。

LangChain是一个开源框架，它提供了邻接大谈话模子与外部用具、数据源的标准化接口，让你能快速搭建一个AIAgent的基础才智。

LangGraph是一个底层编排引擎，它用”图”的方式来建模Agent的责任流——每个动作是一个节点，每个决策是一条边——让Agent能处理有分支、有轮回、有情景精良的复杂业务进程。

LangSmith是一个买卖化平台，它负责Agent的可不雅测性、质地评估和出产部署——简便说，它让你能看到Agent每一步在干什么、判断Agent好不好用、并最终把Agent安全地推上线。

这三者都来自吞并家公司LangChainInc.，但它们措置的是Agent拓荒生命周期中三个判然不同的阶段。一个简便的类比：若是把造Agent比作造一辆车，LangChain是零部件供应商，LangGraph是总装车间里的活水线，LangSmith是质检站加4S店。零件得先有，活水线才能拼装，质检通过了才能委用给用户。

接下来，咱们不作念干巴巴的名词解释。咱们来讲一个故事——一个医疗问诊Agent从零运转被创造、被打磨、最终上线的完满旅程。在这个故事里，你会当然地相识每个用具在什么时候登场、为什么登场、以及它到底措置了什么问题。

故事的发轫：咱们要造什么

假定你是一家互联网医疗公司的AI家具司理。公司决定拓荒一个”智能分诊Agent”——患者在线上态状我方的症状，Agent需要完成几件事：相识患者的当然谈话态状，判断症状的进军进程，匹配最相宜的科室，最终给出一份结构化的就医提议。

这不是一个简便的聊天机器东说念主。它需要医学学问储备，需要多轮对话来追问磨蹭症状，需要在波及进军情况时触发稀奇进程，还需要在输出用药提议前经过东说念主工医师的审批。最枢纽的是，这是一个医疗场景——容错率极低，每一步决策都必须可追念、可解释。

带着这个需求，咱们启程。

第一阶段：搭骨架——让Agent先能跑起来

LangChain登场

任何Agent的拓荒都从一个最基本的问题运转：它需要哪些”器官”？

对咱们的分诊Agent来说，它需要三样东西：一个鼓胀颖悟的”大脑”来相识患者的态状，一对能查阅医学学问的”手”来检索关联信息，以及一套输出时势来生成结构化的分诊提议。

LangChain措置的即是这个阶段的问题。它像一个标准化的零部件供应商，把构建Agent所需的每一个模块都作念了封装和标准化。

第一个才智：模子接口的标准化。在LangChain出现之前，若是你想让Agent用Claude作念推理，你需要写一套Anthropic的API调用代码；若是自后想换成GPT-4，你得重写一遍OpenAI的接口；若是还想试试Gemini，再来一遍。每家模子厂商的API时势、参数定名、复返结构都不一样。LangChain作念的事情是在这些不同的API之上建了一层长入的抽象——你只需要改一个模子称号的字符串，底层的调用方式、音讯时势、复返判辨全部自动适配。关于咱们的分诊Agent来说，这意味着你可以先用Claude跑通功能，然后温和切换到GPT-4o作念对比测试，望望哪个模子在医学推理上发扬更好，而不需要窜改任何业务逻辑代码。

这不是一个小事。在推行的家具拓荒中，模子选型时常需要经历多轮测试和对比。若是每次换模子都要改代码，不仅奢华工程资源，还容易引入新的bug。LangChain的模子标准化接口，让”换模子”这件事变成了改一滑配置，而不是一次代码重构。咫尺LangChain依然集成了率先一千个外部作事和模子提供商，笼罩了市面上险些扫数主流的大谈话模子。

第二个才智：ToolCalling的封装。Agent之是以比平日的聊天机器东说念主遒劲，核心在于它能”入手作念事”——不仅仅生成翰墨，而是能调用外部用具来获取信息、实践操作。对咱们的分诊Agent来说，它需要调用疾病学问库来检索症状与疾病的对应关联，需要调用科室信息数据库来匹配相宜的就诊科室，可能还需要调用一个进军进程评估模子来判断患者是否需要立即就医。

在LangChain中，你只需要把这些外部才智界说为”用具”，每个用具有一个名字、一段态状和一个实践函数。Agent在推理过程中会凭据面前的对话内容，自主决定要不要调用某个用具、传什么参数。这即是所谓的ToolCalling——模子不仅仅回答问题，而是在需要的时候主动”提升引具干活”。

举个具体的例子。患者说”我最近老是头晕，早上起来极端明显，就怕候还会耳鸣”。Agent的大脑——大谈话模子——相识了这段话之后，会自主判断”我需要查一下头晕加耳鸣可能对应什么疾病”，然后调用疾病学问库用具，传入”头晕””晨起加剧””耳鸣”这几个枢纽词，拿到检索结果后再抽象生成讲述。扫数这个词过程中，Agent什么时候调用具、调哪个用具、传什么参数，都是模子我方决定的。你只需要在一运转界说好用具有哪些，具体的调用时机交给Agent的推理才智来判断。

第三个才智：Agent预制架构。LangChain内置了一套叫作念ReAct的Agent模式。ReAct的全称是ReasoningandActing——推理与举止轮换进行。简便说，Agent的每一步都罢职”想一想→作念一作念→看结果→再想一想”的轮回。关于咱们的分诊场景，Agent先推理”患者态状了头晕和耳鸣，我需要更多信息来判断”，然后举止”调用学问库检索”，接着不雅察检索结果，再推理”结果暴露可能是好意思尼尔氏抽象征或高血压，我需要追问血压情况”，如斯轮回直到采集够信息、给出最终提议。

有了LangChain，咱们用十行控制的代码就能跑通一个基础版块的分诊Agent。它能相识患者的态状，能调用学问库检索，能按照ReAct模式进行多步推理，最终输出一份分诊提议。

但这个”能跑”和”能用”之间，还有庞杂的领域。

第二阶段：编进程——让Agent搪塞果真宇宙的复杂性

LangGraph登场

基础版的分诊Agent跑通之后，你很快就会发现它的局限。

果真的医疗问诊不是”患者说一句、Agent查一下、回一个提议”这样线性的过程。果真宇宙里充满了分支、轮回和例外情况：

患者态状磨蹭怎样办？Agent需要发起追问，况兼是有计谋的追问——不成像审讯一样一语气问十个问题，要凭据已有信息判断最需要补充哪个维度。若是追问三轮患者照旧说不知晓，Agent需要能识别出”信息不及以作念判断”，并提议告成线下就诊而不是硬给一个不靠谱的论断。

进军症状出现怎样办？若是患者在对话中提到”胸口剧烈痛苦””倏得说不出话””一侧肢体无力”这类可能教唆急性心梗或脑卒中的症状，Agent不成按照成例进程安宁走完扫数门径。它需要立即跳出正常进程，银河国际(GALAXY)参加进军通说念——住手一切非必要的追问，告成输出”请立即拨打120或赶赴最近的急诊”。

波及用药提议怎样办？在中国的医疗监管框架下，AI告成给出具体的用药提议存在合规风险。是以在Agent生成波及药物的内容时，这条输出不成告成发给患者，必须先经过一个东说念主工医师的审批关节——医师阐发内容莫得问题后，才能放行。

波及未成年东说念主怎样办？若是患者是儿童，分诊逻辑可能全都不同——一样是发热38.5度，成东说念主可以提议居家不雅察，但三岁以下的婴幼儿可能需要立即就诊。

这些”若是……那么……不然……”的条目分支，加上”不够就且归再问一轮”的轮回逻辑，再加上”到了这一步必须有东说念主类介入”的审批节点——用LangChain的基础Agent是处理不了的。LangChain的ReAct模式骨子上是一个线性的推理轮回，它莫得显式的情景治理，也莫得内置的进程分支机制。

这即是LangGraph登场的时刻。

LangGraph的核心念念想是：把Agent的责任进程用“图”来抒发。这里的”图”不是图片的图，而是数学和筹谋机科学中的想法——由节点和边组成的采集会构。每个节点代表一个具体的动作——可以是调用大谈话模子作念推理，可以是调用外部用具查数据，也可以是一个纯逻辑判断。每条边代表一个流转划定——从这个节点作念完之后，下一步该去那儿。

对咱们的分诊Agent来说，用LangGraph建模出来的进程梗概是这样的：

进口是一个”症状采集”节点。患者每说一句话，这个节点负责相识内容、提真金不怕火症状信息、更新面前已知的症状列表。

接下来是一个”信息充分度判断”节点。它查验面前依然采集到的症状信息是否鼓胀作念出分诊判断。若是不够——这是一条条目边——进程回到”症状采集”节点，Agent会针对性地追问缺失的信息。若是够了，进程陆续往下走。这就酿成了一个轮回：采集→判断→不够→再采集→再判断。这种轮回在线性的Agent架构里很难齐备，但在图结构里仅仅一条回指的边汉典。

然后是一个”进军度评估”节点。它凭据已采集的症状信息判断进军进程。这是一个条目分支：若是判定为进军，进程告成跳到”进军通说念”节点，输出急救提议，跳事后续扫数门径；若是判定为非进军，进程正常陆续。

再然后是”科室匹配”节点和”提议生成”节点。科室匹配负责凭据症状匹配最相宜的科室，提议生成负责抽象扫数信息输出一份结构化的就医提议。

临了是一个枢纽的”东说念主工审批”节点。若是Agent的提议中波及了药物信息，进程会在这里暂停——不是技巧上的暂停，而是打算上的暂停。Agent的情景被保存下来，一个奉告讦给值班医师，医师在我方的责任台上稽查Agent生成的内容，阐发没问题后点击”通过”，进程才陆续往下走，把提议发给患者。若是医师以为有问题，可以修改内容后再放行，或者告成打回让Agent再行生成。

这即是LangGraph最核心的价值所在。当你面临的业务进程中存在条目分支、轮回、东说念主工介入、额外处理这些复杂性时，图结构是最当然的建模方式。每个节点作念什么、什么条目走哪条边，都是显式界说的，莫得任何荫藏的魔法。

除了进程编排自身，LangGraph还带来了几个对医疗场景至关首要的底层才智。

历久化实践。Agent在处理一个患者的问诊时，可能需要经历多轮对话，中间还可能因为恭候东说念主工审批而暂停数小时。若是在这个过程中系统发生了重启或崩溃，患者之前态状的扫数症状信息不成丢失。LangGraph的查验点机制会在每个节点实践完毕后自动保存面前情景，B体育(BSports)系统复原后可以从断点陆续，不需要患者从新态状。这关于医疗场景来说不是镌脾琢肾，而是基本要求——你不成让一个正在恭候急诊提议的患者因为系统重启而再行走一遍分诊进程。

情景回溯。假定一个case出了问题——Agent给出了一个明显分歧理的分诊提议。在LangGraph的架构下，你可以完满回溯这个case的情景变化：第一轮对话后情景是什么，学问库检索复返了什么结果，进军度评估是怎样判的，科室匹配是基于什么信息作念的。每一步的输入输出和情景变化都班班可考。这在传统的”黑箱”Agent中险些不可能作念到。

精良治理。LangGraph原生营救两种精良：短期精良保存面前此次对话的凹凸文——患者说过什么、Agent追问了什么、依然提真金不怕火了哪些症状；恒久精良可以跨对话保存——比如这个患者上个月作念过一次分诊，那时的记载可以算作参考。关于需要连气儿追踪的慢性病患者场景，恒久精良是一个相配有价值的才智。

到这一步，咱们的分诊Agent依然有了完满的业务逻辑：能采集、能判断、能分流、能轮回追问、能在枢纽节点拉东说念主介入、能记着每个患者的凹凸文。从功能上说，它依然是一个可以责任的系统了。

但”能责任”和”值得信任”之间，还有临了一说念关卡。

第三阶段：验质地——用数据证明Agent靠谱

LangSmith登场

医疗场景对证地的要求是顶点严格的。你不成对着雇主说”我以为这个Agent还可以”——你需要拿出数据来证明它到底有多靠谱，哪些场景它处理得好，哪些场景它还不行，不行的原因具体是什么。

这即是LangSmith要措置的问题。若是说LangChain负责”造”，LangGraph负责”编”，那LangSmith负责的即是”验”和”管”。

Trace：看清Agent每一步在干什么

LangSmith最基础也最遒劲的才智是Trace——全链路追踪。

接入方式极其简便，只需要设立一个环境变量。设立完之后，Agent每一次实践都会被完满记载：每个节点的输入是什么，输出是什么，用了多万古分，花消了几许token，中间调用了哪些用具，用具复返了什么结果。扫数这些信息都会以可视化的瀑布图面孔展示在LangSmith的dashboard上。

这对PM来说意味着什么？

意味着你再也不需要猜Agent为什么给出了一个奇怪的回答。你可以怒放那条trace，像看监控摄像一样回放扫数这个词过程：患者说了”我胃疼了三天，吃不下饭”，Agent提真金不怕火了”胃痛””三天””食欲下落”三个症状，然后调用了学问库检索，检索复返了五条结果，Agent采纳了其中两条算作参考依据，最终身成了”提议消化内科就诊”的提议。

若是这个提议是错的，你可以精笃定位问题出在哪一步。是症状提真金不怕火有误？是学问库检索的调回结果不关联？是模子在抽象推理时出了偏差？照旧最终的提议生成模板有问题？每一步都看得清知晓爽。

这种透明度在医疗场景中尤其首要。当一个分诊case出了问题被患者投诉时，你需要八成完满还原Agent的决策链路，向医务部门解释”Agent是基于什么信息、经过什么推理过程、得出了这个论断”。若是莫得trace，你面临的即是一个黑箱——患者输入了什么你知说念，Agent输出了什么你也知说念，但中间发生了什么你一无所知。

Eval：批量测试Agent的质地

Trace措置的是”单个case发生了什么”的问题。但算作家具负责东说念主，你还需要回答一个更宏不雅的问题：这个Agent举座的质地水平怎样？

LangSmith的Eval功能即是用来作念这件事的。你可以准备一个测试数据集——比如一百个果真的患者问诊案例，每个案例都有标注好的”正确谜底”——然后让Agent跑一遍这些case，Eval会自动对比Agent的输出和标准谜底，按照你预设的评分维度打分。

对分诊Agent来说，你可能会打算这样几个评估维度：

分诊准确率——Agent推选的科室是否与标准谜底一致。这是最核心的方针。

进军识别率——关于标注为进军的case，Agent是否正确触发了进军通说念。这个方针的要求是极高的，漏判一个急性心梗可能即是东说念主命关天的事。

追问合感性——Agent的追问是否有针对性，有莫得问了一堆无关的问题奢华患者时分。

提议可读性——输出的就医提议是否结构知晓、表述准确、不包含可能引起歪曲的内容。

Eval跑完之后，你会得到一份量化的质地施展：总体准确率87%、进军识别率95%、在”头晕”关联的case中准确率明显偏低只消72%、在”儿科”关联case中追问轮次过多平均要追问5轮。这些数字告成告诉你下一步应该优化什么。

更首要的是Eval营救版块对比。当你的工程师作念了一次优化——比如更新了学问库的内容，或者转机了Agent的prompt，或者换了一个更新的模子——你可以用吞并份测试集再行跑一遍Eval，对比优化前后的分数变化。这让每一次迭代都是有据可依的，而不是”嗅觉好像好了少量”。

Studio：交互式调试

LangSmith还提供了一个叫Studio的可视化环境，让你可以告成和Agent进行交互式调试。你可以在Studio里模拟一个患者的输入，及时不雅察Agent的推理过程，在职意一个节点暂停、查验面前情景、以致修改中间结竟然后陆续实践，望望不同的中间情景会导致什么不同的最终输出。

这关于调试那些”偶尔出错”的角落case极端有效。你可以把出错的那条trace在Studio里重放，走到出问题的阿谁节点，修改输入望望是不是某个特定的措辞触发了诞妄推理，或者替换学问库的检索结果望望是不是检索质地的问题。这种交互式的调试方式，比看日记猜问题要高效得多。

接入老本

值得一提的是LangSmith的接初学槛极低。若是你的Agent是用LangChain和LangGraph搭建的，接入LangSmith只需要作念一件事：设立一个环境变量，告诉系统”把trace数据发送到LangSmith平台”。不需要窜改任何业务代码，不需要在代码里手动埋点。这是因为LangChain和LangGraph在打算时就预留了与LangSmith的集成接口——它们是一个生态中的三个组件，自然就能无缝献媚。

第四阶段：上出产——三者怎样酿成闭环

Agent通过了质地考据，咫尺要珍爱上线作事果真的患者了。上线不是至极，而是另一个轮回的发轫。

LangSmith在出产环境中饰演的变装从”调试用具”滚动为”监控核心”。它会不息追踪线上的每一次问诊苦求：平均反映时分是几许、每天有几许case触发了进军通说念、东说念主工审批的通过率和打回率分别是几许、用户在对话半途打消的比例有多高。这些方针组成了一个及时的健康度姿色盘。

当监控发现额外——比如某六合午进军通说念的触发率倏得翻倍——你可以钻取到具体的trace，发现是因为学问库更新后某个症状的进军度标注被误改了。定位到问题后，设立发生在LangChain层面——纠正学问库的数据，或者转机Tool的检索计谋。

若是发现Agent在处理某类复杂case时往往堕入无尽追问的轮回，问题可能出在LangGraph层面——需要在”信息充分度判断”节点加一个最大追问轮次的限度，或者增多一条”率先三轮未采集到鼓胀信息就提议线下就诊”的退出边。

设立完成后，再行用LangSmith的Eval跑一遍测试集，阐发窜改措置了问题且莫得引入新的记忆，然后发布新版块。

这即是三者的闭环献媚：LangSmith发现问题→定位到LangGraph的进程编排或LangChain的基础才智→设立后用LangSmith考据→再行部署。这个轮回会在Agent的扫数这个词生命周期中不休类似，每一轮轮回都让Agent变得更可靠少量。

三者关联的另一种相识方式

讲已矣完满的故事，让咱们跳出来再看一次全景。

若是把Agent拓荒比作建造一栋病院大楼，LangChain提供的是建筑材料——钢筋、水泥、玻璃、管说念。你需要什么材料它都有，况兼规格标准长入，不同厂商的材料可以互换。它措置的是”有莫得”的问题。

LangGraph是建筑的结构打算和施工——它决定了楼层怎样差异，走廊怎样邻接，进军通说念设在那儿，电梯和楼梯的流线怎样安排。它措置的是”怎样组织”的问题。一样的建筑材料，不同的结构打算会得到功能全都不同的建筑。

LangSmith是建筑的验收和物业治理——消防查验通欠亨过，电路负载测试达不达标，日常运营中那儿的灯坏了、哪个门禁出了故障，都由它来监测和施展。它措置的是”好不好”和”稳不稳”的问题。

三者之间有一个首要的技巧依赖关联：LangChain的Agent底层推行上运行在LangGraph之上。这不是可选的——当你用LangChain的create_agent创建一个Agent时，它在底层自动使用LangGraph来赢得历久化实践、流式输出、human-in-the-loop这些才智。关于简便场景，你全都不需要知说念LangGraph的存在，LangChain帮你封装好了一切。只消当你需要自界说复杂的进程逻辑时，你才需要告成操作LangGraph的API。

LangSmith则是独处于前两者的——它可以监控任何框架构建的Agent，不限于LangChain和LangGraph。但当三者沿途使用时，集成体验是最丝滑的，一个环境变量就能买通全链路。

从PM的视角回看：你需要建立什么认识

读完这个故事，你可能会问：算作一个AI家具司理，我又不写代码，知说念这些有什么用？

用处比你设想的大。

第一，你需要能界说Agent需要什么才智

这对应LangChain的念念维方式。当你在写PRD时，你需要明确列出Agent需要邻接哪些外部用具和数据源——学问库、数据库、第三方API、里面系统。你需要知说念”ToolCalling”的想法，相识Agent不是什么都我方生成，许多时候它需要调用外部用具来获取果真信息。你还需要判断不同的基础模子在你的场景下哪个更相宜——这不是一个纯技巧决策，它波及老本、蔓延、准确率的衡量，PM需要参与。

第二，你需要能画出业务进程的情景图

这对应LangGraph的念念维方式。在和工程团队疏浚Agent决策时，若是你能画出一张进程图——哪些是节点，哪些所在需要条目分支，那儿需要轮回，那儿需要东说念主工介入——疏浚效果会高一个数目级。你不需要知说念代码怎样写，但你需要能把业务进程翻译成”节点+边”的谈话。这骨子上即是家具司理一直在作念的事——画进程图、界说情景机——只不外咫尺你画的进程图可以告成映射到Agent的技巧齐备。

第三，你需要能打算评估体系

这对应LangSmith的念念维方式。Agent的质地不像传统软件可以用”功能是否正常”来二元判断，它的输出是概猖獗的——一样的输入，不同期刻可能给出不同的回答。你需要打算合理的评估维度和测试用例：什么算”好”的分诊提议？怎样洽商追问是否合理？进军识别的调回率底线是几许？这些方针的界说是PM的职责，工程师负责齐备评估的自动化。

三个念念维方式，一个底层逻辑

这三种念念维方式其实指向吞并个底层才智：把一个磨蹭的AI家具需求，翻译成可拆解、可齐备、可度量的技巧决策。LangChain帮你拆解”Agent需要什么器官”，LangGraph帮你拆解”Agent的责任进程是什么”，LangSmith帮你回答”Agent作念得好不好”。

掌捏了这三层认识，你就领有了和工程团队对都Agent决策的共同谈话。你不需要我方写代码，但你需要能听懂工程师说”这个节点的情景需要历久化””这条边的条目判断逻辑要改””这个case的trace暴露问题出在检索关节”——然后作念出正确的家具决策。

遣散：回到发轫

咱们从一个医疗问诊Agent的需求启程，走过了搭骨架、编进程、验质地、上出产四个阶段。在这个过程中，LangChain、LangGraph、LangSmith分别在各自的阶段当然登场、各司其职：

LangChain让Agent有了基础才智——邻接模子、调用用具、完成推理轮回。

LangGraph让Agent有了处理复杂场景的才智——条目分支、轮回追问、东说念主工介入、情景历久化。

LangSmith让Agent有了被信任的履历——全链路追踪、批量质地评估、出产监控、不息迭代。

这三者不是三个独处的家具，而是一个完满生态的三个档次。就像你不会问”发动机和主见盘和姿色盘哪个更首要”一样——它们各欢畅责不同的维度，朦拢任何一个，这辆车都上不了路。

关于AI家具司理而言B体育，相识这个生态最大的价值，不在于你要去用这些用具写代码，而在于它给了你一套念念考Agent家具的框架：先想知晓Agent需要什么才智，再想知晓它的责任进程怎样打算，临了想知晓怎样洽商它作念得好不好。这三个问题想知晓了，不管底层用的是LangChain照旧其他框架，你的家具决策都会更塌实、更有劝服力。

PG电子(PocketGames)游戏官网

B体育从一个医疗问诊 Agent 的出生, 看懂 LangChain、LangGraph 与 LangSmith

热点资讯

推荐资讯

B体育 从一个医疗问诊 Agent 的出生, 看懂 LangChain、LangGraph 与 LangSmith

热点资讯

推荐资讯

B体育从一个医疗问诊 Agent 的出生, 看懂 LangChain、LangGraph 与 LangSmith