文章摘要

你在屏幕上看到 AI「正在输入」的光标时,有没有想过:这几个字节是怎样跨越千山万水,在屏幕上一个个「蹦」出来的?当 ChatGPT、Kimi、Claude 们用流式的方式「打字」给你看时,这种近乎人类的交互体验背后,藏着一个不起眼却至关重要的技术——Server-Sent Events(SSE)。它不像 WebSocket 那样大名鼎鼎,却在 AI 时代成为了事实上的标准。诚然,在 ASP.NET Core 中实现一个「能工作」的 SSE 接口,仅仅需要十分钟。但是,如果要实现一个「好用」的 SSE 接口——支持事件抽象、复用性好、能优雅地取消,你需要多久呢?本文将为你拆解这个挑战,展示如何整个设计从「能用」走向「好用」。

当 AI 开始「思考」

试想这样一个场景:用户向 Agent 提问「讲一个关于小狐狸的故事」。传统的 HTTP 请求-响应模式下,服务器需要等待大语言模型生成完整回答后,再能将结果返回给用户。这意味着用户可能要盯着屏幕等待十几秒后,才能看到完整的答案。但是,在真实的产品体验中,我们期望看到的是:Agent 首先展示它的「思考过程」——它如何理解用户意图、如何规划回答策略;然后是工具调用的实时反馈——搜索资料、查询数据库;最后才是回答内容的逐字输出。这种「实时可见」的体验,远比「等待-呈现」的模式更加自然和引人入胜。

SSE 正是实现这种体验的关键技术,它基于 HTTP 协议,允许服务器主动向客户端推送数据,相比 WebSocket 更加轻量,且能复用现有的 HTTP 基础设施。对于 LLM 流式输出这类场景,SSE 几乎是完美的选择。

第一阶段:最朴素的实现

一切的开始,是一段朴实无华的代码。博主直接在控制器中拼接 SSE 格式的字符串,然后写入响应流:

[HttpGet("chat")]
public async Task ChatStream(CancellationToken cancellationToken) {
    Response.ContentType = "text/event-stream; charset=utf-8";
    Response.Headers["Cache-Control"] = "no-cache";
    Response.Headers["Connection"] = "keep-alive";

    foreach (var chunk in GenerateText()) {
        string message = $"data: {JsonConvert.SerializeObject(new { text = chunk })}\n\n";
        await Response.WriteAsync(message, Encoding.UTF8, cancellationToken);
        await Response.Body.FlushAsync(cancellationToken);
    }
}

这种写法虽然「能用」,但是存在明显的问题:字符串拼接逻辑散落在各处,维护成本高;如果要发送不同类型的事件(如消息开始、文本增量、工具调用、思维链、消息结束),代码将会变得难以维护。

第二阶段:引入事件抽象

既然 SSE 支持多种事件类型(messagethinking_deltatool_use 等),博主决定先把这部分抽象出来。

首先是定义事件模型,参考 Anthropic Messages API 的设计:

public interface ISseEvent { string Type { get; } }

public class MessageStartEvent : ISseEvent {
    public string Type => "message_start";
    public MessageMetadata Message { get; set; } = new();
}

public class ContentBlockDeltaEvent : ISseEvent {
    public string Type => "content_block_delta";
    public int Index { get; set; }
    public ContentBlockDelta Delta { get; set; } = new();
}

然后是 SSE 响应的配置和写入扩展方法:

public static class StreamingExtensions {
    public static void ConfigureSseResponse(this HttpResponse response) {
        if (response.HasStarted) return;
        response.ContentType = "text/event-stream; charset=utf-8";
        response.Headers["Cache-Control"] = "no-cache";
        response.Headers["Connection"] = "keep-alive";
    }

    public static async Task WriteSseEventAsync<TEvent>(
        this HttpResponse response, TEvent @event, CancellationToken ct = default)
        where TEvent : ISseEvent {
        var sb = new StringBuilder();
        sb.Append($"event: {@event.Type}\n\n");
        var json = JsonSerializer.Serialize(@event);
        sb.Append($"data: {json}\n\n");
        await response.WriteAsync(sb.ToString(), Encoding.UTF8, ct);
        await response.Body.FlushAsync(ct);
    }
}

现在,控制器代码变成了这样:

[HttpGet("chat")]
public async Task ChatStream(CancellationToken cancellationToken) {
    Response.ConfigureSseResponse();
    await Response.WriteSseEventAsync(new MessageStartEvent { Message = new() { Id = "1" } }, cancellationToken);
    // ... 逐个写入事件
}

代码整洁了一些,但是问题依然存在:控制器不仅要处理业务逻辑,而且要关心 SSE 输出细节,甚至需要特别注意响应头配置的时机。

第三阶段:结合 IAsyncEnumerable

当博主想要用 yield return 来组织事件流时,发现 async 方法不支持 yield return,幸运的是,C# 8.0 引入的 IAsyncEnumerable 完美解决了这个问题:

[HttpPost("chat")]
public async IAsyncEnumerable<ISseEvent> ChatStream([FromBody] ChatRequest request) {
    Response.ConfigureSseResponse();
    yield return evt.MessageStart("MiniMax-M2.1");
    yield return evt.ThinkingBlockStart(0);
    // ... 业务逻辑
}

这段代码看起来非常优雅,yield return 让事件的组织变得清晰。但是,这里有一个隐藏的陷阱

直接返回 IAsyncEnumerable 时,ASP.NET Core 默认会将其序列化为 JSON 数组,而不是流式输出。

这是因为输出格式化器(Output Formatters)默认将 IAsyncEnumerable<T> 视为普通对象,等待整个枚举完成后再一次性发送。这与 SSE「边产生边发送」的特性完全相悖,会导致接口返回 406 或直接返回 JSON。

第四阶段:多方案探索

面对这个问题,博主开始探索各种解决方案。第一种方案是不用 [ApiController],绕过默认格式化行为,让框架把 IAsyncEnumerable 当作普通流处理。但这意味着,你将会放弃 ApiController 带来的模型绑定等便利。第二种方案则是使用中间件统一处理,自动配置 SSE 响应头、写入 SSE 数据流:

public class SseStreamingMiddleware {
    public async Task InvokeAsync(HttpContext context)
    {
        var endpoint = context.GetEndpoint();
        if (endpoint?.Metadata?.GetMetadata<SseStreamingAttribute>() == null)
        {
            await _next(context);
            return;
        }
        context.Response.ConfigureSseResponse();
        await _next(context);
    }
}

然而,现实给了博主当头一棒。ASP.NET Core 的中间件管道顺序是:

Request → AuthMiddleware → ... → Controller → Response

AuthorizationMiddleware 在认证过程中会访问 Response 对象。当我们期望在后续中间件中修改响应头时,框架已经处于「敏感」状态。中间件方案的问题在于它工作在「底层」的请求管道层面,不适合处理控制器级别的返回值序列化。

博主再次尝试过使用 ActionFilter 来处理 SSE 输出,可它同样面临着响应头配置时机的问题。Filter 在控制器 Action 执行前后运行,遗憾的是,响应头一旦发送就无法修改。回到 ASP.NET Core 的应用层来思考。控制器的返回值,最终都会转化为 IActionResult,那么在 IActionResult.ExecuteResultAsync 中处理 SSE 输出,这不就完美了吗?

public class SseResult : IActionResult {
    private readonly IAsyncEnumerable<ISseEvent> _events;

    public SseResult(IAsyncEnumerable<ISseEvent> events) => _events = events;

    public async Task ExecuteResultAsync(ActionContext context) {
        context.HttpContext.Response.ConfigureSseResponse();
        await foreach (var @event in _events.WithCancellation(context.HttpContext.RequestAborted)) {
            await context.HttpContext.Response.WriteSseEventAsync(@event, context.HttpContext.RequestAborted);
        }
    }
}

// 扩展方法
public static class SseResultExtensions {
    public static SseResult SseStream(this IAsyncEnumerable<ISseEvent> events)
        => new SseResult(events);
}

此时,控制器代码变得简洁而优雅:

[HttpPost("chat")]
public IActionResult Chat([FromBody] ChatRequest request)
    => ChatAsync().SseStream();

private async IAsyncEnumerable<ISseEvent> ChatAsync([EnumeratorCancellation] CancellationToken ct = default) {
    yield return evt.MessageStart("MiniMax-M2.1");
    // ... 业务逻辑
}

所以,为什么 IActionResult 方案可行呢?这个方案的成功在于它找到了正确的「执行时机」:

Request → Filters → Controller Action → IActionResult.ExecuteResultAsync → Response

首先,ExecuteResultAsync 在控制器 Action 执行完毕后、响应提交前执行,这个时机配置响应头完全没问题。其次,IActionResult 是 ASP.NET Core 的原生模式,框架对它有完善支持,无需与中间件管道「较劲」。

横向对比

维度手写字符串事件抽象纯 IAsyncEnumerable中间件方案SseResult 方案
实现复杂度
事件抽象
代码复用性
响应头配置需注意时机需注意时机需注意时机可能有冲突完美时机
推荐场景快速原型快速原型学习研究特定需求正式项目

从一次实践到一种设计哲学

完成 SSE 流式响应的重构后,博主开始思考更深层的问题:这仅仅是一次技术选型,还是一种设计哲学?在 LLM Agent 的设计中,流式输出远不止「逐字地显示回答」这么简单。

一个完整的 Agent 交互通常包含三个阶段,而这三个阶段,对应着 SSE 的三种核心事件类型:

阶段描述SSE 事件类型
思考可见Agent 展示「思考过程」——如何理解问题、如何规划解决路径,用户全程「旁观」thinking_delta
工具调用反馈Agent 调用外部工具时,实时展示:「正在搜索资料…」「找到 3 条结果…」tool_use / tool_result
答案逐字输出最终答案逐字呈现,配合前端光标动画,创造「AI 正在打字」的真实感text_delta

当然,在「Interleaved Thinking」机制下,ReAct 范式变成了模型的一部分,思考和工具调用交替进行,SSE 事件无疑会更加复杂,这篇文章恰恰是在思考如何应对这种复杂性。

完成 SSE 重构后,博主意识到这其实是事件驱动架构在客户端-服务器交互中的一次实践。Agent 的每一个「动作」都转化为一个事件,客户端接收并渲染这些事件,构建完整的交互体验。这种设计的好处显而易见:

  • 可扩展性:添加新的事件类型,只需定义新的 ISseEvent 实现
  • 可观测性:每个事件都是独立的日志单元
  • 前端友好:思考、工具、文本可以分别渲染在不同区域

为什么简单的事情会变得复杂?因为我们需要理解框架的设计哲学,理解各个组件的职责边界。

  • 中间件是请求/响应层面的抽象,适合做全局性的预处理/后处理
  • IActionResult是应用返回层面的抽象,适合处理控制器的返回值
  • 我们要解决的是「控制器返回值的处理」,自然应该在 IActionResult 这个抽象层次上解决

写在最后

完成这次 SSE 流式响应的重构,博主最大的收获不是代码本身,而是在正确的抽象层次上解决问题这一思维方式的转变。技术的世界里有太多「看起来可行」但实际行不通的方案。我们需要理解框架的设计哲学,理解各个组件的职责边界,从而找到真正优雅的解决方案。当然,技术从来都不是孤立存在的。当我们谈论 SSE 时,谈论的其实是人与机器之间那条无形的纽带。流式响应让 AI 不再是一个黑箱——它「思考」时你看得见,它「行动」时你看得见,它「回答」时你依然看得见。这种透明性背后,是当前时代人机交互的一个缩影。Agent 的时代已悄然来临,SSE 流式响应不过是冰山一角。一个优秀的 Agent 系统还需要考虑如何组织工具、如何做决策规划、如何处理错误、如何支持多轮对话……每一个话题都是一座值得攀登的山峰。希望这篇博客,不只是帮助你解决了一个技术问题,而是为你打开了一扇窗——透过这扇窗,你会看到更多关于「如何让机器更懂人类」的思考。模型在进步,思考亦然。愿你保持好奇,愿你永不止步。


延伸阅读:


参考资源:

赞赏博主
相关推荐 随便逛逛
关于 ChatGPT 的流式传输,你需要知道的一切 本文深入探讨了生成式 AI 产品如 ChatGPT 的流式输出效果,阐释了其目的在于减少用户等待时间,而非简单模仿人类行为。文章详细介绍了 Server-Sent Events(SSE)技术在实现流式传输中的应用,并通过代码示例展示了服务端配置和客户端数据接收的方法。同时,讨论了 WebSocket 技术作为 SSE 的替代方案,强调了在 AI 应用开发中实现流式传输的重要性。此外,文中还介绍了 .NET 中的 IAsyncEnumerable 接口,并讨论了在生成式 AI 中实现取消/停止生成功能的挑战,提出了基于 WebSocket 的双向通信机制来解决这一问题。最后,文章总结了流式传输在 AI 与人类交互中的重要性,并提出了对 AI 智能本质的思考。
基于 Server-Sent Events 实现服务端消息推送 本文介绍了服务器推送事件(Server-Sent Events,简称SSE)技术,这是一种允许服务器向客户端主动推送信息的技术。作者因项目需求,需要在 APP 端和 PC 端之间实现任务领取通知的功能,通过使用 SSE 技术,避免了轮询方式带来的性能问题。文章详细解释了 SSE 的基本概念、与 WebSocket的区别、服务端和客户端的实现方法,并以 .NET 为例,展示了如何在服务端集成 SSE。作者还提供了一个简单的客户端实现示例,并对比了 SSE 与其他技术的优劣。最后,作者总结了选择 SSE 的原因,并提供了相关参考文章。
评论 隐私政策