这栋平日里庄严肃穆的建筑,因一名青年男子的闯入,
2008年7月1日上午9时40分,上海市闸北区政法大楼(现静安区政法大楼)内,一场精心策划的暴力袭警案震惊全国。
这栋平日里庄严肃穆的建筑,因一名青年男子的闯入,瞬间沦为血与火的修罗场。
案发时正值工作日,大楼内聚集了数百名警察、工作人员及办事群众,而袭击目标直指公安闸北分局——一场针对执法者的疯狂报复,就此拉开帷幕。

杨佳,时年28岁,北京人,无固定职业。
他自幼父母离异,由母亲抚养长大,性格孤僻、敏感多疑。
2007年10月,杨佳因骑无牌自行车被上海警方拦查,双方发生肢体冲突。
杨佳声称遭警察“暴力执法”,多次赴沪投诉并索赔,但未获满意答复。
此后,他通过网络搜集警察个人信息、购买凶器,并多次踩点闸北分局,最终决定以极端方式“讨回公道”。
五名殉职警察:
徐维华,48岁,闸北分局治安支队民警,从警26年,案发时正在值班室整理案卷;
王凌云,28岁,特警支队队员,刚结婚三个月,原定周末陪妻子产检;
李珂,32岁,刑侦支队重案队队长,案发前一天刚破获一起抢劫案;
张建平,47岁,交警支队民警,女儿即将高考,他本打算案发后请假陪考;
方福新,55岁,后勤科职工,退休前最后一天值班,被同事称为“老黄牛”。

他们或倒在值班室、或殒命走廊、或牺牲在楼梯间,用生命诠释了“警察”二字的分量。
事情经过:12分钟的疯狂杀戮
第一阶段:伪装潜入(9:40-9:42)
杨佳头戴棒球帽、手持雨伞遮挡面部,携带8个装满汽油瓶、催泪瓦斯、匕首和榔头的背包,混入闸北分局办事人群。
他趁保安核对他人证件时,突然冲向大楼北侧安全通道,沿楼梯直奔10楼——这里集中了治安支队、特警支队等核心部门。
第二阶段:暴力突袭(9:42-9:48)
在10楼走廊转角处,杨佳点燃汽油瓶投向值班室,火光与浓烟瞬间弥漫。
他趁乱闯入,用榔头猛击民警徐维华头部,致其当场昏迷。
随后,他沿走廊向西狂奔,用匕首刺向迎面而来的王凌云,刀刃穿透防刺服,年轻特警倒地身亡。
此时,刑侦队长李珂听到动静从办公室冲出,杨佳转身投掷催泪瓦斯,趁其视线模糊时连刺数刀,李珂挣扎着按下警报按钮后倒下。
第三阶段:楼梯间的生死追逐(9:48-9:52)
警报声中,杨佳逃向9楼楼梯间,与闻讯赶来的交警张建平狭路相逢。
张建平试图用对讲机呼叫支援,却被杨佳用榔头击碎手部,随后被刺中腹部。
张建平忍痛将杨佳推下楼梯,自己因失血过多牺牲。
杨佳滚落至8楼时,被后勤职工方福新拦住去路。
这位即将退休的老人手持扫帚与凶徒搏斗,被杨佳连刺十余刀,倒在血泊中。

第四阶段:终局围捕(9:52-9:55)
此时,全楼警力已集结。
特警队员从三个方向包抄,用防暴盾牌将杨佳逼入死角。
他挥舞匕首负隅顽抗,甚至试图引爆背包内的汽油瓶,被狙击手击中腿部后瘫倒。
警方在其背包内发现未使用的4个汽油瓶、一把自制手枪和写有“以死抗争”的血书。
调查与审判:真相与争议的碰撞
动机揭秘:偏执人格的极端爆发
调查显示,杨佳对2007年“自行车事件”的投诉存在严重夸大。
警方执法记录仪显示,冲突中双方仅有轻微拉扯,未使用暴力。
但杨佳固执认为“警察故意刁难”,并通过网络煽动舆论,甚至扬言“要让上海警察付出代价”。
心理鉴定证实,他患有偏执型人格障碍,具备完全刑事责任能力。
法庭审判:死刑的必然与程序之争
2008年9月1日,上海市第二中级人民法院一审以故意杀人罪判处杨佳死刑。
杨佳当庭表示“不上诉”,但其母亲聘请的律师以“杨佳有精神疾病”为由提出抗诉。
二审法院委托权威机构重新鉴定,结论仍为“具有刑事责任能力”。
2008年11月26日,最高人民法院核准死刑,杨佳于11月29日被执行注射死刑。
然而同年,还有一个重大的刑事案件让人唏嘘不已。
说起这件大案,最开始源于一个小案件,但是因为当事人的性格问题,导致了重大案件的发生。
好啦,接下来小编就来为大家解说杨佳袭警案,一个小案件引发的大事件。
杨佳袭警案的事件要说起袭警这样的大案件,其实源于一件小案件。
在2008年的一次公安部组织排查偷盗车辆活动中,杨佳骑着租来的自行车被警察拦截盘查。
这引起杨佳的不满,在现场不配合警察工作,因此被带到上海闸北分局处理。
由于案件处理中,杨佳与警察发生冲突,导致其身体受伤,这让杨佳非常愤怒,带着医院诊断来闸北分局讨说法。
杨佳不满闸北分局赔偿数额,因此向当地闸北分局督察申诉,要求其涉事警察停职。
经过多次交涉未果的杨佳在暴怒下精心准备作案工具,于2008年7月1日来到上海市公安局闸北分局进行作案,致6名警察身亡、4名警察、1名保安受伤。
后经提起公诉,将杨佳判处死刑。
杨佳袭警案的背后为何杨佳会做出如此丧心病狂的事情?这背后有着怎样的内情呢?其实杨佳之所以做出这样的事情,与家庭和个人的性格都存在着关系。
1、杨佳家庭背景自从12岁,杨佳就跟着离异的母亲生活,家庭情况比较复杂。
不好的家庭背景,也导致了杨佳性格的缺失。
2、杨佳的性格家庭的影响,杨佳自小疏于管理,导致他内心性格自私。
对于法律方面有了解的他,只是关注自己的利益,丝毫不去尽义务。
因此出现被拘留这样的事情,也会一味地偏向自己的好处。
3、杨佳的平时生活基于如此单亲家庭,加上自身性格问题,导致他内心扭曲,在生活中经常会跟周围邻里发生矛盾。
这也为其后来袭警奠定了基础。
杨佳袭警案的前因后果大家应该明白了,小案件引发大事件的确不应该。
这里面哪一方都有过错,然而杨佳的性格问题在这件事上起到了不好的作用,最终导致无辜的生命就此陨落,实属不该。
日常生活中难免会有各种误会,甚至是不如意,然而我们要学会理智的处理事情,如此才能幸福的生活,很多事情只要能够保持冷静的思维,在头脑清醒的情况下去妥善处理,都会有一个好的结果。
在任何时候都要记住:冲动是魔鬼,请不要与魔鬼结伴而行。
尤其是在 Coding Agent 爆发之后,算力问题变得前所未有地尖锐。
Claude Code、Codex、Cursor 等产品正在把 AI 从「问答工具」变成「持续运行的软件协作者」,单次会话轻松突破 50K tokens,系统负载转向了更极端、更复杂的智能体负载。
最近有关算力的大新闻层出不穷。
今天的最新消息:马斯克的 SpaceX 与 Anthropic 宣布达成了重磅协议,超过 22 万块英伟达 GPU 将为 Anthropic 所用。
而 Anthropic 对与 SpaceX 合作开发未来的太空算力体系「表示有兴趣」。
在如此庞大的算力需求下,除了开源还有节流。
也是今天的最新消息:OpenAI 发布了多路径可靠连接 (MRC),可帮助大型 AI 训练集群更快、更可靠地运行,并减少 GPU 时间的浪费。
我们知道,即便只是单 GPU 吞吐率上的微小提升,一旦应用到生产级集群中,也能够在服务持续增长需求的同时,节约相当可观的算力。
来自 LightSeek Foundation 的一个小团队,在两个月时间内打造了一个全新的,号称「光速」的大模型推理引擎 TokenSpeed。
这一引擎拥有 TensorRT LLM 级别的性能,vLLM 级别的易用性。
并且拥有 NVIDIA Blackwell 上最快的 MLA 注意力内核。
一经发布,TokenSpeed 就受到了英伟达发推文力荐。
目前,该引擎已经开源。
让我们参阅其技术博客,来深入了解「光速」引擎的技术细节。
博客标题:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads 博客链接:https://lightseek.org/blog/lightseek-tokenspeed.html Github 链接:https://github.com/lightseekorg/tokenspeed TokenSpeed 技术简介 TokenSpeed 从第一性原理出发,专门为智能体推理场景设计。
它为智能体负载提供接近「光速级」的推理能力,核心包括:基于编译器的并行建模机制、高性能调度器、安全的 KV 资源复用约束、支持异构加速器的可插拔分层 kernel 系统,以及用于低开销 CPU 侧请求入口的 SMG 集成。
建模层采用本地 SPMD(Single Program, Multiple Data,单程序多数据)设计,在性能与易用性之间取得平衡。
TokenSpeed 允许开发者在模块边界指定 I/O placement 注解。
随后,一个轻量级静态编译器会在模型构建过程中自动生成所需的 collective operation,从而无需手动实现通信逻辑。
TokenSpeed 调度器将控制平面(control plane)与执行平面(execution plane)解耦。
控制平面使用 C++ 实现,并被构建为一个有限状态机(FSM),结合类型系统,在编译期而非运行期强制执行安全资源管理,包括 KV cache 状态转移与使用。
请求生命周期、KV cache 资源以及重叠执行时序,都通过显式 FSM 状态迁移与所有权语义进行表示,因此系统正确性并非依赖约定,而是由一个可验证的控制系统来保证。
执行平面则使用 Python 实现,以保持开发效率,使研究人员与工程师能够更快进行功能迭代,并降低整体认知负载。
TokenSpeed 的 kernel 层将 kernel 从核心引擎中解耦,并将其视为一级模块化子系统。
它提供了可移植的公共 API、集中的注册与选择机制、组织良好的实现结构、面向异构加速器的可扩展插件机制、经过整理的依赖体系,以及统一的快速迭代基础设施。
与此同时,团队还针对 NVIDIA Blackwell 架构进行了大量性能优化。
例如,他们构建了当前智能体负载场景下速度最快的 MLA(Multi-head Latent Attention,多头潜在注意力)kernel 之一。
在 decode kernel 中,由于部分场景下「num_heads」较小,团队通过对「q_seqlen」与「num_heads」进行分组,以更充分利用 Tensor Core 的计算能力。
而 binary prefill kernel 则包含了经过精细调优的 softmax 实现。
目前,TokenSpeed MLA 已被 vLLM 采用。
TokenSpeed 性能预览 Coding Agents(编码智能体)带来了异常严苛的推理工作负载,上下文通常会超过 50K tokens,对话也经常跨越数十轮。
大多数公开基准测试并不能充分捕捉这种行为。
研发团队与 EvalScope 团队一起,基于 SWE-smith 轨迹对 TokenSpeed 进行评估,这些轨迹密切反映了生产环境中 Coding Agents 的流量情况。
由于生成速度对 Agent 的用户体验至关重要,因此,团队的目标是在维持单用户 TPS(每秒 token 数)下限的同时,最大化单 GPU 的 TPM(每分钟 token 数)—— 通常是 70 TPS,有时是 200 TPS 或更高。
此外,研发团队针对 TensorRT-LLM(目前 NVIDIA Blackwell 平台上的最高水平)对这一设计进行了基准测试,并在认为针对 Agentic workloads 存在更好权衡的地方,采取了与之不同的设计方案。
下图展示了在不同部署配置下(无 PD 解耦),TokenSpeed 与 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲线(Pareto curves)。
每条曲线都以 TPS/User(横轴)作为延迟指标,以 TPM/GPU(纵轴)作为吞吐指标,并通过扫描并发数绘制而成。
对于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。
在这一配置下,TokenSpeed 在整个帕累托前沿上均优于 TensorRT-LLM:在最低延迟场景下(batch size 1)大约快 9%,在 100 TPS/User 附近吞吐量大约高 11%。
团队表示,他们的核心优化之一是 TokenSpeed MLA。
下图对比了 TokenSpeed MLA 与 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。
可以看出来,优化后的二进制版本预填充内核(prefill kernel),使用 NVIDIA 内部旋钮来微调 softmax 实现,在 Coding Agents 的五种典型预填充工作负载(带长前缀 KV cache 的 prefill)中,都超过了 TensorRT-LLM 的 MLA。
解码内核则将查询序列轴折叠进头轴,以更好地填充 BMM1 的 M tile,从而提升 Tensor Core 利用率。
结合其他优化,在带有 speculative decoding 的典型解码工作负载中(batch size 为 4、8、16,且带长前缀 KV cache),这使得相对于 TensorRT-LLM 来说,延迟几乎降低了一半。
最后,研发团队也表示,该项目于 2026 年 3 月中旬启动开发,虽然目前展示了惊人的性能,但仍有大量底层代码(如 PD 分离、KV 存储等)正在合并和完善中,接下来将继续推进。
从上述性能表现来看,不难看出,TokenSpeed 的出现旨在通过更现代化的架构设计,打破传统推理框架在易用性与极致性能之间的平衡点,为大规模 Agent 部署提供了一个高性能、开源的底座。
而英伟达的力荐,也说明推理引擎正在成为 Agent 时代基础设施竞争的一个新焦点。
更多信息,请参阅原博客! 参考链接: https://x.com/lightseekorg/status/2052048105412141376 https://x.com/NVIDIAAI/status/2052061195381911806