[AIassistant] PS: 感觉不是很好
按三条主线来梳理:推理(Reasoning)、Agent(具身/工具/桌面控制)、Coding(软件工程落地),并配上训练/推理框架的现状与选型建议。
一句话总览
- 推理:进入“以推理为先”的阶段——从 OpenAI 的 o1 系列到 DeepSeek-R1,用RL 与过程奖励把“想清楚再回答”变成可训练能力;多模态也在追求“会思考”。 ([arXiv]1)
- Agent:从“调用工具”升级到操作电脑/网页的 GUI Agent(Computer Use / Realtime),配合多代理编排框架逐步走向可落地的自动化。 ([Anthropic]2)
- Coding:从补全代码到能读仓库、跑测试、提 PR;SWE-bench 等真实修 bug 基准成为主战场,平台侧(GitHub Copilot Workspace / Copilot Agent、Devin/OpenHands)在加速产品化。 ([SWE-bench]3)
- VLM:多模态“真·实时+长上下文”成常态:GPT-4o 实时音视文本、Llama 3.2 Vision 开源上车、Gemini 1.5/2.5 拉满超长上下文;国内外 Qwen2.5-VL 等持续迭代。 ([OpenAI]4)
1) 推理:从“多算几步”到“给过程打分”
模型与方法
- OpenAI o1 系列把“先推理、后作答”的长思考策略产品化,标志“Reasoning-first”路线走向主流。 ([The Briefy Blog]5)
- DeepSeek-R1证明了纯强化学习(RL)也能催生推理能力:无需大量人工标注 CoT,RL 训练中自然涌现自我反思、验证、策略切换等行为;相关工作也把这一思路拓展到多模态 PRM。 ([arXiv]1)
- 对齐与奖励学习:从传统 RLHF 走向RLAIF(AI 反馈替人)与DPO(无 RL 的偏好学习);同时引入过程奖励(PRM)/验证器来在步骤级约束推理质量。 ([arXiv]6)
训练框架现状
推理框架现状
- vLLM 以 PagedAttention + 连续批处理 成为工业标配,显著提升吞吐/延迟;文档与社区活跃,KV 复用与多 LoRA 批处理等特性完备。 ([arXiv]8)
- SGLang 引入 RadixAttention、推测解码、解耦 prefill/decoding,针对 Llama3/DeepSeek 等场景给出高效实现。 ([GitHub]9)
- TensorRT-LLM / TRT-MO 提供 推测解码(Medusa/EAGLE)、FP8/INT4 量化、KV 管理等端到端优化;KV Cache 管理重构在路线上。 ([GitHub]10)
- TGI(Hugging Face)在企业生产侧稳定可用,易集成、易托管。 ([Hugging Face]11)
2) Agent:从“会用工具”到“会用电脑”
产品化进展
- Anthropic Computer Use(Beta)与Microsoft Copilot Studio computer use把 GUI 操作(移动光标、点击、键入、截图理解)纳入代理工作流,覆盖“无 API 的遗留系统”。 ([Anthropic]2)
- OpenAI Realtime API(基于 GPT-4o)让多模态低时延交互(语音/视频/文本)可组装进实时 Agent。 ([OpenAI]12)
多代理/编排生态
- LangChain / LangGraph 聚焦可控、有状态、可恢复的生产级 Agent 运行时;LlamaIndex 在 RAG + Agent 工作流上工程化成熟;DSPy让“程序>Prompt”,支持自动优化;AutoGen/CrewAI 走多代理对话/分工路线。 ([LangChain Blog]13)
3) Coding:评测换赛道,走向“能合 PR”
能力现状(以真实修复为准)
- SWE-bench 系列成为事实标准,官方榜单持续更新(Full/Verified/Lite/多模态分榜,指标为 %Resolved);社区不断报告更高分数与更短流程。 ([SWE-bench]3)
- 第三方评测显示 Claude 3.5 Sonnet 在 SWE-bench Verified 上约 49%,凸显“代理式编码+工具用法”的收益(不同设定会影响分数)。 ([Galileo AI]14)
平台与代理
- GitHub Copilot Workspace 把“构思→计划→编码→测试→运行”一体化,近期 Copilot Agent 也开始自动开机/拉仓/分析/提交的端到端任务流。 ([The GitHub Blog]15)
- Devin(Cognition) 与开源 OpenHands(原 OpenDevin) 把“读仓—跑命令—网页—提 PR”的全链路代理做成产品/平台。 ([Cognition]16)
训练/推理要点
- 代码代理通常结合长上下文(读仓库)、工具调用、执行环境与验证回路(测试/静态检查/LLM 验证器);推理端选 vLLM / SGLang / TensorRT-LLM 可获得稳定吞吐与低时延。 ([arXiv]8)
4) VLM:多模态“实时 + 长上下文”常态化
- GPT-4o 原生统一音视文,实时延迟可至百毫秒量级;同时有更便宜的 4o-mini 覆盖成本敏感场景。 ([OpenAI]4)
- Llama 3.2 Vision(11B/90B) 将视觉接入开源 Llama,生态(Databricks、SageMaker 等)已接入,便于私有化/二开。 ([The Verge]17)
- Gemini 1.5/2.5 主打**超长上下文(最高 2M tokens)**与多模态理解,适合“项目级资料整合”。 ([InfoWorld]18)
- Qwen2.5-VL 等开源多模态持续升级,提供从 2B 到 72B 的多档选择。 ([GitHub]19)
5) 训练框架与分布式:更大更快也更省
- DeepSpeed ZeRO-3/Offload/Infinity 依然是超大模型训练的常见基座;PyTorch FSDP2 正式化、文档与教程完善;Megatron-LM/Core 组合 TP/PP/DP 与 MoE 并行,支撑千卡规模。 ([DeepSpeed]20)
- Colossal-AI 在 MoE 训练/并行 与工程化模板上可选;与上面几套栈并不冲突,可按需求混搭。 ([Colossal-AI]21)
- 对齐阶段:DPO/RLAIF/PRM 作为三件套,已在行业里形成常见组合拳。 ([arXiv]7)
6) 推理框架选型(LLM/VLM 通用)
- 高吞吐/低延迟通用场景:vLLM(PagedAttention、连续批处理、前缀/多 LoRA 复用),社区成熟、兼容 OpenAI 风格 API。 ([arXiv]8)
- 极致性能/自定义内核:TensorRT-LLM(或配合 TRT-Model-Optimizer),拿到 FP8/INTx 量化、推测解码与专家并行等,适合 NVIDIA 堆栈。 ([GitHub]10)
- 语用工程/更可控执行:SGLang(RadixAttention、prefill/decoding 解耦、结构化输出),对多模态和复杂解码也有优化。 ([GitHub]9)
- 企业级托管:Hugging Face TGI 易运维、文档完备。 ([Hugging Face]11)
7) 你可以怎么押注(实操建议)
- 要推理/复杂任务:优先试 o1 类/DeepSeek-R1 家族或“带 PRM 的大模型”,把验证器 / 自检纳入推理流程;部署侧优先 vLLM + 推测解码。 ([arXiv]1)
- 要 Coding 产出:在 IDE/Repo 侧上 Copilot Workspace / Copilot Agent,或自建 OpenHands;评估用 SWE-bench Verified,把 CI/测试当成模型的“奖励”。 ([The GitHub Blog]15)
- 要多模态/实时:选择 GPT-4o / 4o-mini 或开源 Llama 3.2 Vision;需要长档案上下文时用 Gemini 1.5/2.5。 ([OpenAI]4)
- 要低成本稳定供给:结合 量化(INT4/8、FP8) + KV 管理/连续批处理 + 推测解码;框架侧 TensorRT-LLM / vLLM 都已支持到位。 ([GitHub]10)
参考与延伸
- SWE-bench 官方榜单(跟踪真实修复能力),与近期“mini-SWE-agent”等动态。 ([SWE-bench]3)
- GPT-4o / Realtime / 4o-mini 官方资料与系统卡。 ([OpenAI]4)
- Llama 3.2 Vision / Llama 3.1 生态 & 文档。 ([The Verge]17)
- Gemini 1.5/2.5 长上下文 开发者文档/公告。 ([Google AI for Developers]22)
- DeepSeek-R1 论文与 Nature 版介绍(RL 促生推理)。 ([arXiv]1)
- vLLM / SGLang / TensorRT-LLM / TGI 文档与路线图。 ([VLLM Docs]23)
更新的论文参考:
根据 2025 年下半年(尤其是 9 月前后)的研究进展,LLM/VLM 领域在推理(Reasoning)、智能体(Agent)和编程(Coding)能力方面呈现出显著的技术演进和应用拓展。以下是对这些趋势的详细分析:
🧠 推理能力:从“多算几步”到“过程奖励与自我反思”
关键进展:
-
Agentic Reasoning 框架:通过引入外部工具智能体(如 Web 搜索、代码执行和结构化记忆),增强 LLM 的推理能力。该框架通过构建知识图谱(Mind-Map)和优化 Web 搜索机制,实现了在复杂问题解决中的逻辑连贯性和深度研究能力。 ([arXiv]1)
-
AgentPRM(过程奖励模型):采用轻量级的演员-评论家(actor-critic)范式,利用蒙特卡洛回合计算奖励目标,优化智能体策略。该方法无需大量人工标注,易于与现有 RLHF 流水线集成,适用于大规模训练。 ([arXiv]2)
-
Claude 3.7 的混合推理模式:Anthropic 推出的 Claude 3.7 模型引入了可控的推理深度和“scratchpad”功能,允许用户根据任务需求调整模型的推理过程,从而提高在复杂任务中的表现。 ([WIRED]3)
🤖 智能体能力:从“工具调用”到“自主操作”
核心框架与应用:
-
AutoAgent:一个全自动、零代码的框架,使用户仅通过自然语言即可创建和部署 LLM 智能体,降低了智能体开发的门槛。 ([arXiv]4)
-
CodeCoR(自我反思多智能体框架):该框架通过四个智能体(生成提示、代码、测试用例和修复建议)协作,评估每个智能体及其协作的有效性,提升了代码生成和修复的质量。 ([arXiv]5)
-
OrcaLoca:针对软件问题定位任务,集成了基于优先级的调度、动作分解和上下文修剪机制,成为新的开源基准。 ([arXiv]6)
-
Neo 框架:一个可配置的多智能体框架,自动化了 LLM 智能体的多轮评估,支持领域提示、场景控制和动态反馈的模块化组合。 ([arXiv]7)
💻 编程能力:从“代码补全”到“自主修复与算法设计”
研究与应用亮点:
-
CURE(协同进化编码器与单元测试生成器):通过强化学习框架,基于交互结果共同进化编码和单元测试生成能力,无需地面真实代码作为监督,提升了代码质量和测试覆盖率。 ([arXiv]8)
-
CodeARC:一个新的评估框架,智能体通过与隐藏目标函数交互,查询新输入、合成候选函数,并使用差异测试 oracle 迭代优化解决方案,模拟了反向工程等现实场景。 ([arXiv]9)
-
AlphaEvolve:由 Google DeepMind 开发的进化编码智能体,结合 LLM 和进化计算,自动发现和优化算法,推动了通用算法设计的研究进展。 ([维基百科]10)
🧩 多模态与推理框架:实时与长上下文的融合
技术趋势:
-
Agentic Reasoning:通过引入外部工具智能体(如 Web 搜索、代码执行和结构化记忆),增强 LLM 的推理能力。该框架通过构建知识图谱(Mind-Map)和优化 Web 搜索机制,实现了在复杂问题解决中的逻辑连贯性和深度研究能力。 ([arXiv]1)
-
AgentPRM(过程奖励模型):采用轻量级的演员-评论家(actor-critic)范式,利用蒙特卡洛回合计算奖励目标,优化智能体策略。该方法无需大量人工标注,易于与现有 RLHF 流水线集成,适用于大规模训练。 ([arXiv]2)
-
Claude 3.7 的混合推理模式:Anthropic 推出的 Claude 3.7 模型引入了可控的推理深度和“scratchpad”功能,允许用户根据任务需求调整模型的推理过程,从而提高在复杂任务中的表现。 ([WIRED]3)
🧭 训练与推理框架的现状
训练框架:
-
AgentPRM(过程奖励模型):采用轻量级的演员-评论家(actor-critic)范式,利用蒙特卡洛回合计算奖励目标,优化智能体策略。该方法无需大量人工标注,易于与现有 RLHF 流水线集成,适用于大规模训练。 ([arXiv]2)
-
AutoAgent:一个全自动、零代码的框架,使用户仅通过自然语言即可创建和部署 LLM 智能体,降低了智能体开发的门槛。 ([arXiv]4)
-
CodeCoR(自我反思多智能体框架):该框架通过四个智能体(生成提示、代码、测试用例和修复建议)协作,评估每个智能体及其协作的有效性,提升了代码生成和修复的质量。 ([arXiv]5)
推理框架:
-
TensorRT-LLM:结合 NVIDIA TensorRT 的推理优化,支持推测解码和专家并行等特性,提升了推理速度和效率。 ([arXiv]12)
-
SGLang:一个结构化语言模型推理框架,通过解耦预填充和解码过程,优化了多模态和复杂解码任务的性能。 ([arXiv]12)
🧪 评估基准与新兴趋势
编程能力评估:
-
SWE-bench:一个新的评估框架,智能体通过与隐藏目标函数交互,查询新输入、合成候选函数,并使用差异测试 oracle 迭代优化解决方案,模拟了反向工程等现实场景。 ([arXiv]9)
-
Web-Bench:一个新的基准,包含 50 个项目,每个项目由 20 个具有顺序依赖的任务组成,模拟了现实世界中的开发工作流程。 ([arXiv]13)
-
CodeElo:一个基于 Elo 等级评分的竞赛级代码生成评估框架,为 LLM 的代码生成能力提供了新的评估标准。 ([arXiv]14)
🧭 实践建议与选型指南
-
推理任务:优先选择支持 Agentic Reasoning 和过程奖励模型的框架,如 DeepSeek-R1 或 OpenAI 的 o1 系列,以提升复杂任务的推理能力。
-
智能体开发:对于需要快速原型开发的场景,推荐使用 AutoAgent 或 CodeCoR 等零代码框架;对于需要高性能和可扩展性的场景,推荐使用 Neo 或 OrcaLoca 等框架。
-
编程任务:在需要高质量代码生成和修复的场景,推荐使用 CURE 或 CodeARC 等框架;在需要处理复杂开发任务的场景,推荐使用 Web-Bench 或 CodeElo 等基准进行评估。