浙江大学与南栖仙策推出SMAC-HARD，助力MARL算法评估

科研动态8个月前更新 0f6ec722422f273c

1,728 0 0

2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议 (CVIPPR 2026)

文章导读

你是否在评估多智能体强化学习（MARL）算法时，苦于鲁棒性不足和泛化能力弱？浙江大学与南栖仙策联手推出SMAC-HARD，基于SMAC环境升级，支持可编辑和随机化对手策略，并引入MARL自博弈接口，让智能体适应多样化对抗行为，大幅提升训练稳定性和评估全面性。用户可灵活设置参数，选择自博弈或决策树模式，并通过黑盒测试精准评估策略覆盖性和迁移能力。同时，修正了原环境奖励结算错误，避免智能体陷入高奖励低胜率的次优解。研究发现，现有MARL算法在此环境中胜率骤降，面临更大挑战——立即探索如何突破泛化瓶颈，让你的算法在严苛测试中脱颖而出！

— 内容由好学术AI分析文章内容生成，仅供参考。

浙江大学与南栖仙策推出SMAC-HARD，助力MARL算法评估

近期，浙江大学与南栖仙策联合推出了基于SMAC模拟环境的SMAC-HARD，旨在提升多智能体强化学习（MARL）算法的训练鲁棒性和评估全面性。SMAC-HARD支持可编辑和随机化的对手策略，以及MARL自博弈接口，使智能体能够适应多样化的对手行为，从而提高模型的稳定性。用户可以通过设置参数，选择自博弈模式或决策树模式，灵活调整对手的策略生成方式。同时，SMAC-HARD还提供了黑盒测试模式，智能体在训练过程中仅与默认对手策略或自博弈模型进行交互，但在测试时与环境提供的脚本进行对抗，用于评估算法的策略覆盖性和迁移能力。此外，SMAC-HARD修正了原SMAC环境中奖励结算的错误，避免智能体陷入最大化奖励但胜率较低的次优解。研究结果表明，现有的MARL算法在这一环境中面临更大挑战，难以保持高胜率，强调了在多样化对手策略下提升算法泛化能力的重要性。