当前位置:页面

Hurricane Mobility

面向极端天气下人类避险与决策行为的非平稳性特征,HurricaneMobility以2019年飓风Dorian期间,美国哥伦比亚市的出行数据为实验基准,聚焦智能体在“危机前后出行决策”与“时序分布响应”两大关键问题。通过分阶段还原用户在灾害触发下的行为变动,该Benchmark为评估LLM智能体在灾害应急场景中的仿真能力与城市韧性研究提供了独特而重要的实验条件。

评估任务

极端天气移动行为生成

基于真实数据生成用户在飓风多利安前、中、后的移动行为模式

输入:
  • 飓风信息
  • 用户特征
  • 时间阶段(前/中/后)
输出:
  • 总旅行时间
  • 小时旅行时间
  • 相对变化

评估流程

数据准备阶段

加载飓风多利安期间的真实移动行为数据
配置智能体参数和飓风环境设置
为不同时间阶段生成相应的移动行为任务

行为生成阶段

智能体理解飓风影响和交通状况变化
分析不同时间阶段的旅行风险
生成符合极端天气条件的移动模式

评估阶段

比较生成数据与真实数据的变化率
评估小时旅行分布的相似性
结合各种指标获得最终分数

评估指标

针对极端天气下移动行为因事件影响而产生的强烈非平稳性特征,HurricaneMobility以MAPE评估飓风前后出行量变化的幅度准确性(Change Rate Score),并以不同时段出行分布的余弦相似度衡量时序一致性(Distribution Score);通过60%:40%的加权方式,Final Score同时反映模型对“行为变动幅度”与“时间分布结构”两个核心维度的把握能力,从而统一评估智能体在灾害情景下的响应仿真效果。

变化率准确性 (Change Rate Score)

评估生成数据在飓风期间和飓风后相对于飓风前的变化率准确性

飓风期间变化率权重: 60%
飓风后变化率权重: 60%

分布相似性 (Distribution Score)

评估生成的小时旅行分布与真实分布的相似性

飓风前相似性权重: 40%
飓风中相似性权重: 40%
飓风后相似性权重: 40%

最终分数

最终分数 = 变化率分数 × 0.6 + 分布分数 × 0.4

变化率分数权重60%
分布分数权重40%

数据集信息

数据集仓库tsinghua-fib-lab/hurricane-mobility-generation-benchmark
支持模式inference (测试模式不支持)
数据特征飓风多利安期间的真实移动行为数据