当前位置:页面

Behavior Modeling

面向LLM智能体在城市居民地点访问行为建模领域的核心挑战——如何在海量历史交互中准确捕捉个体偏好并生成符合真实语境的评论——BehaviorModeling提供了一个系统化的评测平台。该Benchmark要求参与者构建基于大模型智能体的地点访问行为预测方法,预测城市居民面对一组候选目标地点的用户兴趣与选择行为,并生成对特定目标的评论内容, 旨在评估模型对居民偏好与表达行为的模拟能力。

评估任务

地点选择任务

基于用户历史行为和偏好,预测居民对候选地点的兴趣与选择行为

输入:
  • 居民ID
  • 候选地点列表
输出:

按推荐优先级排序的地点列表

评论生成任务

基于用户对特定地点的访问行为,生成符合真实语境的评论内容

输入:
  • 居民ID
  • 地点ID
  • 地点信息
输出:
  • 星级评分(1-5星)
  • 评论文本

评估流程

测试模式

数据准备:加载包含居民行为历史和真实标签的测试数据集
任务执行:智能体处理推荐和评论生成任务
结果评估:计算各种评估指标
分数计算:结合推荐准确性和评论质量获得最终分数

推理模式

推理执行:智能体基于给定上下文进行推理
结果验证:与真实标签进行比较
指标收集:收集评估结果到.pkl文件

评估指标

针对LLM智能体在城市居民地点访问行为建模中需同时兼顾推荐准确性与文本生成质量的“双重目标”,BehaviorModeling通过将Hit Rate@N系列指标与生成文本质量评分融合为一体来反映模型对居民偏好捕捉与评论撰写的综合表现:在推荐方面,HR@1/3/5衡量Top-N列表中包含真实目标地点的能力;在生成方面,星级误差与情感/主题相似度共同评价文本质量;二者通过加权得到Final Score,从而实现对“行为预测”与“语言仿真”两大维度的统一评价。

推荐指标 - Hit Rate@N

计算真实地点出现在前N个推荐中的样本比例

HR@N = (真实地点在前N个推荐中的样本数) / (总样本数)

Top-1 Hit RateHR@1
Top-3 Hit RateHR@3
Top-5 Hit RateHR@5
平均Hit Rate(HR@1 + HR@3 + HR@5) / 3

模拟指标

偏好估计准确性

基于星级评分准确性:1 - (平均星级评分误差 / 5)

星级评分误差 = |预测评分 - 真实评分| / 5

评论生成质量

综合考虑情感、情绪和主题相似性:1 - (情感误差 × 0.25 + 情绪误差 × 0.25 + 主题误差 × 0.5)

• 情感误差:使用VADER情感分析器计算生成评论与真实评论的情感极性差异

• 情绪误差:使用RoBERTa情绪分类器计算情绪分布差异

• 主题误差:使用SentenceTransformer计算语义相似性

整体质量

整体质量 = (偏好估计 + 评论生成) / 2

最终分数

最终分数 = ((平均Hit Rate + 整体质量) / 2) × 100

平均Hit Rate权重50%
整体质量权重50%

数据集信息

数据集仓库tsinghua-fib-lab/behavior-modeling-benchmark
支持模式test, inference
依赖包numpy, scipy, nltk, transformers, sentence-transformers, torch