用最简单的数据,做最难的事:手机如何监测人的情绪

AI PM 编辑部 · 2020年01月03日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一场关于“用数据理解人”的冷静反思。研究者Mariana分享了她在心理健康领域的机器学习实践:从危机热线训练模拟器,到用手机监测情绪的失败与收获。她最大的洞见是:在心理健康研究中,复杂模型之前,先确认是否真的比“简单方法”更有用。

用最简单的数据,做最难的事:手机如何监测人的情绪

这是一场关于“用数据理解人”的冷静反思。研究者Mariana分享了她在心理健康领域的机器学习实践:从危机热线训练模拟器,到用手机监测情绪的失败与收获。她最大的洞见是:在心理健康研究中,复杂模型之前,先确认是否真的比“简单方法”更有用。

为什么心理健康需要数据工具,但又最怕被数据误导

演讲一开始,Mariana就直奔主题。她并没有先展示多炫目的模型,而是抛出一个看似保守、却极其重要的观点:数据驱动的心理健康工具“很酷、很有潜力”,但前提是——我们必须反复确认,它们真的比最简单的方法更好。

她的背景动机很直接。她想做“真正困难的问题”,而心理健康显然符合这个标准:在美国,接近五分之一的成年人受到某种心理疾病影响;对个体而言,这往往是一段“非常不愉快、甚至难以承受的体验”。如果技术能帮助人们更早识别状态、管理情绪,哪怕只是多一点点,价值都非常大。

但问题也恰恰在这里。心理健康不像图像识别或推荐系统,没有清晰的“对错答案”。Mariana提醒大家,研究中一个常被忽视的风险是:模型看起来很准,但可能只是“看起来”。她在台上反复强调一句话的意思是——“如果复杂方法都打不过简单方法,那我们至少要意识到这一点”。

危机热线的真实压力:训练辅导员,比造模型更紧迫

在谈到当前工作时,Mariana分享了一个非常具体、也非常现实的场景:心理危机热线。

她描述了一个典型的开场白——“我不知道我还能不能继续下去了”。在美国,像Lifeline这样的全国性危机热线,每个月接到超过10万通电话,2018年全年达到250万通。这意味着大量处在极端情绪中的来电者,以及同样承受巨大压力的接线辅导员。

这些辅导员并不是随意聊天。他们需要掌握“对话推进策略”,也要在每一条回复中使用“微干预技巧”,在不升级风险的前提下,引导对方度过最危险的时刻。当前主流的训练方式,是人对人的角色扮演:新手辅导员与资深辅导员模拟对话。

Mariana正在尝试做的一件事,是构建一个“危机对话模拟器”——一个可以与新手辅导员对话的危机机器人,用来训练他们在关键节点的反应能力。这个方向本身就体现了她的研究风格:不是炫技,而是紧贴真实工作流程中的痛点。

手机能不能读懂情绪?一个看似简单却极难的问题

接下来,Mariana回到她更早期的一项研究:用智能手机监测人的情绪状态。

逻辑听起来非常诱人。手机是“始终随身、极度个人化”的设备,能感知我们的活动、睡眠、社交节奏。如果它能被动地推断情绪,就可以用来评估治疗效果、观察长期变化,甚至在需要时主动触发干预。

但她刻意选择了一条“保守”的技术路径。相比通话记录、GPS轨迹这些高度敏感的数据,她只使用了加速度计推断的身体活动和睡眠数据。原因很简单:这是最不具识别性、也最容易被接受的数据类型。

研究团队招募了加州大学伯克利分校的本科生,连续八周采集手机数据,并要求他们每天多次手动报告自己的情绪状态。Mariana笑着说,到最后,参与者“已经非常厌烦每天告诉我们自己过得怎么样”,但数据确实收集齐了。

个人基线 vs 人群平均:一个被77%研究忽略的对照

真正的转折,发生在她“看数据”的那一刻。

她展示了两位参与者的情绪时间序列:一个人的情绪波动剧烈,另一个几乎每天都差不多。对于后者来说,只要永远预测“明天和今天一样”,就能获得非常高的准确率;而对于前者,这种预测几乎毫无价值。

这引出了她的核心洞见:人群平均(population baseline)并不能代表任何一个具体个体。相比之下,每个人自己的“个人基线”——也就是对自己历史状态的常数预测——往往要准得多。

问题在于,文献并没有认真对待这个基线。她们回顾了相关研究,发现77%的论文根本没有把模型与“个人基线”进行对比。这就留下了一个危险的灰色地带:模型看似有提升,但可能连“什么都不做的常数预测”都没打赢。

为此,她提出了一个评估框架,称为“用户提升(user lift)”:对每个个体,计算模型相对于个人基线到底好多少,再用统计检验判断这种提升是否显著。

结果并不惊艳,但足够诚实

在这个新框架下,她们重新评估了情绪预测任务。

结论是克制而诚实的。睡眠和白天活动量与情绪、精力水平确实存在正相关;例如,周末精力更高,活动越多越有精神。这些结果与既有心理学研究一致,说明手机传感器并非毫无价值。

但在预测层面,模型虽然“显著优于常数预测”,平均用户提升只有5到6个百分点。Mariana没有试图美化这个数字,而是直接把问题抛给听众:“这有用吗?”

她明确指出研究的局限:样本是未被临床诊断的学生群体,规模也不大。她并没有宣称这是一个可以直接部署的系统,而是强调了一点——一旦我们认真对待个人基线,就会发现,情绪预测这件事本身,比想象中要难得多。

总结

这场演讲最有价值的地方,不在于某个模型或结果,而在于研究态度。Mariana反复提醒同行:在心理健康这种高风险领域,评估方法本身就是伦理问题。先确认是否真的超过“最简单的基线”,再谈复杂算法,或许并不性感,但足够负责任。对任何想把AI用于“理解人”的研究者来说,这是一次非常清醒的提醒。


关键词: 心理健康, 机器学习, 情绪监测, 个人基线, 智能手机数据

事实核查备注: 视频演讲者自称Mariana;提到的危机热线为Lifeline,2018年约250万通电话;研究对象为UC Berkeley本科生,数据采集周期8周;提出概念为personal baseline与user lift;77%的文献未与个人基线对比;平均用户提升约5-6个百分点。