Stripe 数据科学家用一个诺奖理论，重新定义了“好用户”

AI PM 编辑部 · 2019年06月17日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

在这场 Women in Data Science 的分享里，Stripe 的数据科学家做了一件反直觉的事：她把华尔街的投资组合理论，直接搬进了科技公司的用户决策中。结果发现，最赚钱的用户，未必是“最安全”的那个。

在这场 Women in Data Science 的分享里，Stripe 的数据科学家做了一件反直觉的事：她把华尔街的投资组合理论，直接搬进了科技公司的用户决策中。结果发现，最赚钱的用户，未必是“最安全”的那个。

如果你在一家科技公司做数据、风控或增长，大概率听过一句“共识”：风险越低越好。Stripe 的 Adele 一上来就挑战了这个共识。

她没有从模型细节讲起，而是直接抛出了一个诺奖级别的概念——Harry Markowitz 的现代投资组合理论。核心思想只有一句话：真正优秀的投资，不是风险最低，而是在同等风险下回报最高，或同等回报下风险最低，这条边界被称为“有效前沿”。

然后，她做了一件极具冲击力的事：把“投资组合”里的资产，换成了“科技公司的用户”。坐标轴不再是“收益 vs 波动”，而是用户带来的利润（margin） vs 可能造成的损失（losses）。这一刻，整个房间的逻辑被重置了。

Adele 通过一连串提问，把听众一步步带进 Stripe 的真实决策逻辑：

她故意卖了个关子，因为真正的答案，不在传统财务指标里。

当你把用户当成“资产”，问题就变了：我们不是在最大化收入，也不是在消灭风险，而是在最大化“风险调整后的回报”。也就是 Adele 在结尾揭晓的答案：Return on Risk Ratio（风险回报比）。

这意味着，一个带来高利润、但伴随一定风险的用户，可能和一个几乎零风险、但利润被压得很低的大客户，同样“值得”。

Adele 举了一个全场记忆点最强的例子。

用户 A：大型打车平台。交易完成后再扣款，几乎没有信用损失，但议价能力极强，Stripe 给了很低的费率，利润不高。

用户 B：小型手工巧克力周订阅公司。先收费再发货，一旦工厂出事，用户集体退款，Stripe 会直接承担信用损失。但问题是——他们支付了更高的手续费。

直觉会告诉你：当然选 A。

但在“利润 vs 损失”的有效前沿图上，这两个用户，落在了几乎同一个位置。一个是“低风险低回报”，一个是“高风险高回报”，风险调整后，完全等价。

这就是投资组合理论的威力：你不再纠结单点好坏，而是看整体结构是否站在有效前沿上。

听到这里，你可能会觉得这套框架“优雅但抽象”。Stripe 的做法，恰恰相反。

他们把用户损失拆成了两个可建模的部分：

损失 = 两者相乘。

在 Exposure 建模上，Stripe 实际上线前试了 7 种模型：从线性回归、统计分布，到混合效应模型和随机森林。结论很“工程化”——随机森林在拟合真实损失曲线和商户排序精度上都最优，于是它赢了。

而在违约概率上，Stripe 反而“庆幸自己数据不多”，因为内部违约样本太少。他们引入了外部公开数据（如行业和规模维度），再结合自身用户特征进行校准。

最终，每一个用户，都能被清晰地放到那张“科技版有效前沿”上。

Adele 在接近尾声时点出了这套框架真正的价值。

当某个用户明显“掉队”，不在有效前沿上时，你只有两种杠杆：

注意，这里没有“直接砍掉”。因为在组合视角下，一个单点的好坏，永远要放在整体里判断。

这也是为什么 Stripe 能在增长、风控和利润之间，做出比“只看坏账率”更成熟的选择。

这场分享最值得 AI 从业者记住的，不是随机森林赢了几分精度，而是一个思维跃迁：当你把业务对象当成“资产”，数据科学的目标就从预测本身，升级为配置与取舍。

无论你是在做风控、增长，还是资源分配，都可以问自己一个更高级的问题：我优化的，是单点指标，还是整体的“风险回报结构”？

也许下一次，当有人问你“这个用户风险太高要不要砍掉”，你可以反问一句：他在我们的有效前沿上吗？

关键词： Stripe，数据科学，现代投资组合理论，机器学习，风险建模

事实核查备注：需要核查：Harry Markowitz 诺贝尔经济学奖背景；Stripe 使用随机森林进行损失建模的具体表述；外部数据来源如美国人口普查和 Moody’s 是否在视频中明确提及；预测精度（3%-5%）是否来自后续发言者 Dara 的分享