从前向传播到随机梯度下降:Hugo Larochelle眼中的深度学习根基
这是一场典型却不平凡的深度学习入门演讲。Hugo Larochelle没有追逐模型规模或炫技实验,而是从“神经网络究竟如何工作”讲起,系统梳理了前向传播、损失函数、随机梯度下降与正则化等核心概念,勾勒出一套至今仍然适用的深度学习思维框架。
这是一场典型却不平凡的深度学习入门演讲。Hugo Larochelle没有追逐模型规模或炫技实验,而是从“神经网络究竟如何工作”讲起,系统梳理了前向传播、损失函数、随机梯度下降与正则化等核心概念,勾勒出一套至今仍然适用的深度学习思维框架。
这是一场来自 Google Brain 的 TensorFlow 入门与实战分享。讲者不仅解释了 TensorFlow 的设计哲学,还通过线性回归和 MNIST 两个经典实验,完整演示了从建模、训练到部署思维的全过程。
这是一场关于“如何真正把深度学习用起来”的演讲。Andrew Ng没有沉浸在模型结构的炫技中,而是反复讨论数据、误差、架构选择与团队协作这些决定成败的细节,给出了大量来自真实应用的经验判断。
这是一篇基于Quoc Le在Lex Fridman节目中讲解Sequence to Sequence学习的深度文章。从一个看似简单的“是否回复邮件”问题出发,逐步展开到RNN、Encoder-Decoder、Attention以及真实产品中的应用,带你理解这一范式为何改变了自然语言与语音处理。
这是一场并不追求炫技的 Torch 教程。Alex Wiltschko 通过大量一线使用经验,解释了 Torch 为什么选择 Lua、为什么 GPU 和自动求导是核心优势,以及这些设计如何真正改变工程师构建深度学习系统的方式。
这是一篇关于反馈、分发与实验的创业反思。Dan Siroker通过多次失败、谷歌与奥巴马竞选团队的经历,逐步提炼出一套可复用的创业“算法”,并最终打造出Optimizely。
Pinterest搜索团队分享了他们将大语言模型引入搜索排序的完整实践:从相关性建模、内容标注,到用知识蒸馏解决规模与成本问题。这是一套已经在线服务数十亿搜索请求的真实系统,而不是实验室原型。
这场来自 Instacart 搜索与机器学习团队的分享,讲述了他们如何在真实、高复杂度的杂货电商场景中引入大语言模型,解决传统搜索在冷启动、长尾查询和商品发现上的结构性难题,并在工程约束下找到可落地的平衡点。
这是一场来自 Replicate 的自我反省式演讲。Zeke Sikelianos 以 Andrej Karpathy 的一次“随手黑客松”项目为线索,讲述了一个残酷但正在发生的转变:AI 产品的第一用户,已经不再是人,而是大语言模型本身。
这是一次罕见的内部视角分享:Google Photos 工程师 Kelvin Ma 讲述了 Magic Editor 等功能背后的技术演进与真实取舍。从传统计算摄影到生成式 AI,从云端到端侧,这个拥有 15 亿月活用户的产品,如何在“好看、可控、可规模化”之间做选择。