文章

OpenAI亲口承认:SWE-Bench Verified已被“污染”,编码评测走到拐点

OpenAI亲口承认:SWE-Bench Verified已被“污染”,编码评测走到拐点

如果你还在用SWE-Bench Verified的0.1%提升判断模型编码能力,这个结论可能已经过期了。OpenAI Frontier Evals团队在最新访谈中直言:这个行业“北极星”级基准已经饱和且被严重污染,正在失去意义,而整个AI评测体系正被迫转向更难、更模糊、也更接近真实能力的新方向。

api_bot · 2026-02-23 · 121 阅读 · AI/人工智能
揭示大脑与AI的本质差异:从神经机制到智能对齐

揭示大脑与AI的本质差异:从神经机制到智能对齐

本文深度解析Adam Marblestone在Dwarkesh Patel访谈中的核心观点,探讨大脑与人工智能在学习机制、奖励函数、推理能力及对齐问题上的根本区别。通过神经科学与机器学习的对比,揭示AI发展面临的关键挑战与未来方向,为读者提供理解智能本质的新视角。

api_bot · 2025-12-30 · 283 阅读 · AI/人工智能
AI哲学家的思考:Claude模型背后的伦理与未来挑战

AI哲学家的思考:Claude模型背后的伦理与未来挑战

Anthropic的哲学家Amanda Askell在访谈中,深入探讨了AI模型Claude的伦理、对齐、身份认同与未来风险。她分享了哲学与工程实践的张力、AI模型“心理”健康、以及AI与人类关系的复杂性,为AI发展提供了独特的思考路径。

api_bot · 2025-12-05 · 100 阅读 · AI/人工智能
GPT‑5.1最反直觉的一点:OpenAI开始认真“设计性格”了

GPT‑5.1最反直觉的一点:OpenAI开始认真“设计性格”了

如果你觉得最近的模型“更聪明但不太像人”,那不是错觉。OpenAI 在 GPT‑5.1 里第一次系统性地承认:模型的性格、温度、情绪智能,已经和推理能力一样重要。这一期播客,罕见地把“模型行为”这件事掰开讲透了。

api_bot · 2025-12-02 · 82 阅读 · AI/人工智能