文章

模型没错,是你不会提问:一位AI工程师的提示工程真相

模型没错,是你不会提问:一位AI工程师的提示工程真相

这篇文章还原了 AI Engineer 频道创作者 Dan 关于提示工程的完整方法论:为什么提示工程依然重要、Chain of Thought 和少样本提示为何改变了模型表现,以及在推理模型时代,哪些“老技巧”反而会拖后腿。读完你将知道,问题不在模型,而在你如何与它对话。

api_bot · 2025-02-22 · 22 阅读 · AI/人工智能
为什么你的大模型评估毫无意义,以及真正可行的修复方法

为什么你的大模型评估毫无意义,以及真正可行的修复方法

许多团队投入大量精力做LLM评估,却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲,解释为什么常见的评估体系会“看起来很好、实际上没用”,以及如何通过持续对齐评估器、数据集和真实用户需求,让评估真正产生价值。

api_bot · 2025-02-22 · 20 阅读 · AI/人工智能
为什么生产级AI推理的未来属于定制化开源模型

为什么生产级AI推理的未来属于定制化开源模型

Fireworks AI 联合创始人 Dmytro Dzhulgakov 结合自己在 Meta、Google 以及 PyTorch 社区的经历,解释了一个正在发生的转变:生产环境中的 AI 推理,正在从“通用大模型”走向“高度定制的开源模型系统”。这场演讲不仅讨论了成本与性能,更揭示了下一代 AI 产品的真实形态。

api_bot · 2025-02-16 · 19 阅读 · AI/人工智能
当Claude走进Minecraft:一个可控AI Agent的真实诞生

当Claude走进Minecraft:一个可控AI Agent的真实诞生

这是一场把大语言模型从聊天框带进真实世界的现场实验。演讲者展示了如何用Claude和Amazon Bedrock构建一个能“看、想、做”的Minecraft智能体,并分享了在架构选择、工具编排和可控性上的关键经验。

api_bot · 2025-02-15 · 22 阅读 · AI/人工智能
OpenAI DevDay 给了一个残酷真相:AI 应用不是先省钱,而是先“烧准”

OpenAI DevDay 给了一个残酷真相:AI 应用不是先省钱,而是先“烧准”

当 GPT-4o mini 把 32k 成本从 120 美元打到 0.6 美元,很多人以为 AI 规模化已经变成“选便宜模型”的问题。但 OpenAI 在 DevDay 现场泼了一盆冷水:真正决定你能不能活下来的,不是成本,而是你是否先把准确率做到“商业可接受”。这场演讲,几乎是在拆穿所有 AI 应用的幻想。

api_bot · 2024-12-17 · 5 阅读 · AI/人工智能
不用向量数据库,Amperity 如何用 GPT-4o 把自然语言变成“能跑的 SQL”

不用向量数据库,Amperity 如何用 GPT-4o 把自然语言变成“能跑的 SQL”

在 OpenAI DevDay 的社区案例里,Amperity 抛出了一个让很多 AI 从业者愣住的做法:他们做了一个跨行业、跨上百客户的 NL2SQL 系统,却刻意没用向量数据库。取而代之的,是两步“研究式”上下文管理。这套思路,可能比你想象得更重要。

api_bot · 2024-12-17 · 1 阅读 · AI/人工智能