资讯
问答
人物
发布
发文章
发动态
提问题
注册
|
登录
←
返回
已收录
完整度 0%
唐
唐杰
Q43147100
清华大学、智谱AI
✨ AI贡献:
他领导研发了超大规模预训练模型GLM-130B并创立智谱AI,推动了中国大模型的开源与产业化发展。来源:清华大学官网、智谱AI公开资料
AI 从业者
⏳
职业经历
(3)
💡
学习卡片
(20)
S
员工
Southern Medical University
2012 - 至今
I
哲学博士
Institute of Biophysics, Chinese Academy of Sciences
2003 - 2006
C
bachelor's degree
Central China Normal University
📰 新闻
清华大学计算机系教授,GLM团队负责人,ACM/AAAI/IEEE Fellow
唐杰是清华大学计算机系教授、博士生导师,清华大学知识工程实验室(KEG)负责人。他是ACM、AAAI、IEEE三大国际顶级计算机学会的会士(Fellow),也是国家自然科学基金杰出青年科学基金获得者。他领导开发了GLM、ChatGLM、CogView、CodeGeeX等一系列知名开源大模型。
清华大学
学术头衔
GLM团队
AI科学家
唐杰的学术身份与成就
唐杰,清华大学计算机科学与技术系长聘教授、计算机系副主任、清华-工程院知识智能联合实验室主任,国家杰出青年科学基金获得者。他曾担任ACM TKDD执行主编、KDD 2018大会副主席等学术职务。其研究领域包括人工智能、社交网络、数据挖掘和知识图谱。他领导研发了学术情报挖掘平台AMiner,收录数亿文献和学者。曾获北京市科学技术奖一等奖、CCF青年科学家奖等荣誉。
清华大学
教授
人工智能
学术成就
AMiner
学术影响力:高被引学者,h-index达102
根据Google Scholar数据,唐杰的论文总被引次数超过4万次,h-index高达102,i10-index为343。这表明其研究成果在学术界具有非常广泛和深远的影响力,是人工智能领域最具影响力的中国学者之一。
学术影响力
引用
h-index
科研成果
🏆 成就
领域大模型是伪命题,通用基座模型是未来
唐杰认为,领域大模型是一个伪命题。他主张,通过持续扩展(scaling)通用基座模型(更多数据、更大参数、更饱和计算)是最高效的路径。AI的最终价值在于替代人类工作、创造增量价值,而通用模型通过Agent等形式进入环境后,能更好地形成生产力。这一观点挑战了为特定领域定制大模型的流行做法。
人工智能
大模型
AGI
技术趋势
大模型发展七层逻辑:从学习走向实践
唐杰总结了大模型发展的七层核心逻辑:1.预训练与中后训练并重;2.Agent能力跨越;3.记忆系统构建;4.在线学习新范式;5.“替代工种”的应用本质;6.领域大模型的局限性;7.多模态与具身智能的挑战。这勾勒了AI从知识学习走向实践应用的路线图。
大模型发展
七层逻辑
AI路线图
预训练
AI发展的核心是替代工种、创造增量价值
唐杰指出,人工智能的终极目标并非仅仅是学习知识,而是要落到“替人完成工作、创造增量价值”上。Agent(智能体)的出现标志着模型开始进入环境、形成生产力,是从“理论学习”阶段迈向“实践应用”的关键跨越。
AI应用
Agent
生产力
价值创造
大模型发展的七层逻辑与未来路线图
唐杰提出大模型发展的七层核心逻辑:1) 预训练与中后训练并重;2) Agent能力是模型进入真实世界的关键跨越;3) 构建类人记忆系统;4) 实现在线学习新范式;5) 应用本质是“替代工种”;6) 领域大模型存在局限性;7) 多模态与具身智能是未来挑战。这构成了2025-2026年AI从学习走向实践的重点路线图。
大模型
发展逻辑
Agent
路线图
唐杰提出AI发展的八个关键感悟
唐杰在2025年底分享了关于AI发展的八个核心感悟:1. 基座模型扩展仍高效;2. 需对齐长尾能力与增强推理;3. Agent是模型进入环境形成生产力的关键;4. 持续交互下记忆与在线学习是核心;5. AI要创造价值;6. 领域大模型是伪命题;7. 更多数据与计算仍是基础;8. 记忆机制是实现应用的关键。这系统概括了当时AI技术演进与落地的核心挑战。
人工智能
技术趋势
Agent
模型记忆
模型记忆是在线应用的核心工程挑战
唐杰指出,一旦模型进入持续交互的世界,记忆机制、在线学习和自我评估就会成为核心工程题,而不是可选项。他类比人类记忆分为短期、中期、长期和外部历史四个阶段,认为大模型如何实现不同阶段的记忆是应用到真实环境的关键能力。这指明了下一代AI系统必须解决的核心技术难题。
模型记忆
在线学习
AI工程
人机交互
📝 简介
领导研发GLM系列大模型对标GPT
为解密大模型并推动国产自研,唐杰及其团队推出了GLM系列大模型(如GLM-130B、ChatGLM)。该系列遵循“千亿基座模型、有监督指令微调、人类反馈强化学习”的三阶段发展路径,旨在建立以中文为核心的自研大模型体系,是国产大模型发展中的重要代表工作。
GLM模型
国产大模型
清华大学
科研团队
提出2020年为“大模型元年”,对标GPT推出GLM系列
唐杰将2020年GPT-3的推出定义为“大模型元年”。为此,他带领清华大学团队推出了对标GPT的GLM系列模型,包括千亿参数的GLM-130B和后续的ChatGLM。这一行动体现了其“实现国产全自研、自主可控的人工智能基础模型迫在眉睫”的理念,是中国大模型研发的重要代表。
GLM
ChatGLM
国产大模型
研发故事
唐杰团队发布长文本生成模型LongWriter
针对大模型生成长度受限的问题,唐杰团队于2024年发布论文《LongWriter》,成功让大模型生成超过1万词(约2万字)的长文本。该研究突破了模型在监督微调中受样本限制的输出瓶颈,是其在长上下文处理领域的重要技术成果。
学术研究
长文本生成
论文
技术突破
从GLM到ChatGLM:对标GPT的自研大模型之路
作为清华大学教授和智谱AI首席科学家,唐杰带领团队自主研发了GLM系列大模型,旨在对标OpenAI的GPT系列。他们经历了从千亿基座模型GLM-130B,到经过有监督指令微调和人类反馈强化学习的ChatGLM的完整过程。这条路径印证了他提出的大模型发展三阶段论:基座模型、指令微调、人类反馈强化学习。
GLM
ChatGLM
自研模型
智谱AI
团队推出LongWriter,解决大模型长文本生成难题
唐杰团队于2024年发表论文《LongWriter》,旨在解决当前长上下文大模型(能处理10万token输入)却难以生成超过2000词输出的问题。研究发现,模型的生成长度受限于其在监督微调过程中看到的样本。这项工作展示了团队在前沿工程难题上的探索。
长文本生成
学术研究
大模型能力
🚀 项目
大模型能力提升的三阶段路径
唐杰将GPT类模型的发展归纳为三阶段方法论:第一阶段是“千亿基座模型”预训练(饱读诗书);第二阶段是“有监督指令微调”(教它考试);第三阶段是“人类反馈强化学习”(对齐人类偏好)。这是构建强大对话模型的标准路径。
模型训练
三阶段
指令微调
RLHF
构建模型记忆系统的四层框架
唐杰借鉴人类记忆机制,提出大模型记忆系统应包含四个层次:短期记忆(类似前额叶)、中期记忆(类似海马体)、长期记忆(分布式存储,类似大脑皮层)以及外部历史记忆(如Wiki)。这是模型应用于真实持续交互环境的核心工程问题。
模型记忆
在线学习
工程架构
认知科学
唐杰提出实现模型记忆的框架
唐杰认为,实现模型记忆是模型应用到真实环境的必备能力。他借鉴人类记忆系统,提出大模型记忆可分为四个阶段:短期(对应上下文Context)、中期(可能对应RAG检索增强)、长期(对应模型参数调整)和人类历史(外部知识库)。如何实现不同阶段的记忆是工程关键,一种方法是压缩信息。这为构建具有持续学习能力的AI系统提供了方法论思路。
人工智能
模型记忆
机器学习
工程方法
💬 名言
“Agent代表模型开始进入环境、开始形成生产力”
唐杰强调,Agent(智能体)是模型能力扩展的里程碑,标志着AI模型开始进入人类真实(虚拟/物理)世界。没有Agent能力,大模型将停留在‘理论学习’阶段,如同一个人只有知识积累而未转化为生产力。
Agent
生产力
AI应用
唐杰观点
“AI终究要落到替人完成工作、创造增量价值上”
这是唐杰关于AI发展根本目标的核心理念。他强调,无论技术如何演进,人工智能的最终检验标准是能否真正替代人类完成具体工作,并在经济和社会层面创造新的、可衡量的价值。技术本身不是目的,生产力的解放和价值的创造才是。
AI价值
生产力
应用本质
“更多数据、更大参数和更饱和的计算仍然是scaling基座模型最高效的办法。”
这是唐杰关于基座模型发展的核心观点。他认为预训练已使大模型掌握世界常识和简单推理能力,而持续扩展模型规模是提升其能力最直接高效的途径。这句话概括了大模型发展初期“大力出奇迹”的工程逻辑。
大模型
Scaling Law
AI工程
唐杰语录
相关人物
Geoffrey Hinton
黄仁勋
Ilya Sutskever
Demis Hassabis
Sam Altman
Yann LeCun