0
用微信扫码二维码
分享至好友和朋友圈
![]()
导语
集智俱乐部、集智学园创始人,北京师范大学张江教授开设了,致力于打破学科壁垒,将复杂系统与人工智能深度融合。从神经网络到因果推断,从世界模型到多尺度建模,甚至包含最前沿的“氛围编程(Vibe Coding)”实战,带你亲手落地AI项目。
作为系列课程的第十四讲,张江教授将以「自我演化的人工智能」为题,围绕递归自改进理论、大模型推理增强、自对齐与自精炼、强化学习、演化提示优化及自主智能体框架展开讲解,剖析自进化 AI 技术脉络、落地路径与复杂系统应用边界。正式分享将于6月29日(周一)13:30-16:15腾讯会议线上直播。
课程简介
大语言模型推理短板、人工标注成本高、模型迭代依赖外部监督是复杂系统 AI 落地核心瓶颈,递归自改进、自主进化范式为破局关键。本课程依托系统科学视角,梳理自进化 LLM 完整技术脉络,融合思维链、自一致性、树搜索推理、自反馈精炼、强化学习对齐、演化计算提示优化、自主智能体框架六大技术主线。推理线讲解 CoT、Self-Consistency、ToT、TS-LLM 等深度思考机制,解决数学、社科复杂多步推理;自改进线拆解 Self-Improve、Self-Refine、Self-Align 无标注迭代方案;强化学习线覆盖 PPO、GRPO、Reflexion 反思智能体;演化计算线讲解遗传算法、EVOPROMPT、PromptBreeder 自动提示进化;最后落地多智能体自进化系统、递归自改进理论与技术奇点边界。课程结合 Math-Shepherd、AlphaZero、达尔文哥德尔机等经典案例,覆盖社科建模、管理仿真、科学计算等复杂场景。
学完可完整掌握大模型自主迭代全链路,能搭建自进化推理智能体,将递归自改进方法应用于社会科学、管理决策、复杂系统仿真研究。
课程大纲
一、基础背景:技术奇点与递归自改进理论
-
冯・诺依曼技术奇点定义、Yampolskiy 递归自改进(RSI)理论层级
-
AI 智能体演化全景:单智能优化、多智能协同、领域专用智能体分支
-
大模型训练基础:预训练、微调、上下文学习三层范式
-
自进化核心四阶段:经验获取、经验精炼、模型更新、效果评估
二、LLM 深度推理增强:从单链到树状搜索
-
基础推理:思维链 CoT、自一致性 Self-Consistency 投票机制
-
分步过程奖励:Math-Shepherd 无人工分步标注推理打分框架
-
树搜索推理:思维树 ToT、类 AlphaZero 蒙特卡洛 TS-LLM 深度推理
-
对比实验:24 点、GSM8K、高等数学、社科逻辑任务效果验证
三、无监督大模型自改进(Self-Improved LLM)
-
LMSI 自训练:模型生成高置信推理样本反向微调
-
Self-Refine 自反馈迭代:生成-自评-修正闭环,零训练轻量化优化
-
Self-Align 指令自对齐:少量种子数据 + 网页文本自动扩充指令集
-
自对齐实验:LLaMA 系列开源模型指令调优性能对比
四、大语言模型 + 强化学习(LLM+RL)
-
传统 PPO 与分组奖励 GRPO 优化框架
-
Reflexion 反思智能体:短时轨迹记忆 + 长期反思文本复盘试错
-
AlphaZero 范式:价值网络、策略网络、蒙特卡洛树搜索
-
落地场景:多步骤文本任务、代码生成、多轮决策推理
五、LLM + 演化计算:提示词自主进化
-
遗传算法基础:种群、适应度、交叉、变异、选择机制
-
EVOPROMPT:差分进化/遗传算法自动优化提示模板
-
PromptBreeder 双层自进化:任务提示 + 变异提示同步迭代
-
应用:文本分类、摘要、复杂逻辑任务提示自动生成
六、自进化 AI 智能体系统(Self-evolved AI Agent)
-
单智能体自进化四大范式:离线预训练、在线适配、反思迭代
-
多智能体编排 MAO 与多智能自进化 MASE 架构
-
先进框架:MetaGPT、达尔文哥德尔机 DGM、Gödel Machine
-
自进化三定律:安全稳定、性能保优、自主自适应优化
七、自进化 AI 局限与复杂系统落地边界
-
模型坍塌、算力约束、高质量数据枯竭问题
-
递归自改进计算理论上限、智能爆炸临界阈值讨论
-
社科/管理学落地:问卷模拟、元分析编码、决策智能体工作流
-
未来方向:开放进化多智能体、跨领域通用自进化系统
关键词
-
递归自改进(RSI):分层递进的 AI 自我升级体系,分为自修改、自优化、递归持续进化三层,是技术奇点核心理论基础。
-
自一致性(Self-Consistency):大模型生成多条推理路径,通过投票筛选最高频答案,低成本提升复杂推理精度。
-
Math-Shepherd:全自动分步过程奖励模型,无需人工标注即可对数学推理每一步打分,支撑分步强化学习。
-
思维树(Tree of Thoughts, ToT):将推理拆解为多分支树形结构,支持自主评估、回溯搜索,突破线性 CoT 推理局限。
-
TS-LLM:借鉴 AlphaZero 蒙特卡洛树搜索的大模型推理框架,独立训练价值网络实现超深度思考。
-
Self-Refine:零训练自反馈迭代机制,同一模型完成生成、缺陷自评、内容修正三步循环优化输出。
-
Self-Align:指令自对齐方案,依托少量人工种子数据,自动扩充、筛选高质量指令微调样本。
-
Reflexion:带长短记忆的反思智能体,记录试错轨迹生成反思文本,借助语言反馈完成强化学习。
-
GRPO:分组近端策略优化,一次性采样多条模型输出统一计算奖励,相比 PPO 提升训练效率。
-
EVOPROMPT:融合遗传 / 差分演化算法的自动提示优化工具,通过交叉变异迭代生成最优任务提示。
-
PromptBreeder:双层自进化提示框架,同步优化任务提示与提示变异规则,实现无人工干预提示迭代。
-
达尔文哥德尔机(DGM):可自主修改自身代码的开放进化智能体,通过版本存档与性能筛选持续迭代。
-
多智能体自进化(MASE):多智能体协同与环境交互,自主优化提示、工具、记忆、协作流程。
-
模型坍塌(Model Collapse):模型使用 AI 生成数据迭代训练后,输出多样性持续衰减、表达趋于无意义的退化现象。
-
技术奇点(Technological Singularity):冯・诺依曼提出的临界阈值,AI 实现无上限递归自我进化,彻底变革人类生产研究范式。
课程信息
课程主题:自我演化的人工智能
课程时间:2026年6月29日(周一) 13:30-16:15
课程形式:腾讯会议(会议信息见群内通知),集智学园网站录播(3个工作日内上线)
课程主讲人
张江,北京师范大学系统科学学院教授,集智俱乐部、集智学园创始人,集智科学研究中心理事长,曾任腾讯研究院、华为战略研究院等特聘顾问。主要研究领域包括因果涌现、复杂系统分析与建模、规模理论等。
个人主页:https://jake.swarma.org/
课程适用对象
-
理工科背景高年级本科生
-
理工科背景硕士、博士研究生
报名须知
1. 课程形式:
-
参与方式:付费学员可参与腾讯会议直播/北师大海淀区线下授课(助教可协助入校)
-
授课形式:
-
平时:课堂讨论与内容共创
-
结课:项目汇报
2. 课程周期:2026年3月2日-2026年6月22日,每周一 13:30-16:15进行。
3. 课程定价:399元
课程链接:https://campus.swarma.org/v3/course/5684?from=wechat
付费流程:
-
课程页面添加学员登记表,添加助教微信入群;
-
课程可开发票。
课程共创任务:课程字幕
为鼓励学员深度参与、积极探索,我们致力于形成系列化知识传播成果,并构建课程知识共建社群。为此,我们特别设立激励机制,让您的学习之旅满载收获与成就感。
课程以老师讲授为主,每期结束后,助教会于课程群内发布字幕共创任务。学员通过参与这些任务,不仅能加深对内容的理解,还可获得积分奖励。积分可兑换其他读书会课程或实物奖品,助力您的持续成长。
推荐课程
参考课程
-
吴恩达:Build with Andrew https://www.deeplearning.ai/courses/build-with-andrew/
-
Jure Leskovec: Machine Learning with Graphs, StanfordCS224W.https://www.youtube.com/playlist?list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn
-
Steve Brunton: Data Driven Science and Engineering, University of Washingtonhttps://www.youtube.com/playlist?list=PLMrJAkhIeNNRpsRhXTMt8uJdIGz9-X_1-
-
Karthik Duraisamy: DATA-DRIVEN ANALYSIS AND MODELING OF COMPLEX SYSTEMS, Michigen institute for computational discovery and engineering, Michigen University.https://micde.umich.edu/academic-programs-old/data-driven-course/
-
Sergey Levine: Deep Reinforcement Learning, CS 285 at UC Berkeley.http://rail.eecs.berkeley.edu/deeprlcourse/
【集智学园网站资源】
-
对复杂系统连续变化自动建模——Neural Ordinary Differential Equations解读https://campus.swarma.org/course/2046
-
复杂网络自动建模在大气污染中的应用https://campus.swarma.org/course/1998
-
两套因果框架深度剖析:潜在结果模型与结构因果模型https://campus.swarma.org/course/2526
-
稳定学习:发掘因果推理和机器学习的共同基础https://campus.swarma.org/course/2323
-
因果强化学习https://campus.swarma.org/course/2156
-
张江:因果与机器学习能够破解涌现之谜吗https://campus.swarma.org/course/4540
-
因果涌现理论提出者:Erik Hoel主题报告https://campus.swarma.org/course/4317
-
如何从数据中发现因果涌现——神经信息压缩器https://campus.swarma.org/course/4874
-
标准化流技术简介https://campus.swarma.org/course/1999
-
带隐状态的强化学习世界模型https://campus.swarma.org/course/4848
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
下载网易新闻客户端
