神经网络隐藏层中的过拟合问题

回顾一下,在 上一篇文章中,我们提到了在反向传播过程中的梯度计算。
梯度,是损失函数(成本函数)对参数的偏导数组成的向量。它的方向是损失函数上升最快的方向,它的值是损失函数上升最快的速率。
如上图示,是一张3D的损失函数图,其中,x轴和y轴分别是参数 w 和 b,z轴是损失函数的值。我们最终的目标是希望损失函数最小,即找到最优的参数 w 和 b。
这就像是一个下山的过程,我们需要找到那个下山最快的方向,但是,山路是曲折的,我们需要不断的调整方向,逐步跨步(按照一个学习率)。跨步太大,可能会错过最优解,跨步太小,可能会收敛太慢。
当然,实际过程要复杂的多,在神经网络中往往会存在很多的隐藏层,而每一层都需要计算梯度,而每一层的梯度计算都需要依赖于前一层的输出以及对后一层结果产生的影响。影响可能会被放大,也可能会被缩小,这就是梯度消失和梯度爆炸的本质原因。

...More

前向传播和反向传播

alt text
图片来源

神经网络,是一种模拟人脑神经元网络的计算模型。它由多个神经元组成,每个神经元通过权重和偏移,对输入信号进行处理,最终输出结果。
如上图示,每个神经元就像是一个仪表盘,它通过输入的值,经过处理,最终输出一个值。训练过程,就是在调整这些仪表盘的参数,使得输出尽可能接近目标输出。

...More

LCEL 概述

LECE(LangChain Expression Language)提供了 可高度组合化 的组件,涵盖 Prompt(输入)、Retriever(检索)、LLMs(大语言模型)、Tool(工具/函数) 以及 OutputParser(输出处理) 等。它隐藏了诸多底层的实现细节,以声明式的形式,简化 AI 产品的实现过程。
这些组件,实现了统一的底层协议 – Runnable 接口。
Runnable 接口中,定义了以 同步 或 异步 的方式对数据的流式处理、对 Chain 的调用、批处理等功能。

...More

初次 “域” 见


我们能够抓住的东西,总是有限的、离散的,也就是有边界的、有数量的。
我认为,在一个边界内的自治对象,就是一个 域。所谓自治,有事物(对象),有事务(动作),有状态,有驱动(动作)。
下面,我想通过 DDD 领域设计、PDDL 规划和 ChatGPT Prompt 编写三个方面去谈谈自己对 域 的具体理解,刚好,最近接触到了这三个 域,也算是做一总结。

...More

© 2025 YueGS