多头注意力机制:Transformer 模型的核心设计(二)
词语的语义受其上下文影响。例如,”model”一词在”machine learning model”与”fashion model”中表达完全不同的概念。
这种影响因素的计算和捕捉,正是 transformer 模型中 self-attention 机制的核心功能之一。
三角函数与位置编码:Transformer 模型的核心设计
词语的位置决定其语义功能,这是 seq2seq 模型必须解决的核心问题。比如,I saw a saw
,两个 saw
在不同位置含义完全不同。
Transformer 模型并行处理所有输入词汇,失去了序列的内在顺序。位置编码通过将位置信息注入输入表示来解决这一问题。理想的位置编码应具备两个数学特性:位置的唯一性(不同位置有不同编码)和相对位置的可学习性(位置间的关系可被模型捕捉)。
ResNet 残差神经网络
神经网络的学习过程,亦如我们设置了一系列的函数,通过学习,让参数更加合理化,从而拟合从输入到输出的映射关系。
下面,通过 ResNet 结构,来理解神经网络的学习过程。
卷积、归一化和池化
卷积可以用于特征提取,归一化可以用于提高模型的泛化能力,池化可以用于减少特征的维度。
进程、线程和协程
进程,是程序运行时的实例,是操作系统分配资源的基本单位。确保了程序运行的独立性。
线程,是进程中的执行单元,是操作系统调度的最小单位。线程共享进程的内存空间,可以访问进程的资源。
协程,是一种用户态的轻量级”线程”,这种机制的关键在于 Python 中的事件循环。事件循环维护着一个就绪队列,通过不断轮询来检查和调度可以执行的协程。所有的协程都在同一个线程中执行,它们通过主动交出控制权来实现任务切换。
装饰器和装饰器模式
装饰,实际上是对函数、对象行为的改变,或是扩展、增强、甚至替换。它接收一个个体,最终输出一个装饰后的个体。
这里,装饰器是 Python 中的概念,而装饰器模式来源于设计模式。把它们放在一起,是因为它们都具备有”装饰”的特性,但也有一些不同。
创建自己的大语言模型
本文翻译自Step-by-Step Guide to Creating Your Own Large Language Model。从大语言模型的基本概念开始,逐步介绍如何创建自己的大语言模型。
AI 和认知卸载:将思考过程与机器共享
翻译 AI and cognitive offloading: sharing the thinking process with machines
AI
我们的大脑天生就能够减轻工作量(协作和使用工具),而 AI 这类工具把它推进到了一个新的高度。
这种与生俱来的能力,让我们可以把 思考 分享给工具、其他个体或技术,这种分布式认知的本质为协作和创新开辟了令人兴奋的可能。