“transforr”
“各位院士,各位教授。”陈启明的声音不大,却清晰地回响在每个人的耳边,“欢迎来到大语言模型的新世界。我们首先要学习的,不是算法,不是优化,而是这个模型的‘基本骨架’。”
他开始在白板上书写。
“它的核心,不是,也不是RNN,而是一种全新的东西,叫做‘自注意力机制(Self-Attention)’……”
一群平均年龄超过六十岁、站在龙国科技金字塔顶端的学者们,此刻像一群小学生一样,屏息凝神,围在一个高中生的身边,聆听着一场足以开启新时代的讲座。
他们的面前,摆着厚厚的笔记本,上面画满了各种他们自己都看不懂的失败模型架构。而现在,这些耗费了无数心血的草图,在少年口中那句“全新的东西”面前,显得如此苍白无力。
“自注意力机制……”
严树隆院士喃喃自语,他身旁一位主攻计算机视觉的张院士皱起了眉头,忍不住发问:“陈同学,这个‘注意力机制’我们了解一些,在图像识别里,是让模型关注图片的关键区域。但你说的‘自’注意力,还是用在自然语言处理上……这……这怎么理解?”
这是所有人的疑问。
他们的大脑,还停留在“处理序列问题就用RNN(循环神经网络),处理图像问题就用(卷积神经网络)”的经典教科书时代。他们尝试过魔改RNN,让它的记忆单元更长,但模型变得臃肿不堪,训练起来如同老牛拉车。他们甚至异想天开地尝试用来捕捉词语之间的局部关系,结果造出来的模型只会说胡话,逻辑混乱得像个醉汉。
他们一直在旧的框架里打补丁,却从未想过,或许,整个地基都是错的。
陈启明没有直接回答,而是拿起笔,在白板上写下了一个简单的句子:
“机器人举起了锤子,因为它很重。”
他转过身,看向众人,提问:“请问,这句话里的‘它’,指代的是什么?”
“锤子。”严树隆不假思索地回答。
“那如果句子是‘机器人没有举起锤子,因为它很重’呢?”陈启明又问。
“……指的是机器人。”另一位教授回答,有些不确定。
“完全正确。”陈启明点点头,脸上露出一丝微笑,“各位前辈,你们的大脑在几分之一秒内就完成了这个复杂的指代消歧工作。你们是怎么做到的?你们在读到‘它’这个字的时候,会不自觉地回顾整句话,然后根据上下文的逻辑,给‘机器人’和‘锤子’这两个词,分配不同的‘关注度’权重。在第一句话里,‘锤子’的权重最高;在第二句话里,‘机器人’的权重最高。”
他用笔在“它”和“锤子”、“机器人”之间画上了不同粗细的连线。
“自注意力机制,就是让机器学会做这件事。它在处理序列中的任何一个单词时,都能同时‘看到’序列中所有其他的单词,并计算出每一个单词对于当前单词的重要性,也就是‘注意力得分’。得分越高的,关系越密切。”
一番话,如同一道惊雷,在众人的脑海中炸响!
严树隆院士的眼睛猛地瞪圆,他一拍大腿,声音都有些颤抖:“我明白了!我明白了!RNN是一步一步地看,像个得了健忘症的老头,看到后面就忘了前面!而你这个自注意力机制,是让模型长了一双‘全景眼’,它在看第一个字的时候,就已经把最后一个字是什么都纳入了考量!这不是序列处理,这是……这是全局并行处理!”
“太妙了!这简直是降维打击!”那位张院士也激动得满脸通红,“我们之前所有的尝试,都是在教一个瞎子摸象,摸到腿就说大象是柱子,摸到鼻子就说大象是管子。而你,直接开了一盏探照灯,把整头大象照得清清楚楚!”
他们都是各自领域的顶尖天才,一点就透。陈启明这个简单到极致的比喻,瞬间捅破了那层最关键的窗户纸。
“没错。”陈启明继续在白板上画着,“为了实现这一点,我们需要为每个单词生成三个向量,分别是query(查询)、Key(键)和Vae(值)。”
q、K、V三个字母出现在白板上,对这群科学家来说,这像是打开了新世界的大门。