但当扎克伯格出手时,尼兰詹又变成了微不足道的小人物,他轻而易举就把对方给捞了出来。

        而且对方能被关一年多,说明应该确实有两把刷子。

        “巴拉苏布拉马尼安教授,你对大语言模型怎么看?”扎克伯格问道。

        尼兰詹大脑开始高速运转起来,毕竟这可是关乎到自己的安危啊!得表现出价值,他才能在外面一直被保释,甚至是无罪释放。

        他内心苦笑了一声:这叫什么事,自己明明就无罪,现在居然还要表现出价值才能无罪,这国怎?

        “我认为这是一个很有发展潜力的方向,我前几年在ACL会议上发表的论文《DeFormer:DeposingPre-trainedTransformersforFasterQuestionAnswering》针对的就是Transformer-basedQA模型的痛点-全层输入宽自注意力导致计算慢和内存高予以解决,我提出DeFormer,一个分解的Transformer变体。

        在较低层,DeFormer用问题宽和段落宽自注意力替换全自注意力,避免问题和段落序列的交叉计算。

        这允许独立处理输入文本,实现段落表示的预计算,从而大幅减少运行时计算。

        DeFormer结构与Transformer相似,可直接用预训练权重初始化,并在QA数据集上微调。

        我们的实验显示,DeFormer版本的BERT和XL在QA任务上加速4.3倍以上,仅通过简单蒸馏损失损失1%准确率。”

        尼兰詹说的是他2020年在ACL会议上发表的论文,是当时LLM优化领域的经典工作,当时LLM流行的模型叫BERT,这篇论文直接构建在预训练Transformer上,LLM的瓶颈,也就是计算成本,在下游任务中凸显,这篇则一定程度上提出了解决思路。

        内容未完,下一页继续阅读