科技入侵现代最新首发章节_第267章饥不择食的META (2 / 13)-迷你中文

        但当扎克伯格出手时，尼兰詹又变成了微不足道的小人物，他轻而易举就把对方给捞了出来。

        而且对方能被关一年多，说明应该确实有两把刷子。

        “巴拉苏布拉马尼安教授，你对大语言模型怎么看？”扎克伯格问道。

        尼兰詹大脑开始高速运转起来，毕竟这可是关乎到自己的安危啊！得表现出价值，他才能在外面一直被保释，甚至是无罪释放。

        他内心苦笑了一声：这叫什么事，自己明明就无罪，现在居然还要表现出价值才能无罪，这国怎？

        “我认为这是一个很有发展潜力的方向，我前几年在ACL会议上发表的论文《DeFormer:DeposingPre-trainedTransformersforFasterQuestionAnswering》针对的就是Transformer-basedQA模型的痛点-全层输入宽自注意力导致计算慢和内存高予以解决，我提出DeFormer，一个分解的Transformer变体。

        在较低层，DeFormer用问题宽和段落宽自注意力替换全自注意力，避免问题和段落序列的交叉计算。

        这允许独立处理输入文本，实现段落表示的预计算，从而大幅减少运行时计算。

        DeFormer结构与Transformer相似，可直接用预训练权重初始化，并在QA数据集上微调。

        我们的实验显示，DeFormer版本的BERT和XL在QA任务上加速4.3倍以上，仅通过简单蒸馏损失损失1%准确率。”

        尼兰詹说的是他2020年在ACL会议上发表的论文，是当时LLM优化领域的经典工作，当时LLM流行的模型叫BERT，这篇论文直接构建在预训练Transformer上，LLM的瓶颈，也就是计算成本，在下游任务中凸显，这篇则一定程度上提出了解决思路。

        内容未完，下一页继续阅读

第267章 饥不择食的META (2 / 13)

第267章饥不择食的META (2 / 13)