构但遗憾的是目前还没有公布源代码。 论文地
Posted: Thu Dec 26, 2024 9:32 am
用预训练增强Tm 如何实现+Tm的有效沟通?作者从多模态M中找到了灵感。 多模态M可以同时接收文本和图像两种模态的输入T也是如此。一边是算法运行需要的图结构一边是描述问题的自然语言。 作者的设想是将预训练的作为Tm中编码的调制器mt二者通过m沟通同时借鉴M和m模型中所用的交叉注意算子融合不同模态的信息。接受双重输入包括文本形式的算法问题规范T个t及其对应的图表征个节点并输出问题的文本答案。其中输入的图表征遵循算法推理基准-的格式。 我们可以假设编码完成后文本输入存储在T ∈ ^T×中图输入存储在 ∈ ^×中。
的前向传播过程如下 首 美国电话号码表 先我们通过设置T^ =和^ = 来正确初始化输入。 接下来为了计算第t+步的表征文本t表征被输入到Tm的当前层 其中Qt,t ∈ ×_t ∈ ×分别是键查询和值矩阵的变换是一个前馈神经网络。 以类似的方式图表征被输入到层例如实现一个标准的mx-M 其中ψ,ϕ × → 分别是可学习的消息函数和更新函数mx是逐元素最大值聚合。 需要注意的是方程仅简要提供了节点之间的成对交互——实际上这里的是一个Tt-M它还包含三元组交互和一个门控机制。 此外还需注意的可学习部分没有时间步索引——每一步都应用相同的共享函数。
这很好地契合了图算法计算的迭代和重复性质。 一旦两个流都准备好它们的表征Θt+和t+图中的节点嵌入将对Tm的t嵌入进行条件设置从而产生Tm流中T块的最终结果 其中Qt×,t× ∈ ×_, tx ∈ ×分别是交叉注意力的键查询和值变换。在结束这一层之前对t+不进行额外的变换。 这个过程会一直重复直到最后的第层在这一层中从T_读取最终的文本输出。 最终输出通过最后一层生成的预测头转换为t并通过标准的下一个t预测来监督训练。 在开始T微调之前首先预训练使其能够稳健地执行-覆盖的三十个算法。这种方法已知可以在图空间中实现高达倍输入规模的分布外泛化。
的前向传播过程如下 首 美国电话号码表 先我们通过设置T^ =和^ = 来正确初始化输入。 接下来为了计算第t+步的表征文本t表征被输入到Tm的当前层 其中Qt,t ∈ ×_t ∈ ×分别是键查询和值矩阵的变换是一个前馈神经网络。 以类似的方式图表征被输入到层例如实现一个标准的mx-M 其中ψ,ϕ × → 分别是可学习的消息函数和更新函数mx是逐元素最大值聚合。 需要注意的是方程仅简要提供了节点之间的成对交互——实际上这里的是一个Tt-M它还包含三元组交互和一个门控机制。 此外还需注意的可学习部分没有时间步索引——每一步都应用相同的共享函数。
这很好地契合了图算法计算的迭代和重复性质。 一旦两个流都准备好它们的表征Θt+和t+图中的节点嵌入将对Tm的t嵌入进行条件设置从而产生Tm流中T块的最终结果 其中Qt×,t× ∈ ×_, tx ∈ ×分别是交叉注意力的键查询和值变换。在结束这一层之前对t+不进行额外的变换。 这个过程会一直重复直到最后的第层在这一层中从T_读取最终的文本输出。 最终输出通过最后一层生成的预测头转换为t并通过标准的下一个t预测来监督训练。 在开始T微调之前首先预训练使其能够稳健地执行-覆盖的三十个算法。这种方法已知可以在图空间中实现高达倍输入规模的分布外泛化。