设 和 分别是门控网络和第 个 Expert 的输出,那么对于在当前的输入x,输出就是所有 experts 的加权和: 那么一个典型的门控网络是什么呢?一个典型的门控网络通常是一个带有 softmax 函数的简单的网络。这个网络将学习将输入发送给哪个 expert。如下所示: 在论文中,作者提到这个损失函数可能会导致专家网络之间的强烈耦合,因为一个专家网络的权重变化会影响到其他专家网络的loss。这种耦合可能会导致多个专家网络... https://www.blogger.com/u/9/profile/10810167670069336925
Için Basit anahtar index örtüsünü
Internet 6 hours ago eddiec837frd6Web Directory Categories
Web Directory Search
New Site Listings