老师好,我们需要的是Yi,不管是正向传播还是反向传播,红色圈起来的部分都不会对Yi有影响,看上去是不会影响结果的,那存在的意义是什么呢
请问下图里面的Ot-1, Ot 是不是只输出了并不会参与后续计算,如果是的话为啥要输出呢
老师好,这里提到了Xt是一个矩阵,是多条句子输入合并成的矩阵。请问Xt里面的不同句子在正向传播的过程中互相之间会有关联吗?如果有,如何理解RNN一次性学了多个句子然后还不被不同句子之间相互混淆缠绕呢?
这个初始的w矩阵是怎么算的?
老师,我想问下这个表中的概率值是怎么计算的呀,为什么他的概率之和不为1呀
老师,在tf.nn.dunamic_nn中最后一时刻的输出为什么是相同的呀,向上传要经过v矩阵,向右要经过W矩阵,不会一样呀
老师,我想问下CNN为什么说只能传入一个时刻的输入,我增大他的batch不就可以输入多个时刻了吗/
老师,我想问下在NPLM中首先会把词变为一个长度为m的词向量,而词向量的参数又是随机给定的,既然是这样的话那为什么不直接随机一个长度为m的向量就可以,这么做岂不是多此一举吗?
老师,这里不是调整W8参数吗?那求偏导不应该是L对W8求偏导吗?
Decoder中Masked Attention经过Add&Normalization后的Q矩阵,和传过来Encoder的K、V矩阵应该怎么理解?
我的理解:
1)Q矩阵是当前词可能的匹配可能;
2)K表示该词和每个词的匹配程度;
3)V表示每个词的隐含信息;
4)K和V是在Encoder中直接获取,就不需要Decoder来计算了,所以从Encoder直接拿过来就可以。Q矩阵的话因为Decoder这边是单向的,只能从前面的算当前的,所以用Decoder自己的。(Encoder那边的Q矩阵是双向的,一个目标词的前后的词信息都在Encoder的Q矩阵中。)
这样理解合适么?
这句话来自同一个序列怎么理解呢?
输入数据转成词向量的Embedding结果矩阵Ι模型持有一份,然后单头的self-attention中一组Wq、Wk、Wv对矩阵I进行计算,就是对同一份Encoder进行处理,和Encoder那边没有任何关系。可以这么理解么?
请问一下,对一个文档里面的词进行one-hot encode的话构成的应该是个二维的数组吧?那对多个文档进行独热编码是不是三维的数组?望告知,多谢!
蓝色部分不是输入么?输入也能被训练的么?
这里的分子应该是2,而不是827吧?因为want先出,I在后面,所以个数是两个才对。求告知,多谢!
求p(i|want)的概率的时候 应该是 先有want 再有i 对应表里的2,而不是等于p(want|i)先有i再有want 对应表里的827
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637