老师,请教一下,encoder和decoder的nx数量是怎样确定的?
老师请教一下,红框这个箭头代表0t-1的输出,还是代表st-1时刻的输出啊?
老师请教一下,蓝色框中的向量到底是什么?能举例说明吗?为什么还可以调整
既然bert只使用了transformer的encoder,gpt使用了decoder,理论上应该transformer比bert和gpt的效果都要好的。为什么bert和gpt需要把他们拆开来用呢
attention层的参数只和最近的decoder和encoder的隐层相关吗?和输入样例没有关系吗?
那attention层的参数是如何进行训练的
老师,1.it是干啥用的,candidate是什么?为什么输入跟输入自己还要加权相乘?
2.Ct和ht什么关系?
3.ft和Ct-1相乘,Ot和tanhCt相乘,短期转长期记忆,和长期记忆转短期记忆,不应该是逆过程?为什么一个用sigmoid,一个tanh?
4.整个网络问什么设计成这样的形式,我把历史信息都存上,直接加权相加不也可以?
老师好,我有一个问题想要请教一下。
任务是:把日历信息在embedding层里转化成词向量,是年,月,周(包括假期),小时,月-小时(比如May12:00PM),周-小时(比如Monday1:00PM)分别进行计算的,文献里的例子比如就是月份在(1,2……12)里取值,然后每个月的词向量是三维的。这一层里的输出值会作为接下来神经网络的feature。
问题是:1. 分别进行年,月,周,小时,月-小时,周-小时的时候出现loss过高,精度接近于0的情况。
2. 输出的这些词向量是直接就用在例如cnn的输入层里了吗?如果是直接应用的话,什么样的代码可以显示Embedding层的输出值并成为CNN的输入值呢?
下面是我的代码
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637