我有一个包含消息(字符串)和相关情绪的数据集。我试图用人工神经网络来预测六种情绪中的一种,使用编码的输入。
这就是我的X_train的样子:
array([list([1, 60, 2]),
list([1, 6278, 14, 9137, 334, 9137, 8549, 1380, 7]),
list([5, 107, 1, 2, 156]), ..., list([1, 2, 220, 41]),
list([1, 2, 79, 137, 422, 877, 5, 230, 621, 18]),
list([1, 11, 66, 1, 2, 9137, 175, 1, 6278, 5624, 1520])],
dtype=object)因为每个数组都有不同的长度,所以不会被接受。我能做些什么?
PS:编码值是使用keras.preprocessing.Tokenizer()生成的。
发布于 2020-10-10 16:02:11
一种方法是在固定大小的维度中对输入进行编码。也就是说,您可以使用RNN,如LSTM,带有填充,其输出应该是一个ANN的输入。
发布于 2020-10-10 18:34:01
我不确定它的性能有多好,但是将较短的消息填充特殊字符(比如零),使它们与最长的消息一样长,又如何呢?
然而,如果您有足够的数据,某种类型的嵌入肯定会更好(也是为了目标--预测情绪)。
https://datascience.stackexchange.com/questions/82830
复制相似问题