文章/答案/技术大牛

发布

社区首页 >问答首页 >如何自适应地采样n维数据并建立最优训练集

问如何自适应地采样n维数据并建立最优训练集
EN

Data Science用户

提问于 2020-03-01 19:03:15

回答 1查看 41关注 0票数 1

我的输入空间至少为10维(经过各种成分分析，如PCA)，输出空间为4维。我正在构建一个类似于函数逼近器的神经网络，它以上述10D数据作为输入(输入中的10个神经元)，并将4D数据作为输出(输出时有4个神经元)。在中间有隐藏的层。

我需要建立一个很好的培训集，涵盖所有可能的输入和输出值。虽然看起来10D输入+ 4D输出可能有一个非常大的组合，但在现实中，输入/输出受到现实世界的限制。我面临的问题是:在训练集的某些部分，我需要以更高的分辨率对数据进行采样，而在其他部分，我可以通过低分辨率的采样来离开。很明显，我可以用高分辨率对整个数据集进行采样，但是样本的数量超过10万亿，我知道数据集的大部分是缓慢变化的，这部分低分辨率的采样就足够了。我的猜测-估计是，如果我能正确地取样，我可以逃脱4-5个数量级的数量较少的样本。

我的问题是，我应该做什么/构建一些能够自适应地采样高维数据集(在必要时更改分辨率)并为我提供最佳培训集的东西？

注:我的一位同事建议我使用马尔可夫链蒙特卡罗方法。我不知道这是否是最好的办法。请分享你的意见。

statistics

training

mathematics

neural-network

回答 1

Data Science用户

回答已采纳

发布于 2020-03-01 20:05:24

看一看主动学习。

https://en.m.wikipedia.org/wiki/Active_学习_(机器)_学习)

在这种方法中，您可以使用样本的子集进行训练，并根据哪些样本对模型最具信息性来添加更多的样本。

或者，您可以尝试通过集群和从每个集群中选择少量样本来减少样本数。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/68963

复制

相似问题

问如何自适应地采样n维数据并建立最优训练集
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何自适应地采样n维数据并建立最优训练集EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何自适应地采样n维数据并建立最优训练集
EN