首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何自适应地采样n维数据并建立最优训练集

如何自适应地采样n维数据并建立最优训练集
EN

Data Science用户
提问于 2020-03-01 19:03:15
回答 1查看 41关注 0票数 1

我的输入空间至少为10维(经过各种成分分析,如PCA),输出空间为4维。我正在构建一个类似于函数逼近器的神经网络,它以上述10D数据作为输入(输入中的10个神经元),并将4D数据作为输出(输出时有4个神经元)。在中间有隐藏的层。

我需要建立一个很好的培训集,涵盖所有可能的输入和输出值。虽然看起来10D输入+ 4D输出可能有一个非常大的组合,但在现实中,输入/输出受到现实世界的限制。我面临的问题是:在训练集的某些部分,我需要以更高的分辨率对数据进行采样,而在其他部分,我可以通过低分辨率的采样来离开。很明显,我可以用高分辨率对整个数据集进行采样,但是样本的数量超过10万亿,我知道数据集的大部分是缓慢变化的,这部分低分辨率的采样就足够了。我的猜测-估计是,如果我能正确地取样,我可以逃脱4-5个数量级的数量较少的样本。

我的问题是,我应该做什么/构建一些能够自适应地采样高维数据集(在必要时更改分辨率)并为我提供最佳培训集的东西?

注:我的一位同事建议我使用马尔可夫链蒙特卡罗方法。我不知道这是否是最好的办法。请分享你的意见。

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-03-01 20:05:24

看一看主动学习。

https://en.m.wikipedia.org/wiki/Active_学习_(机器)_学习)

在这种方法中,您可以使用样本的子集进行训练,并根据哪些样本对模型最具信息性来添加更多的样本。

或者,您可以尝试通过集群和从每个集群中选择少量样本来减少样本数。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/68963

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档