我需要多少训练数据?

我需要多少训练数据?

这里有一些提示,关于你需要多少训练数据来训练你的机器学习(ML)模型。

您需要的训练数据量取决于许多变量——您使用的模型、您执行的任务、您希望达到的性能、可用特征的数量、数据中的噪声、模型的复杂性等等。

        虽然对于给定的机器学习应用程序需要多少训练数据没有固定的答案,但我们确实有一些关键的指导方针。一般来说,第一条经验法则是,模型的训练数据越多,结果越好。训练数据量越大,模型就越不可能过拟合或者捕获太多的噪声,从而忽略了数据中的真实信号。此外,更多的训练数据将减少高偏差的机会(当模型过度简化假设时)。

 接下来,使用领域专业知识可以帮助您缩小到合适大小的训练集。理想情况下,训练数据应该是独立同分布的,以避免不平衡的数据集。因此,训练集中应该有足够的数据来捕获模型可能存在的所有关系,以便能够有效地将输入映射到预测的输出。

 最后,基于给定机器学习模型的直觉可以帮助您了解给定模型需要多少训练数据。虽然没有黄金法则,但已知一些机器学习模型比其他模型需要更多的训练数据。对回归问题来说,建议数据点至少比存在的特征数量多十倍。对于图像分类问题,需要数万幅图像来构建一个可信赖的分类器。对于自然语言处理问题,模型需要数万个样本才能看到文本数据中足够的变化。

 (机器翻译,轻度译后编辑,仅供参考)

 编辑:胡跃

原文链接