训练数据的类型

分享

其他推荐

训练数据的类型

简要介绍训练数据的类型,包括结构化、非结构化和半结构化数据。

训练数据用于三种主要类型的机器学习:监督、非监督和半监督学习。在监督学习中,训练数据必须被标记。这使得模型可以学习从标签到其相关特征的映射。在无监督学习中,训练集中不需要标签。无监督机器学习模型在训练集的特征中寻找底层结构,以进行广义分组或预测。半监督训练数据集将具有未标记特征和标记特征的混合,用于半监督学习问题。

 强化学习模型使用学习到的错误,并将它们与给定的奖励或惩罚相关联。这一族模型既可以不使用训练数据并从经验中学习,也可以使用训练数据并从经验中学习。

训练数据类型图示

在机器学习的这三个领域中,有许多不同类型的数据可用于训练,包括结构化、非结构化和半结构化数据。顾名思义,结构化数据是具有明确定义的模式和数据类型的数据,而非结构化数据则没有。结构化数据是高度组织化的,易于搜索,通常驻留在相关联数据库中。

 结构化数据的例子包括销售交易、库存、地址、日期、库存信息等。非结构化数据通常存在于非关联数据库中,更难精确定位,通常被归类为定性数据。非结构化数据的例子包括音频记录、视频、推文、社交媒体帖子、卫星图像、文本文件等。根据机器学习的具体应用,结构化和非结构化数据都可以用作训练数据。

(机器翻译,轻度译后编辑,仅供参考)

编辑:胡跃

原文链接

Was it helpful ?