大数据的测试集一般多少(2023年最新整理)

牛大拿 • 2023-03-09 13:28 • 生活指南 • 阅读 88

导读：今天新媒号来给各位分享关于大数据的测试集一般多少的相关内容，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

test_size一般怎么选

关于test_size的选择，理论上来说，我们是要用D中的数据来建模的，因此训练集占比越大，所建模型会越接近，但是此时会显得测试集数据过少，测试结果不具有普遍性。因此需要根据实际情况来选择，一般情况下会选择20%左右的数据作为测试集。

其实留出法的划分数据集的效果还是跟测试集的选取密切相关，为了降低其影响，可以选择多次划分数据集将最后结果取平均值的方式去处理。

大数据的测试集一般多少(2023年最新整理) 第1张

划分训练、测试集和数据观察

一般在进行模型的测试时，我们会将数据分为训练集和测试集。在给定的样本空间中，拿出大部分样本作为训练集来训练模型，剩余的小部分样本使用刚建立的模型进行预测。

train_test_split 函数利用伪随机数生成器将数据集打乱。默认情况下0.75为训练集,0.25测试集。

在构建机器学习模型之前，通常最好检查一下数据，看看如果不用机器学习能不能轻松完成任务，或者需要的信息有没有包含在数据中。

此外，检查数据也是发现异常值和特殊值的好方法。举个例子，可能有些鸢尾花的测量单位是英寸而不是厘米。在现实世界中，经常会遇到不一致的数据和意料之外的测量数据。检查数据的最佳方法之一就是将其可视化。一种可视化方法是绘制散点图（scatter plot）。数据散点图将一个特征作为 x 轴，另一个特征作为 y 轴，将每一个数据点绘制为图上的一个点。不幸的是，计算机屏幕只有两个维度，所以我们一次只能绘制两个特征（也可能是3 个）。用这种方法难以对多于 3 个特征的数据集作图。解决这个问题的一种方法是绘制散点图矩阵（pair plot），从而可以两两查看所有的特征。如果特征数不多的话，比如我们这里有 4 个，这种方法是很合理的。但是你应该记住，散点图矩阵无法同时显示所有特征之间的关系，所以这种可视化方法可能无法展示数据的某些有趣内容。

数据点的颜色与鸢尾花的品种相对应。为了绘制这张图，我们首先将 NumPy 数组转换成 pandas DataFrame。pandas 有一个绘制散点图矩阵的函数，叫作 scatter_matrix。矩阵的对角线是每个特征的直方图

从图中可以看出，利用花瓣和花萼的测量数据基本可以将三个类别区分开。这说明机器学习模型很可能可以学会区分它们。

参考资料：

Python机器学习基础教程

Pandas官方文档

训练集、验证集和测试集

大数据时代，我们现在的数据量可能是百万级别，那么验证集和测试集占数据总量的比例会趋向于变得更小。因为验证集的目的就是验证不同的算法，检验哪种算法更有效，因此，验证集要足够大才能评估，比如 2 个甚至 10 个不同算法，并迅速判断出哪种算法更有效。比如我们有 100 万条数据，那么取 1 万条数据便足以进行评估，找出其中表现最好的 1-2 种算法。同样地，根据最终选择的分类器，测试集的主要目的是正确评估分类器的性能，所以，如果拥有百万数据，我们只需要 1000 条数据，便足以评估单个分类器，并且准确评估该分类器的性能。假设我们有 100 万条数据，其中 1 万条作为验证集，1 万条作为测试集，100 万里取 1 万，比例是 1%，即:训练集占 98%，验证集和测试集各占 1%。对于数据量过百万的应用，训练集可以占到 99.5%，验证和测试集各占 0.25%，或者验证集占 0.4%，测试集占 0.1%。

另外，就算没有测试集也不要紧，测试集的目的是对最终所选定的神经网络系统做出无偏估计，如果不需要无偏估计，也可以不设置测试集。所以如果只有验证集，没有测试集，我们要做的就是，在训练集上训练，尝试不同的模型框架，在验证集上评估这些模型，然后迭代并选出适用的模型。因为验证集中已经涵盖测试集数据，其不再提供无偏性能评估。

7. 开发/测试集应该多大（machine learning yearning）

开发集应该足够大，以至于可以检测你尝试的不同算法的差异。比如，如果分类器A的准确率为90%，分类器B的准确率为90.1%，则100个样本大小的开发集不能检测出这0.1%的差异。与我见过的其它机器学习问题相比较，包含100个样本的开发集很小。常见的是包含1000到10000个样本的开发集。在10000个样本上，你有更大的可能性检测到0.1%的提升。[1]

对于成熟和重要的应用——比如广告、web搜索和产品推荐——我见到有团队甚至为0.01%的提升努力，因为这对公司的利润有直接影响。在这种情况下，开发集应该要比10000大，从而检测更小的提升。

测试集的大小又该如何？它应该足够大，大到可以给你的系统的整体性能提供高可信度。一个流行的启发式方法（heuristic）是使用你的数据30%作为测试集。这个方法在不太大规模的样本上——100到10000个样本表现很好。但是在大数据时代，我们有时候面临超过10亿样本的机器学习问题，分配给开发/测试集的比例在降低，而开发/测试集的绝对数字在增长。没有必要获取超出评估你的算法性能的非常大的开发/测试集。

[1]理论上，应该在开发集上测试算法的变化是否带来统计学上显著得变化。实际中，大部分团队不会这样做（除非他们准备发表学术论文），我从来没有发现统计学上的测试对于测量临时进展（interim progress）有用。