大数据的测试集一般多少(2023年最新整理)

导读:今天新媒号来给各位分享关于大数据的测试集一般多少的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

test_size一般怎么选

关于test_size的选择,理论上来说,我们是要用D中的数据来建模的,因此训练集占比越大,所建模型会越接近,但是此时会显得测试集数据过少,测试结果不具有普遍性。因此需要根据实际情况来选择,一般情况下会选择20%左右的数据作为测试集。

其实留出法的划分数据集的效果还是跟测试集的选取密切相关,为了降低其影响,可以选择多次划分数据集将最后结果取平均值的方式去处理。

2

大数据的测试集一般多少(2023年最新整理)  第1张

划分训练、测试集和数据观察

一般在进行模型的测试时,我们会将数据分为训练集和测试集。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测。

train_test_split 函数利用伪随机数生成器将数据集打乱。默认情况下0.75为训练集,0.25测试集。

在构建机器学习模型之前,通常最好检查一下数据,看看如果不用机器学习能不能轻松完成任务,或者需要的信息有没有包含在数据中。

此外,检查数据也是发现异常值和特殊值的好方法。举个例子,可能有些鸢尾花的测量单位是英寸而不是厘米。在现实世界中,经常会遇到不一致的数据和意料之外的测量数据。检查数据的最佳方法之一就是将其可视化。一种可视化方法是绘制散点图(scatter plot)。数据散点图将一个特征作为 x 轴,另一个特征作为 y 轴,将每一个数据点绘制为图上的一个点。不幸的是,计算机屏幕只有两个维度,所以我们一次只能绘制两个特征(也可能是3 个)。用这种方法难以对多于 3 个特征的数据集作图。解决这个问题的一种方法是绘制散点图矩阵(pair plot),从而可以两两查看所有的特征。如果特征数不多的话,比如我们这里有 4 个,这种方法是很合理的。但是你应该记住,散点图矩阵无法同时显示所有特征之间的关系,所以这种可视化方法可能无法展示数据的某些有趣内容。

数据点的颜色与鸢尾花的品种相对应。为了绘制这张图,我们首先将 NumPy 数组转换成 pandas DataFrame。pandas 有一个绘制散点图矩阵的函数,叫作 scatter_matrix。矩阵的对角线是每个特征的直方图

从图中可以看出,利用花瓣和花萼的测量数据基本可以将三个类别区分开。这说明机器学习模型很可能可以学会区分它们。

参考资料:

Python机器学习基础教程

Pandas官方文档

训练集、验证集和测试集

大数据时代,我们现在的数据量可能是百万级别,那么验证集和测试集占数据总量的比例会趋向于变得更小。因为验证集的目的就是验证不同的算法,检验哪种算法更有效,因此,验证集要足够大才能评估,比如 2 个甚至 10 个不同算法,并迅速判断出哪种算法更有效。比如我们有 100 万条数据,那么取 1 万条数据便足以进行评估,找出其中表现最好的 1-2 种算法。同样地,根据最终选择的分类器,测试集的主要目的是正确评估分类器的性能,所以,如果拥有百万数据,我们只需要 1000 条数据,便足以评估单个分类器,并且准确评估该分类器的性能。假设我们有 100 万条数据,其中 1 万条作为验证集,1 万条作为测试集,100 万里取 1 万,比例是 1%,即:训练集占 98%,验证集和测试集各占 1%。对于数据量过百万的应用,训练集可以占到 99.5%,验证和测试集各占 0.25%,或者验证集占 0.4%,测试集占 0.1%。

另外,就算没有测试集也不要紧,测试集的目的是对最终所选定的神经网络系统做出无偏估计,如果不需要无偏估计,也可以不设置测试集。所以如果只有验证集,没有测试集,我们要做的就是,在训练集上训练,尝试不同的模型框架,在验证集上评估这些模型,然后迭代并选出适用的模型。因为验证集中已经涵盖测试集数据,其不再提供无偏性能评估。

7. 开发/测试集应该多大(machine learning yearning)

开发集应该足够大,以至于可以检测你尝试的不同算法的差异。比如,如果分类器A的准确率为90%,分类器B的准确率为90.1%,则100个样本大小的开发集不能检测出这0.1%的差异。与我见过的其它机器学习问题相比较,包含100个样本的开发集很小。常见的是包含1000到10000个样本的开发集。在10000个样本上,你有更大的可能性检测到0.1%的提升。[1]

对于成熟和重要的应用——比如广告、web搜索和产品推荐——我见到有团队甚至为0.01%的提升努力,因为这对公司的利润有直接影响。在这种情况下,开发集应该要比10000大,从而检测更小的提升。

测试集的大小又该如何?它应该足够大,大到可以给你的系统的整体性能提供高可信度。一个流行的启发式方法(heuristic)是使用你的数据30%作为测试集。这个方法在不太大规模的样本上——100到10000个样本表现很好。但是在大数据时代,我们有时候面临超过10亿样本的机器学习问题,分配给开发/测试集的比例在降低,而开发/测试集的绝对数字在增长。没有必要获取超出评估你的算法性能的非常大的开发/测试集。

[1]理论上,应该在开发集上测试算法的变化是否带来统计学上显著得变化。实际中,大部分团队不会这样做(除非他们准备发表学术论文),我从来没有发现统计学上的测试对于测量临时进展(interim progress)有用。

训练集和测试集划分比例

一般分配比例为训练集和测试集的比例为7:3或是8:2。

训练集(Training Set)含义:帮助我们训练模型,即通过训练集的数据让我们确定拟合曲线的参数。

测试集(Test Set)含义: 为了测试已经训练好的模型的精确度。因为在训练模型的时候,参数全是根据现有训练集里的数据进行修正、拟合,有可能会出现过拟合的情况,即这个参数仅对训练集里的数据拟合比较准确,如果出现一个新数据需要利用模型预测结果,准确率可能就会很差。

常见的划分方法:留出法。直接将数据集D划分为两个互斥的的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=S∪T, S ∩ T = 空集。在S上训练出模型后,用T来评估其误差。

一般,在用留出法划分集合的时候,会通过若干次随机划分、重复实验评估后取平均值作为留出法的评估结果,减少误差。

如果我们训练集的比例比较大,可能会导致训练出的模型更接近于用D训练出的模型,同时T较小,评价结果又不够准确;若T的比例比较大,则有可能导致评估的模型与之前有较大的差别,从而降低了评估的保真性。这个问题没有完美的解决方案,常见的做法是将大约2/3~4/5的样本用于训练。

结语:以上就是新媒号为大家整理的关于大数据的测试集一般多少的全部内容了,感谢您花时间阅读本站内容,希望对您有所帮助,更多关于大数据的测试集一般多少的相关内容别忘了在本站进行查找喔。

以上内容为新媒号(sinv.com.cn)为大家提供!新媒号,坚持更新大家所需的百科知识。希望您喜欢!

版权申明:新媒号所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,不声明或保证其内容的正确性,如发现本站有涉嫌抄袭侵权/违法违规的内容。请发送邮件至 k2#88.com(替换@) 举报,一经查实,本站将立刻删除。

(0)
上一篇 2023-03-09
下一篇 2023-03-09

相关推荐

发表回复

登录后才能评论