我正在处理两个文本数据集,一个是68k文本样本,另一个是100k文本样本。我已将文本数据集编码为bert嵌入。
Text sample > 'I am working on NLP' ==> bert encoding ==> [0.98, 0.11, 0.12....nth]
# raw text 68k # bert encoding [68000, 1024]我想在这些嵌入上尝试不同的自定义NLP模型,但是dataset很大,可以快速测试模型的性能。
要快速检查不同的模型,最好的方法是从整个种群中获取一小部分数据集,并将其提供给不同的算法。最后,选择最优算法对整个数据集进行拟合。
我计划至少从68k数据集中抽取10k样本子集,从100 k数据集中抽取10k子集。我可以从68k中随机选择10k,但这种方法并不是最好的取样方法。
对于如何在保持原始总体的概率分布的同时,如何从68k样本中抽取嵌入(文本),有什么建议吗?对于一个样本子集,有多少个样本足够?
谢谢!
发布于 2022-04-24 21:45:07
一个选项是枚举每一段文本,然后从整数列表中随机选择一个整数。这将按比例抽样经验分布。
“多少样本?”取决于文本数据集的多样性。如果零件相似,那么至少30个样品的标准建议是适用的。如果每一件都是独一无二的,那么你必须看每一件。
https://datascience.stackexchange.com/questions/81005
复制相似问题