文章/答案/技术大牛

发布

社区首页 >问答首页 >文本数据集(NLP)抽样方法

问文本数据集(NLP)抽样方法
EN

Data Science用户

提问于 2020-08-30 19:27:51

回答 1查看 482关注 0票数 1

我正在处理两个文本数据集，一个是68k文本样本，另一个是100k文本样本。我已将文本数据集编码为bert嵌入。

Text sample > 'I am working on NLP' ==> bert encoding ==> [0.98, 0.11, 0.12....nth]
               # raw text 68k                              # bert encoding [68000, 1024]

我想在这些嵌入上尝试不同的自定义NLP模型，但是dataset很大，可以快速测试模型的性能。

要快速检查不同的模型，最好的方法是从整个种群中获取一小部分数据集，并将其提供给不同的算法。最后，选择最优算法对整个数据集进行拟合。

我计划至少从68k数据集中抽取10k样本子集，从100 k数据集中抽取10k子集。我可以从68k中随机选择10k，但这种方法并不是最好的取样方法。

对于如何在保持原始总体的概率分布的同时，如何从68k样本中抽取嵌入(文本)，有什么建议吗?对于一个样本子集，有多少个样本足够？

谢谢!

statistics

machine-learning

classification

nlp

dataset

回答 1

Data Science用户

发布于 2022-04-24 21:45:07

一个选项是枚举每一段文本，然后从整数列表中随机选择一个整数。这将按比例抽样经验分布。

“多少样本？”取决于文本数据集的多样性。如果零件相似，那么至少30个样品的标准建议是适用的。如果每一件都是独一无二的，那么你必须看每一件。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/81005

复制

相似问题

问文本数据集(NLP)抽样方法
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本数据集(NLP)抽样方法EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本数据集(NLP)抽样方法
EN