首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本数据集(NLP)抽样方法

文本数据集(NLP)抽样方法
EN

Data Science用户
提问于 2020-08-30 19:27:51
回答 1查看 482关注 0票数 1

我正在处理两个文本数据集,一个是68k文本样本,另一个是100k文本样本。我已将文本数据集编码为bert嵌入。

代码语言:javascript
复制
Text sample > 'I am working on NLP' ==> bert encoding ==> [0.98, 0.11, 0.12....nth]
               # raw text 68k                              # bert encoding [68000, 1024]

我想在这些嵌入上尝试不同的自定义NLP模型,但是dataset很大,可以快速测试模型的性能。

要快速检查不同的模型,最好的方法是从整个种群中获取一小部分数据集,并将其提供给不同的算法。最后,选择最优算法对整个数据集进行拟合。

我计划至少从68k数据集中抽取10k样本子集,从100 k数据集中抽取10k子集。我可以从68k中随机选择10k,但这种方法并不是最好的取样方法。

对于如何在保持原始总体的概率分布的同时,如何从68k样本中抽取嵌入(文本),有什么建议吗?对于一个样本子集,有多少个样本足够?

谢谢!

EN

回答 1

Data Science用户

发布于 2022-04-24 21:45:07

一个选项是枚举每一段文本,然后从整数列表中随机选择一个整数。这将按比例抽样经验分布。

“多少样本?”取决于文本数据集的多样性。如果零件相似,那么至少30个样品的标准建议是适用的。如果每一件都是独一无二的,那么你必须看每一件。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/81005

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档