文章/答案/技术大牛

发布

社区首页 >问答首页 >NLP采访编码任务

问NLP采访编码任务
EN

Data Science用户

提问于 2022-01-27 09:56:06

回答 2查看 86关注 0票数 1

请评论下面的NLP面试编码任务，我已经为我正在寻找的数据科学NLP职位的候选人准备了。目标是检查候选人对NLP中向量文本表示的基本角色的理解，以及检查候选编码技巧及其利用Numpy提供的矢量化优化计算的能力。

我特别需要你的意见：

任务清楚吗？
在网上面试过程中，任务是否足以从头开始编写20-30分钟的粗略解决方案？
你会把这项任务分配给哪个级别--初级、中级或高级DS工程师？

任务：

# Write from scratch (you can only use Numpy arrays) 
# very basic and simple algorithm to classify sentences:

test1 = "cats like meat and fish is best for cats"
test2 = "train your mind reading good fiction, thrillers and other books"

# Use these sentences to train your classifier:

# Class 1
sent1 = "meat is a good food for all dogs and cats , dogs also like apples"

# Class 2
sent2 = "reading fiction books is a good food for mind and some thrillers are not"

为了解决这一问题，候选人应从头开始编写计数向量器和余弦相似函数。利用这些函数可以发现测试句与第1类和第2类的相似性，从而对测试句进行分类。标准化向量对于候选人来说是一个额外的好处。

我花了20分钟来编写代码，测试和描述这个任务。不确定NLP职位候选人可能需要多长时间。

cosine-distance

classification

nlp

回答 2

Data Science用户

发布于 2022-01-27 12:03:48

是的任务很明确。也许一个建议是改变语言，从构建一个分类器，以提供更多的细节。创建一个基于规则的clasifier，计算句子和所有给定类之间的余弦相似度，并将其分配给具有最大余弦相似性的类。
这将是一个非常好的摘录和测试编码以及对候选人的一般理解。如果一个人能够做到90%，他们应该是一个很好的候选人。
对于中级和高级DS工程师来说应该足够好。
如果你想让它复杂化，也许你可以要求他们编码TF-IDF，而不是数量向量。

票数 1

Data Science用户

发布于 2022-01-31 17:37:34

任务对我来说不清楚。大多数情况下，我不知道这个项目是否意味着完全独立。

“sent1”和“sent2”这两个句子是否打算作为单词向量生成的训练语料库的整体？还是打算为此使用外部数据集？
这两个句子'test1‘和'test2’是整个测试集吗？或者，分类器的意图是，对于那些可能与训练词没有共同之处的句子，应该使用分类器？

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/107511

复制

相似问题

问NLP采访编码任务
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NLP采访编码任务EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NLP采访编码任务
EN