首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NLP采访编码任务

NLP采访编码任务
EN

Data Science用户
提问于 2022-01-27 09:56:06
回答 2查看 86关注 0票数 1

请评论下面的NLP面试编码任务,我已经为我正在寻找的数据科学NLP职位的候选人准备了。目标是检查候选人对NLP中向量文本表示的基本角色的理解,以及检查候选编码技巧及其利用Numpy提供的矢量化优化计算的能力。

我特别需要你的意见:

  1. 任务清楚吗?
  2. 在网上面试过程中,任务是否足以从头开始编写20-30分钟的粗略解决方案?
  3. 你会把这项任务分配给哪个级别--初级、中级或高级DS工程师?

任务:

代码语言:javascript
复制
# Write from scratch (you can only use Numpy arrays) 
# very basic and simple algorithm to classify sentences:

test1 = "cats like meat and fish is best for cats"
test2 = "train your mind reading good fiction, thrillers and other books"

# Use these sentences to train your classifier:

# Class 1
sent1 = "meat is a good food for all dogs and cats , dogs also like apples"

# Class 2
sent2 = "reading fiction books is a good food for mind and some thrillers are not"

为了解决这一问题,候选人应从头开始编写计数向量器和余弦相似函数。利用这些函数可以发现测试句与第1类和第2类的相似性,从而对测试句进行分类。标准化向量对于候选人来说是一个额外的好处。

我花了20分钟来编写代码,测试和描述这个任务。不确定NLP职位候选人可能需要多长时间。

EN

回答 2

Data Science用户

发布于 2022-01-27 12:03:48

  1. 是的任务很明确。也许一个建议是改变语言,从构建一个分类器,以提供更多的细节。创建一个基于规则的clasifier,计算句子和所有给定类之间的余弦相似度,并将其分配给具有最大余弦相似性的类。
  2. 这将是一个非常好的摘录和测试编码以及对候选人的一般理解。如果一个人能够做到90%,他们应该是一个很好的候选人。
  3. 对于中级和高级DS工程师来说应该足够好。
  4. 如果你想让它复杂化,也许你可以要求他们编码TF-IDF,而不是数量向量。
票数 1
EN

Data Science用户

发布于 2022-01-31 17:37:34

任务对我来说不清楚。大多数情况下,我不知道这个项目是否意味着完全独立。

  1. “sent1”和“sent2”这两个句子是否打算作为单词向量生成的训练语料库的整体?还是打算为此使用外部数据集?
  2. 这两个句子'test1‘和'test2’是整个测试集吗?或者,分类器的意图是,对于那些可能与训练词没有共同之处的句子,应该使用分类器?
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/107511

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档