Data Mining & NLP Internship in BaiFenDian Infotech

2017年10月-2018年3月,我在百分点自然语言处理组担任数据挖掘实习工程师

求职

面试

  • 其实面试真的很糟糕…
  • 因为是第一份实习,而且当时真的是很弱的小白一只(现在也是= =),所以面试几乎都没有答上来。
  • 面试分成笔试、技术一面、技术二面和HR面。

笔试

印象最深的是第一题,问有一个信号发射器,每次以不均等的概率发射0或1信号,如何组合出一个以均等概率发射0或1的信号发射器?如何组合出一个以均等概率发射0…N的信号发射器?然后…我很想当然地以为是像N次独立二项试验一样组合概率就可以,其实是要模拟二进制数。后面记不太清楚了,基本都是NLP编程题,读取文本之类的。还记得有一个算法题是要优化排序,然而我直接写用list.sort()不就好了…然后技术面就被问了list.sort()内部用的什么排序算法= =…最后就是一些机器学习的概念题,KNN和Kmeans概念之类的,比较简单。

技术面

  • 一面基本上围绕笔试题,被疯狂吐槽了一番各种错误,基本上每道题都有错…后来坚定了我刷leetcode的决心…
  • 二面问了一些实际开发的内容,先是介绍自己做过的SMP CUP 2017,再是问了诸如神经网络怎么防止过拟合等问题。说实话,这种沟通型面试我还是挺擅长的…各种嘴炮护体。

工作

  • 工程方面:论坛帖子分类、检索式社区问答系统搭建
  • 算法方面:利用N-gram和CNN实现相似句对判断、问答对质量评估,都是在问答系统搭建里面做的子模块
  • 客户方面:一个远程电话支持,一个客户现场技术支持(我一个小小的实习生,怎么就跟着去做了售前呢…可能是我的嘴炮能力被发现了= =)

感想

这个行业挣钱多不多?

多。2017年可以说是中国的人工智能和机器学习元年。我们每天的数据中有80%是文本数据,所以以NLP为基础的数据处理业务增长迅速。大量的公司在分蛋糕,并且分得很轻松,俗称“降维打击”:大量的公司只是觉得人工智能高大上,实际上弱AI和机器学习很简单,各种工程用的都是github上的开源代码…

工作具体干什么?

两类工作:业务线与产品线。业务指的是接销售、产品给的项目,然后做定制化开发;当然有的时候也包括售前支持,比如说去客户现场做技术支援。产品线指的是开发通用产品,比如说我一直负责开发的自动问答系统,甚至还包含了一点点算法研究的意味在里面。

能力要求怎么样?

三个能力最重要:自己网上找资料的能力,熟练的代码能力和持续加班的身体能力。

要怎么培养能力?

“偷看”公司以前的积累(来自前辈的教导~)
多和同事聊天,勤问勤练;好记性不如烂笔头,把每天的事情都总结下来,调研+开发等
多写代码,养成优秀的代码习惯:加注释+readme!!!
想清楚自己的未来发展方向:工作?升学?但不管哪种,建议多读书..很多时候有啥不理解的,一看相关论文就有了思路。所以说我感觉这个领域读深一点真的没坏处,需要知识积累。

不足

百分点以前一直是一个大数据工程公司,现在开始转型AI。正因如此,并且由于企业需要生存,它很多时候经营思路还是做工程,很少有沉下心来做算法研究的机会。我认为自己在工程上已经学到一点皮毛了,尽管很轻浮,但我还是希望能去一个研究型的AI公司感受一下算法研究工程师的工作∠( ᐛ 」∠)_~