查看原文
其他

数据科学家求职最重要的3个project是什么?

数据应用学院 大数据应用 2022-10-18

今天我们请来了数据科学行业的Jasper老师给大家介绍数据科学家行业的三个重要 Project 分别是什么?是做什么的?能学会什么?对求职有何帮助?


NLP (Natural Language Processing) Project

电商网站用户评价商业价值挖掘

 

我们在电商平台购买商品时,通常会阅读其他购买人的评论来得知评价者对于商品的评价是好评还是差评。然而如何通过机器的自然语言识别自动识别一段文字的情感评价,实现从数据到结果的自动化分析输入?如何借此挖掘电商网站近20年用户评价的价值?如何将NLP的潜在商业价值转化为现实的商业收益?在我们的NLP项目中,我们会通过结合不同的机器学习算法设计一项产品来帮助我们实现这一功能。我们将要设计的产品不仅仅可以实现对评论的情感评价,同时也会对其中的关键词进行高亮,并且通过简单的展示页面实现产品与用户操作上的交互。


通过抓取真实 Amazon Review Dataset 作为模型训练数据源,利用自然语言处理概念和流程对以万计的数据进行预处理,比如,词语切分(Tokenization)将句子拆分成为一个个单词,对拆分后的词语进行正则化(Normalization),利用 stemming 及 lemmatization 的技术将词语回复原型,也就是词干化。构建词袋特征(bag of words)并计算句子相似性。在以上预处理的过程中能体会并实践到怎么用NLP的思维去处理文本类的数据。


在接下来的过程中,将使用多种机器学习的算法统计模型(比如,logistic regression,naive bayes,SVM等)以及深度学习的框架对处理好的数据进行批量训练。在基于深度学习(Deep Learning)的NLP模型(LSTM)训练中,学习用 Tensorflow,Keras 等框架进行更有效率的情感计算和情感语义的分类。


最终我们会将训练好的模型在测试之后,使用一系列网页框架对于我们的产品实现交互界面并且展示产品,目的旨在于实现对每一条新进来的评论进行情感的评价。


在2018年NLP内容飞速发展的阶段,文本,语言,内容信息对于我们去分析数据,提供决策起着至关重要的作用。各个行业,产品都需要NLP的支持。地理地图信息,电影音乐推荐等等。



如果你初识数据科学和NLP领域,逢人自称“小白”,通过这次项目的学习和实践,你可以深度理解作为一个21世纪最性感职业 -- 数据科学家的逻辑以及需要的技能。基于实际数据和场景产出自己完整的作品,拥有属于自己的项目体验。如果你已混迹“数据科学”一两年头,此次项目将为您解锁数据科学更多可能性,利用NLP的学习让技术落地。skr skr!


Game Recommendation System Project

游戏推荐系统

推荐系统近几年发展十分火热,几乎所有的电子商务、社交网络、购物平台等都在不同程度上使用了推荐系统,在游戏平台中,推荐系统也是不可缺少的部分。在我们的游戏推荐系统项目中,我们基于Steam平台,对用户过去的游戏信息进行分析,根据游戏的受欢迎程度设计了推荐系统,为用户进行游戏推荐。用户同时也可以通过选择感兴趣的类别对结果进行过滤,对推荐结果进行进一步优化。学员将从产品定义、数据爬取、数据导入、数据分析、推荐系统平台设计、效果评估等方面,完成一系列完整的高水准产品研发过程。


通过使用 Request 以及 BeautifulSoup 工具包,实现对Steam游戏平台以及其他公开数据源的数据抓取,获得丰富的原始数据,并进行处理与存储。在这个过程中,能够增强同学们在对于原始数据的获取能力,夯实同学们作为一个数据科学家的重要基础。


在抓取了丰富原始数据之后,为了能够最大程度地从原始数据中得到有效信息,一个非常重要的步骤就是对这些数据进行特征处理和筛选。在这个过程中,同学们将会涉及到处理 300 多项特征的处理与筛选。这种大强度的数据特种处理会大幅度提高同学们对于不同特征的理解与影响。



在备好了所需的原材料,也就是处理后的数据,我们接下来的任务就是训练模型,从而能够充分的利用这些数据把相应的内容推荐给合适的用户。在这个环节,老师会教给同学们三种不同的模型,并且会带领大家上手实际去实现这三种模型。其中比较简单的一种就是同学们都非常熟悉的 Popularity-Based Algorithm,这个算法能够推荐给用户现在最热门的一些游戏,是我们比较基础的一个模型。至于其他还有什么高级的模型,就可以通过咱们的课程去进一步的了解了。


最终,我们有了产品数据,有了推荐结果和用户,那么最后一步就是把我们的结果呈现给用户,通过我们优化的推荐去刺激用户产生购买行为。那么在这一步我们会使用 Flask 搭建一个完整的应用构架来帮助我们呈现模型所输出的结果,这里的框架搭建会让同学们的数据科学家之路更为完整,产品的最终展示不仅仅能够帮助数据科学家完整地把结果展现出来,也能够在用户端实际地影响用户,是帮助公司盈利的一项重要技能。


随着电子商业的发展,各种各样的产品层出不穷,电影,电视,以及日常用品,逐个浏览海量商品越来越变得不切实际,这个时候就需要更加有效快速的推荐系统来帮助你根据你的历史信息筛选你所感兴趣的产品。这就需要作为数据科学家的我们实现出的推荐系统来帮助用户更快速的得到合适的产品信息, Yo~

FinTech (Financial Technology) Project

Fintech智能投资顾问


通常情况下,Lending Club (美国P2P借款机构)中包含了成百上千的贷款项目,让投资人难以进行选择。在我们的FinTech项目中, 我们会使用过去所学的知识来设计一款智能投资顾问的数据产品,通过机器学习技术帮助投资人在 Lending Club 中鉴别项目的价值,以确定最优项目来进行投资。当新的贷款项目进入平台后,我们的产品会自动分析项目的各项指标,从而筛选出最佳的投资项目。我们还会设计简单的产品展示页面,实现产品与用户操作上的交互功能。



在这个项目中我们会从lending club 的官网上得到公开的历史数据,并且会逐条了解每个特征的意义,从而能够更加充分的利用这些特种中的信息,同时我们也会通过 API call 得到Lending Club 的最新数据,并且对其进行分析,所以是一个真正意义上的基于实际的项目。在超过1,320,000 条以及超过 100 个不同特征的大量的数据中,我们会对其中的特征进行分析进而筛选出适合我们使用的特征。


通过数据处理过程,我们的模型将会得到优质可用的数据。在这个基础上,我们训练几个不同的机器学习模型对我们的数据进行分析和预测,如果同学们对机器学习很感兴趣,那么这将会是一个可遇不可求的机会去在实际生产实践中去部署一个聪明的机器学习模型来对实际的商业内容产生输出。在这个过程中,我们会接触到一个目前在工业街上已经被广泛使用的高级模型,叫做 Gradient Boosted Regression Trees ( GBRT ) 的算法,至于老师还会给同学们介绍什么其他的适合我们这个项目的机器学习算法,同学们可以通过上课去了解更多的信息。


在我们的智能投资顾问,也就是我们的机器学习模型,成型了之后,我们会将这个投资顾问部署到一个基于 Flask 架构的网页应用当中,从而将其完善成一个完整的应用,能够真正的投入到实际的使用之中。在部署这个应用的过程中,同学们会学习到如何使用 Flask 这个工具。学好这个工具也能够帮助同学们在今后的生产生活学习中将其他同学们感兴趣的内容部署成一个实际可以发布的网页应用。


在同学们部署好之后,同学们就已经拥有一个可以帮助你预测每一笔借贷请求的智能投资顾问,将能够对 Lending Club 平台下的项目进行评估与最佳投资项目的选择。




我们的很多个学员在上了我们的数据科学课程之后

拿到了大公司的 OFFER

在我们的导师和他们交流的时候

学生们说了这些。。。



是不是心动了!

快来报名我们的数据科学训练营吧!

就是现在

课程时间:扫描下方二维码问小姐姐哦


课程周期:16周


课程形式:

Online Webinar 实时互动 + 视频回放


课程时间:

Saturday 13:00 – 15:00 PT

Saturday 17:00 – 19:00 PT

Sunday   17:00 – 19:00 PT

Tuesday  17:00 – 19:00 PT 


助教知识点答疑:

Wednesday

17:00 – 19:00 PT

Friday

15:00 – 17:00 PT


助教作业答疑:

Saturday 15:30 – 16:30 PT


100 节精选先修课打基础,8 周干货满满的数据科学课程带你变身数据达人,10 位 "FLAG" 名师为你授业解惑,3 个 industrial project 带你体验实战打码到天明的乐趣,什么?还不够刺激?我们带你冲顶 Kaggle 大赛,给你内推,帮你改简历,给你个性化职业辅导,最有经验的导师帮你 mock interview 给你建议,你想要的,我们都能给你。


部分知识点概览

<<  左右滑动查看其他知识点  >>






还等什么?快来咨询吧!

报满即止






往期精彩回顾


Salesforce的CRM系统,如何提高不同的营销行为的转化率?

除了调戏Siri 和 Alexa,社交媒体领域里NLP还能做什么?

数据分析小丫头片子,还有四副面孔呢?!

商科背景的我是如何发挥专业特长成为公司不可替代的商业分析师的?

如果不知道这10点大佬忠告,Kaggle比赛你压根别想进Top 10%!


点「在看」的人都变好看了哦

点击阅读原文,查看更多详细信息!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存