独家!中国量化私募面试Q&A系列——鸣石投资
量化投资与机器学习公众号 独家出品
量化投资与机器学公众号在2021年又双叒叕开启了一个全新系列:
这个系列对于国内量化圈来说意义深远!公众号邀请了各大知名量化私募一起参与此系列的创作。
面试题都是独家一手资料,多部门层层把关、多角度精心编写!
回答部分题目且通过者,公众号会还联合每家机构提供形式多样的精彩福利和直通绿卡!
第二期出题方:
鸣石投资(Mingshi Investment)成立于2010年,是目前国内百亿级量化私募基金管理人中成立最早,少数拥有全频段交易信号的团队。鸣石参考海外对冲基金的架构搭建自身投研体系,注重因子研发的金融学逻辑并叠加AI算法。十年来,鸣石坚持在人才及硬件上的持续投入,基于集体的聚力不断实现策略的迭代升级。
本期,鸣石特设 Tech Talent、AI Talent 近期两大热招岗位方向的面试题内容。
Tech Talent:精通C++/Python/Golang,优秀的开发能力及项目管理能力。
AI Talent:AI相关研究方向PHD 或 大厂高级及专家级别算法工程师
鸣石提供薪酬50%+涨幅的Special Offer,期待与你Win Together!
Tech Talent
1、初出茅庐
在 linux 中的 top/htop/uptime 命令运行后的 Load Average 具体指什么?Load Average 高是否意味着CPU遇到瓶颈?可以借助哪些工具来验证核心问题?
答案
Load Average 是指当前系统中处于运行或不可中断的进程数。
Load Average 高并不完全意味着 CPU 遇到瓶颈,如果当前系统中处于不可中断的进程比较多,那实质上CPU并没有被完全利用,可能是进程在等待磁盘IO、网络IO或者其他导致不可中断的因素。
可借助 code review 或者 linux 基础工具sar/vmstat/iftop/dmesg/lsof/dtrace/strace 来排查问题。
现有A股上市公司平安银行最近10年的资金流入金额、资金流出金额。找到一个连续时间段(至少包含1天),期间的资金总净流入金额为最大,返回其最大值。并说明算法的时间复杂度。
答案
采用动态规划法:
步骤1:按时间顺序从先到后,分别计算每日的净流入金额mon[0], ..., mon[N-1]
步骤2:设状态f(i)表示截止第i天为结尾的连续时间段的最大总流入金额,则状态转移方程如下:
解释:当f(i-1)<=0时,f(i-1)对应的序列对f(i)是没有贡献的,所以直接从第i天重新开始计算。反之,f(i-1)对应的序列对f(i)是有贡献的,需要加入到f(i)的计算中。
步骤3:找到某一个连续时间段的最大总流入金额 target:
时间复杂度:O(N)
Tips:此题有多种解法,分治法、贪心法,皆可达到时间复杂度O(N)。
现有1000*2000的整数矩阵,以及10000次矩阵操作。
矩阵操作支持两种方式:
1、更新某一具体位置的值(例如:A[0][0] = 100)
2、打印某一区域的和(例如:打印顶点(1,2)、(30,50)围成子矩阵的所有元素的和)
需要高性能的实现该矩阵上述的两种操作,并说明算法的时间复杂度。
答案
需大家自行作答,请将结果提交文末邮箱,精彩福利等着你!
现有 台老旧机器,每台配置从1C【物理核】1G RAM到 32C【物理核】128G RAM不等。每个机器都有一个空闲算力指标 ;
同时有一个大数生成器,随机生成10~100亿个int64型数,每生成一个数后都将该数发往数据分发中心Station。
Station不做任何计算,直接将该数转发给下游计算节点。在每个计算节点上都做同样的计算 ,其中 的逻辑此处可先暂时不考虑,默认完成一次f计算只需要1C1G的系统资源。计算完成后将 存储到某一个存储介质里。
小明看到这个问题后,画了如下的一个系统架构图,请问:
1、在这个系统架构里,有哪些地方容易成为系统瓶颈?
2、如果需要优化这个业务场景,还需要有哪些细节问题需要确认清楚?
3、如果现在 中 不仅仅是generator生成的数,还会是一个变长的string,长度在0.5K~10K,那当前这个系统架构中哪些环节会成为瓶颈?
4、如果现在 的一个银行系统转账的操作,即generator不是生成一个数字,而是生成一个指令,从A转账金额M到B,那这个系统中哪个环节最为重要,或者这个系统中哪些地方会造成业务黑洞【即转账者认为已经转出去了,但收款方一直未收到】,如何避免这样的业务黑洞?
答案
需大家自行作答,请将结果提交文末邮箱,精彩福利等着你!
AI Talent
1、场景定义
假设待预测值y_true是(0,1)内的连续变量,使用简单MLP网络预测该值。
方案1:使用mse loss预测。
方案2:将区间等分为10份,每个y_true对应一个分类,使用crossentropy loss。
如果不计区间分段造成的截断误差,两种方案哪种适合,为什么?除了这两个方案,你是否能提出一种更好的方案?(可以假定其他先验条件)
答案
需大家自行作答,请将结果提交文末邮箱,精彩福利等着你!
有三个文本abc,a和b的余弦相似度是0.9,b和c之间是0.95,问a和c之间余弦相似度的范围?
答案
需大家自行作答,请将结果提交文末邮箱,精彩福利等着你!
试题答案投递方式&福利
福利
AI Talent 方向选出解题最优的3名投递者,给予如下现金奖励:
第1名 3000元
第2名 1000元
第3名 500元
Tech Talent 方向选出解题最优最优的3名投递者,给予如下现金奖励:
第1名 3000元
第2名 1000元
第3名 500元
同时,参与试题投递者将有机会参加『鸣石开放日』活动,你将在开放日当天解锁:
鸣石欢乐下午茶
鸣石周边
量化讲座(与你分享有关因子研发,AI赋能量化交易,量化领域所需IT技术栈等话题)
提交邮箱:talent2021@mingshiim.com
提交内容:姓名+联系方式+你的简历*+Tech/AI+答案
*大家自愿提交,如果你想加入鸣石的话,这是一个很重要的加分项哦
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。