其他
常见SQL面试题知识点+使用技巧
SQL是用于数据分析和数据处理的最重要的编程语言之一,因此与数据科学相关的工作(例如数据分析师、数据科学家和数据工程师)在面试时总会问到关于 SQL 的问题。
SQL面试问题旨在评估应聘者的技术和解决问题的能力。因此对于应聘者来说,关键在于不仅要根据样本数据编写出正确的查询,而且还要像对待现实数据集一样考虑各种场景和边缘情况。
在这篇文章中,我将介绍 SQL 面试问题中常见的模式,并提供一些在 SQL 查询中巧妙处理它们的技巧。
一、问问题
举例:查找薪水最高的前 3 名员工。
这里你应该要求面试官说清楚“前三名”具体是什么意思。我应该在结果中包括 3 名员工吗?你要我怎样处理关系?此外,请仔细检查样本员工数据。salary 字段的数据类型是什么?在计算之前是否需要清除数据?
二、选哪一个JOIN
举例:查找每个学生参加的课程总数。(提供学生 id、姓名和选课的数量。)
SELECT student_id, COUNT(*) AS num_of_class
FROM class_history
GROUP BY student_id
)
SELECT
c.student_id,
s.student_name,
c.num_of_class
FROM class_count c
-- CASE 1: include only active students
JOIN student s ON c.student_id = s.student_id
-- CASE 2: include all students
-- LEFT JOIN student s ON c.student_id = s.student_id
三、GROUP BY
举例:计算每个学生在每个学年的必修课程平均 GPA,并找到每个学期中符合 Dean’s List(GPA≥3.5)资格的学生。
student_id,
school_year,
AVG(gpa) AS avg_gpa
FROM gpa_history
WHERE is_required = TRUE
GROUP BY student_id, school_year
HAVING AVG(gpa) >= 3.5
注意:每当在查询中使用GROUP BY时,都只能选择group-by列和聚合列,因为其他列中的行级信息已被舍弃。
四、SQL 查询执行顺序
FROM, JOIN WHERE GROUP BY HAVING SELECT DISTINCT ORDER BY LIMIT, OFFSET
五、Window 函数
RANK/DENSE_RANK/ROW_NUMBER:它们通过排序特定列来为每行分配一个排名。如果给出了任何分区列,则行将在其所属的分区组中排名。 LAG/LEAD:它根据指定的顺序和分区组从前一行或后一行检索列值。
举例:查找每个部门中薪水最高的前 3 名员工。
SELECT
*,
ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY employee_salary DESC) AS rank_in_dep
FROM employee_salary)
SELECT * FROM T
WHERE rank_in_dep <= 3
-- Note: When using ROW_NUMBER, each row will have a unique rank number and ranks for tied records are assigned randomly. For exmaple, Rimsha and Tiah may be rank 2 or 3 in different query runs.
六、重复项
例如:在上一个示例employee_salary表中,可以让雇员共享相同的名称。
举例:使用 employee_salary 表查找每个部门所有员工的总薪水。正确的解决方案是 GROUP BY employee_id,然后使用 SUM(employee_salary) 计算总薪水。如果需要雇员姓名,请在末尾与 employee 表联接以检索雇员姓名信息。错误的方法是使用 GROUP BY employee_name。
七、NULL
建议:确认示例数据中的关键列是否为nullable,如果可以,请利用IS(NOT)NULL,IFNULL和COALESCE 之类的函数来覆盖这些边缘情况。
八、交流
例如:你可以谈论对问题和数据的理解,说明你计划如何解决问题,为什么使用某些函数而不是其他选项,以及正在考虑哪些极端情况。
九、总结
首先要提问,收集所需的细节 在INNER,LEFT和FULL JOIN之间谨慎选择 使用GROUP BY聚合数据并正确使用WHERE和HAVING 了解三个排名函数之间的差异 知道何时使用LAG/LEAD窗口函数 如果在创建复杂的查询时遇到困难,请尝试遵循SQL执行顺序 考虑潜在的数据问题,例如重复和NULL值 与面试官交流你的思路
Xinran Waibel | 作者
王强 | 译者https://www.infoq.cn/article/fqEAvFfISfKthSIf4FZf?utm_source=rss&utm_medium=article
▼往期精彩回顾▼一篇阅读量不到200的文章,竟让字节跳动和百度撕上法庭为什么牛逼的程序员都不用 “ ! = null " 做判空?人脸识别“抓”错了人,他在监狱呆了 10 天
扫码关注码工小熊
和码工码农们一起搞事情!