用 Tab 还是 Space？谷歌程序员分析了 10 亿份代码

该内容已被发布者删除该内容被自由微信恢复。

文章于 2017年6月3日被检测为删除。

查看原文

被用户删除

其他

用 Tab 还是 Space？谷歌程序员分析了 10 亿份代码

2016-10-23 程序员的那些事

（点击上方公众号，可快速关注）

英文：Felipe Hoffa
译者：伯乐在线 - 小米云豆粥
链接：http://blog.jobbole.com/105381/

【伯乐在线导读】：用 Tab 还是 Space？事关程序员的信仰之争。

2015 年程序员 Uku Pattak 分析了 GitHub 上多种语言的热门项目（star 数量高）中使用 Tab 和空格的对比情况。

2016 年，谷歌程序员 Felipe Hoffa 分析了 10 亿份代码。分析结果可先看下图：

40万个repo, 10亿份代码文件, 14TB 代码

规则：

数据来源：已存储在 BigQuery 上的 GIthub 文档
Star 很重要：只选择了2016年1月到5月之间加星量（star）在前 40 万个的项目
排除小文件：代码文件至少得有 10 行代码，开始的字符是：空格或者制表符
去除冗余：不管它们存在于多少个项目中，相同的程序文件只算一次
一个文件一票：有些代码文件中混用了制表符和空格。如果该文件制表符用的多，那它就算制表符一票。反之亦然。
只考虑使用广泛的编程语言：我只选取了有下面这些后缀的文件：(.java, .h, .js, .c, .php, .html, .cs, .json, .py, .cpp, .xml, .rb, .cc, .go)

数据

实现方法

我使用了已有的 [bigquery-public-data:github_repos.sample_files] 表。这个表列出了排名最前的 40 万个项目。从中提取了含有被广泛使用的语言后缀的文件。

SELECT a.id id, size, content, binary, copies, sample_repo_name , sample_path
FROM (
  SELECT id, FIRST(path) sample_path, FIRST(repo_name) sample_repo_name
  FROM [bigquery-public-data:github_repos.sample_files]
  WHERE REGEXP_EXTRACT(path, r'.([^.]*)$') IN ('java','h','js','c','php','html','cs','json','py','cpp','xml','rb','cc','go')
  GROUP BY id
) a
JOIN [bigquery-public-data:github_repos.contents] b
ON a.id=b.id

864.6s elapsed, 1.60 TB processed

由于我要联结分别有 1.97 亿行和 0.7 亿行的两个表（一共有 1.6T 数据量），这个过程花费了不少时间。我把结果放在这里了[fh-bigquery:github_extracts.contents_top_repos_top_langs]，你们就不用重新跑这个过程了。

在 [contents] 表格中，包含了去冗余之后的所有文件。下面的命令行用来检查文件数量和大小。

SELECT SUM(copies) total_files, SUM(copies*size) total_size
FROM [fh-bigquery:github_extracts.contents_top_repos_top_langs]

10 亿文件，14TB代码

然后开始按照前面提到的规则排序：

SELECT ext, tabs, spaces, countext, LOG((spaces+1)/(tabs+1)) lratio
FROM (
  SELECT REGEXP_EXTRACT(sample_path, r'.([^.]*)$') ext,
         SUM(best='tab') tabs, SUM(best='space') spaces,
         COUNT(*) countext
  FROM (
    SELECT sample_path, sample_repo_name, IF(SUM(line=' ')>SUM(line='t'), 'space', 'tab') WITHIN RECORD best,
           COUNT(line) WITHIN RECORD c
    FROM (
      SELECT LEFT(SPLIT(content, 'n'), 1) line, sample_path, sample_repo_name
      FROM [fh-bigquery:github_extracts.contents_top_repos_top_langs]
      HAVING REGEXP_MATCH(line, r'[ t]')
    )
    HAVING c>10 # at least 10 lines that start with space or tab
  )
  GROUP BY ext
)
ORDER BY countext DESC
LIMIT 100

16.0s elapsed, 133 GB processed

分析 133G 代码只有 16 秒？我爱 BigQuery。

亮点在末尾视频

最后 Felipe Hoffa 还贴上一个视频

在热播剧《硅谷》第三季中，不仅有 Tab 和 Space 之争，也有 Vim 和 Emacs……结果导致一对程序员做不成情侣了

https://v.qq.com/txp/iframe/player.html?vid=h0310ie8zhc&width=500&height=375&auto=0

译者简介

小米云豆粥 : 数据科学进修中，Python小码农。

关注「程序员的那些事」

看更多精选文章

↓↓↓

反向激励，在加速这个社会的黑化

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

多人约P大瓜！旧爱怀孕上线开撕，曝聊天记录！小白龙报警，官宣恋情！

用 Tab 还是 Space？谷歌程序员分析了 10 亿份代码

40万个repo, 10亿份代码文件, 14TB 代码

最后 Felipe Hoffa 还贴上一个视频

小米云豆粥 : 数据科学进修中，Python小码农。

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

多人约P大瓜！旧爱怀孕上线开撕，曝聊天记录！小白龙报警，官宣恋情！

生成图片，分享到微信朋友圈

用 Tab 还是 Space？谷歌程序员分析了 10 亿份代码

40万个repo, 10亿份代码文件, 14TB 代码

最后 Felipe Hoffa 还贴上一个视频

小米云豆粥 : 数据科学进修中，Python小码农。

您可能也对以下帖子感兴趣