查看原文
其他

谁说国产编译器没救了?这个 C/C++ 和 JavaScript 编译器来了 | 程序人生 2020

杨晓兵 CSDN 2020-10-16

自述 | 杨晓兵

编辑 | 伍杏玲

出品 | CSDN(ID:CSDNnews)


编者前记:
编译器是连接人类世界与机器世界之间的一座桥梁,它可将程序员理解的高级语言,转换成程序高效执行的机器码。在 C/C++ 编译器里,有 VC、Borland C++、GCC、Watcom C/C++ 等国外热门编译器,但属于国内自主研发的编译器较少。
毕竟开发一款实用的编译器不易,涉及前端词法、语法分析、语意分析、大量的编译优化等工作。有一支团队,不惜花费十余年精力完全自主研发出一款 YC 编译器和 YC 浏览器内核。
为何他们不遗余力地自主研发编译器和浏览器内核?这款编译器有何优点呢?下面由 YC 编译器的主要作者之一——杨晓兵,来讲述这背后十多年来的漫漫研发路。
以下为杨晓兵自述:
初衷:“做一些对软件行业进步有帮助的东西”

十多年前,我在中国科学院电子学研究所工作,参与设计一些硬件电路。当时我对硬件的兴趣远超软件,后创业专门从事软件工作。
我在创业的过程中发现,做此类软件虽能赚钱,但无论做得怎样,对软件科学的进步都无丝毫作用。尽管付出很多,却无成就感。
操作系统、数据库、编译器以及浏览器内核是不需要特殊专业知识的、开发难度非常大、最基础的软件产品。
我想从这几种软件中选择其中一项来自主研发,虽然不能肯定做出什么成就,但我有希望能做出一些对软件行业进步有所帮助的东西,使自己不枉踏入软件这个行业。根据当时的情况,我发现可先从浏览器内核下手,于是我除了维护原有产品外,把主要精力都投入到浏览器的研发中。

创新将 C 代码内嵌到 HTML

两年后,我们研发完成浏览器内核的基本功能,如 HTML 的解析和显示、JavaScript 脚本的执行等。
此时,我们发现 HTML 的标准越来越复杂,导致开发难度越来越大,如果按照这样的发展,浏览器内核将无法走入市场。
于是我重新思考:如果把 C 语言处理成像 JavaScript 脚本嵌入到 HTML 中,用内嵌 C 代码的 HTML 超文本做软件的人机交互界面,这款内核应该会有点竞争优势。
于是我们花费两年半的时间将标准 C 语言以 JavaScript 相似的方式在 HTML 中执行,并扩展了一个 HTML 标签:<user>,每个 user 标签都可以用属性 src 指定一个 C 源码文件,user标签的显示界面和所有行为都由它的 C 代码决定。
同时将 C 编译器做成一个函数,用该函数编译生成 C 程序的可执行代码,执行代码可被存入文件或直接执行。此时,我们将编译器取名为 YC 编译器,浏览器内核取名为 YC 浏览器。

三年又三年,漫漫研发路

随后,我们继续完善浏览器内核,将其中的一些内核代码独立出来用内嵌编译器动态编译执行,并将大部分内核源代码开源。
与此同时,我们又遇到一个问题:YC 编译器虽然编译速度较快,生成的却是字节码,执行速度慢,而且与原生代码相互调用(特别是回调函数)的处理相当繁琐。因此用当时的 YC 编译器难以胜任开源代码的编译工作。
为了解决自编译浏览器内核代码的问题,我们决定修改 YC 编译器,使它的字节码转换为原生的执行码,并扩展语法,使之具有少量的 C++ 语法。这个工作持续了三年。
三年后,YC 编译器功能增多,它提供一个函数像调用动态链接库一样直接调用 C 源码中的函数。此时,浏览器内核开源部分都可以用 YC 编译器实时编译执行了。
我们继续改进浏览器内核,将速度很慢的 JavaScript 字节码改为二进制原生代码,使 JavaScript 的执行速度约提高约 100 多倍。同时将浏览器内核代码全部模块化并开源,每个模块都用 YC 编译器动态编译执行,编译器的部分源码也开源(如内嵌汇编编译器源码、反汇编源码、C/C++ 字节码的执行源码等),所有的开源代码均由内嵌的 YC 编译器自动检测编译,动态执行。这个工作大概耗时四年。
开发至此,我想起谷歌和火狐浏览器都已开源,为什么不去看看它们的源代码呢?于是找到这两个浏览器的源码。
当时由于一些原因,我分析谷歌浏览器源码没有编译通过,而火狐的源码很顺利就编译成功了,于是我就走上了分析火狐源码之路。
下载的火狐源码由纯 C 代码和 C++ 代码两部分组成,经 Visual C++ 2013 编译生成一个 xul.dll 文件和一个 firefox.exe 文件。
我首先分析了它的 C 代码,将所有的输出函数全部改为类接口,并让 xul.dll 通过 YC 编译器函数 YC_cppLoad() 进行实时编译,然后用类接口调用 C 源码中的函数。这一步进行得很顺利,若修改了火狐的 C 代码,只要重新运行火狐浏览器便可生效,无需其它操作。
曾经的办公桌
接下来开始分析火狐 C++ 代码。YC 编译器只实现了少数几个 C++ 语法,不能编译火狐 C++ 代码,故分析起来非常困难。
为什么火狐 C 代码容易分析,而它的 C++ 代码难以分析呢?原来我用 YC 编译器将它的 C 代码生成汇编代码文件、变量结构定义文件、宏定义文件和预编译文件,通过这几个文件,大大减少了分析难度。
因此我再次决定修改 YC 编译器,使之完全支持 C++11 标准,因为火狐 C++ 代码几乎使用了所有的 C++11 语法特性。先使用 STL 标准模板库代码进行编译器的修改和调试,出乎预料,这个过程竟用了三年时间!
之后,我用 YC++ 编译器开始调试火狐 C++ 代码。原以为 STL 那么复杂的代码都可以编译通过并正确执行,火狐 C++ 代码应该能很快就编译通过。没想到,很多语法细节 STL 没有用到,而火狐 C++ 源码用到了。于是又继续修改 YC 编译器,对火狐 C++ 的各个模块进行编译,这个过程持续了一年多
虽然 YC 编译器可以编译全部火狐 C++ 代码,但如何生成执行代码呢?先从主程序 Firefox.cpp 入手,经整理,这个程序可用 YC 编译器生成执行代码 Firefox.exe,并能顺利运行。
由于火狐 C++ 各模块耦合紧密,很难拆分,经过一个多月的工作,仍未能将其拆成多个独立的源码模块以便于用 YC 编译器实时编译,动态执行,这也许是我对火狐 C++ 源码的整体结构还不甚清楚之故,只见其树木不见其森林。
杨晓兵
当我准备对火狐 C++ 代码进行再一次总体分析时,有个偶然的机会参与到一个学校管理系统的开发中,因原有的管理系统经常出故障,操作极其不方便。尽管没有开发 Web 服务程序的经历,但我做的软件与 Web 服务器有极大关系。
经了解,要开发这种管理系统需要的软件有:Apache 或 Nginx 服务器,数据库 MySQL 或其它,编程工具 ASP 或 JSP 或 PHP 等,于是启发我们自己研发这些工具。YC 的 C/C++ 和 JavaScript 编译器和 HTML 解析器正好派上用场。
经过一段时间,一个稳定的、可任意扩展的、多线程高并发的 HTTP 服务器就完成了。该服务器处理 YSP 文件生成网页传给浏览器。
YSP 是我设计的与 ASP、JSP 和 PHP 功能相似的一种网页编程语言。YC 服务器执行 YSP 文件中的内嵌 C/C++ 或 JavaScript 代码,生成 HTML 超文本传给终端设备。工具做好后,不久便做出了管理系统的雏形,这个雏形在发布的 YC 编译器中可见到。

做了上述这些工作后,我想是时候该写本书介绍一下 YC 编译器了,经过一段时间编写的《YC编译器—多语言程序设计》(暂名)即将出版。

当我把书完成后,便立即投入64位的C/C++和JavaScript编译器的开发,目前开发进展顺利,已进入测试阶段。

编者后记:

三年时间,可将一个呱呱落地的婴儿变成蹦蹦跳跳的幼儿,可将一名懵懂的职场新人变成沉稳的老兵。而杨晓兵团队沉下心,迎难而上,花费三年又三年、再一年、两年、四年的时间只为突破一个个技术难点,最终自研出 YC 编译器和 YC 浏览器内核。

在这过程中,杨晓兵坦言最大的挑战不仅是技术,还有思维的高度。这期间不仅有大量的研发工作,还为了优化,多次重写代码,让他坚持下来的是想为计算机软件科学的发展做贡献的匠心。

目前杨晓兵团队正在开发 64 位 C/C++ 编译器,谈及未来,杨晓兵表示先在国内推广,再走向海外。祝福杨晓兵。

YC编译器传送门:http://www.ycbro.com
【End】《原力计划【第二季】- 学习力挑战》正式开始!
即日起至 3月21日,千万流量支持原创作者,更有专属【勋章】等你来挑战
推荐阅读 

☞中国开发者真实画像:Java长盛,偏爱Windows操作系统,鲜少参与开源项目

☞新冠全球蔓延,AI+大数据拿什么拯救全人类?| AI 技术生态论

☞罗永浩欲直播带货,京东说可以帮忙联系

无需3D运动数据训练,最新人体姿势估计方法达到SOTA | CVPR 2020

如何与亦敌亦友的 null 说拜拜?大神原来是这么做的!

从哈希函数、哈希冲突、开散列出发,一文告诉你哈希思想与哈希表构造到底是什么!

你点的每一个在看,我认真当成了喜欢

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存