不会起名字的医学和分子生物学
一、不是我不明白、是对“方言术语”太无奈
就以基因领域为例,其实学到最后发现基因的知识远不像最初表现的那么难,尤其是计算机和信息专业领域出身的人,更应该容易理解。但要是在现在的方言术语基础上,很可能会被绕的晕头转向很长时间也不得要领。
二、基因
我们先说下计算机领域的二进制信息。一段二进制的信息就是一串二进制的0、1两个不同数字形成的串。你要想读明白这些串是什么意识,首先得像文字断句一样,知道几个0、1的串是一组,这就是“位长”的问题。一般来说,如果是8位长,就是8个0、1是一组。一切数字或信息都按8个一组的0、1数字进行编码。这样“断句”以后,就很好理解了。 如果用十进制信息,就是十个不同的数字形成的串来表达。如果用十六进制,就是十六个不同的字符组成的串来进行表达。 基因其实几乎一样的,只是它是用最多5种基本的符号(碱基),而每种基因里最多是4种不同的符号来表达。双链的DNA和单链的RNA有一个符号不同。以下就是全部5种不同的基因基本符号:
A 腺嘌呤
G 鸟嘌呤
C 胞嘧啶
T 胸腺嘧啶 只用于DNA
U 尿嘧啶 只用于RNA
这本来并不复杂,可是你要是只去按他们方言的术语去理解,那就完蛋了。
三、一个概念包含N个错误的“密码子”
最初见到密码子这个概念时,相信绝大多数人都被搞晕了。首先见到的是密码,这个显然是引用信息和情报领域的概念,由此也使很多人不断在说“遗传密码”。但如果你真的是搞密码学专业的人去研究遗传密码和密码子等问题时,就全蒙了。因为一说到密码,就得有明文、密码、密钥、密文等。用密码对明文加密形成密文,然后用密钥对密文解码恢复出原始的明文。可是遗传密码的密文、密钥、明文、密码各是什么?完全是一头雾水。其实就只有明文,根本不存在什么加密、解密过程。用“遗传密码”这个术语,简直就是故意让你在迷宫里走了一大圈,最后才发现真相根本就不在迷宫里,而就在你进入迷宫的入口处。 那“密码子”是什么东西?其实就在前面说了,基因信息就是一串不同字符形成的长串。这个串有多长?人的基因双链DNA有30多亿个“基本字符”,展开来有2米多长。就像一句没有标点符号的长串文字,你要读懂它,得首先学会给它“断句”。记得上中学时语文老师讲了一个有关断句的笑话。一个富人家为自己的孩子请了一个私塾,就是私人老师。他们家是要管老师吃饭的,那得先说说饭菜的标准是什么。以前的语言是没有标点符号的,得自己学会断句。老师就写了一个字条:无鸡鸭也可无鱼肉也可青菜一般足矣。富人一看,这标准很低嘛,鸡鸭鱼肉都不要,只要青菜就够了。他的断句是这样:无鸡鸭也可,无鱼肉也可,青菜一盘足矣。可当饭菜上来后,老师不干了,老师的断句是:无鸡,鸭也可,无鱼,肉也可,青菜一般足矣。人家意思是鸡鸭中必有一样,鱼肉中必有一样,再加一盘青菜,这是两荤一素的标准。所以,断句不同,相同的字符串就会造成完全不一样的含义。无论自然语言、计算机的语言还是基因的语言,都需要“断句”,才能有效理解。 计算机信息的断句很简单,位长一般都是一样的,你只要确定从什么地方开始,什么地方结束,中间全部用相同位长分别截开,就成有意义的信息了。基因也是一样,它的位长是3,就是三个基本的基因符号(碱基)一组来读取。每个3位一组的单元,就是一个有意义的基本信息单位。就是这么简单的一个玩意,竟要用“密码子”这样莫名其妙的方言术语来表达,这分明就是不想让人好好理解嘛。 我个人认为计算机信息领域的“位长”概念是比较好和科学的,因为长度固定,因此用位长这个概念可以很好地表达本质。基因采用4个不同的符号,它们不同的组合,如果按计算机信息技术的概念,应当叫“编码”。以3的位长进行编码,所以就有4的3次方倍,等于64种不同的编码。每3个碱基组成的有意义的编码,前面两个碱基表达不同种类的氨基酸。后面我们还会谈到,基因领域的人对“编码”这一概念的使用也是混淆得云天雾地。
四、“中心”在哪里?
我们再来看看基因科学里最重要的知识点之一,就是所谓“中心法则”。它最初是1958年由弗朗西斯·克里克于提出的。什么意识呢?就是DNA可以变成RNA,RNA可以变成蛋白质。但蛋白质不能反过来变成RNA和DNA。最开始弗朗西斯·克里克提出中心法则的时候,还没发现RNA可转成DNA。
D-D转录,是从DNA到DNA。
R-R转录,是从RNA到RNA。
D-R转录,是从DNA到RNA。
R-D转录,是从RNA到DNA。
R-P转录,是从RNA到蛋白质。
随着基因科学的发展,人们发现DNA、RNA、蛋白质三者两两之间,和它们自己与自己之间都存在各种不同类型的作用。这样就更不知道“中心”在哪里了?但不同方向转录的过程原理不同,这还是永远成立的。因此,叫“有向原则”更为科学和严谨。
五、编码和模板
DNA是双链,在转录成RNA时,一条链可以实现转录功能,另一条链不能。基因方言术语把能实现转录的一条链称为“模版链”或“反义链”,不能实现转录的一条链叫“编码链”或“有义链”。但是,模版和编码在其他学科里是什么含义呢?“模版”是很多学科里都用到的,模版应该是不动的,以它为基础为复制出与模版相一致的产品。而编码一般是一个动词,指通过一定规则对其他对象进行编码。所以,基因科学里把两条链的名称搞反了。
有义链也叫正义链,刚开始我还以为这一条链是正义的,另一条链是非正义的呢,原来非正义的那条链它叫“反义链”。
DNA的双链从信息论角度说,信息内容本质上是完全等价和一样的。就是在DNA双链上每个碱基对都是互补的。如果一条链上的碱基是C,另一条链上就是G。反过来也是,一条链上是G,另一条链上就是C。一条链上是A,另一条链上就是T,一条链上是T,另一条链上就是A。这就是为什么DNA的双链被解旋酶(你就把它看成切开DNA双链的剪刀)切开后,每一条链都可以独立地转录形成完整的相同DNA。在DNA到DNA复制时,两条链都可以进行,按现在方言术语是都可以作为复制的模版链。但在从NDA到RNA转录时,只有其中一条链可以转录成RNA链,另一条链不行。那么,如果我们用另一套普通话专业术语,看看是不是特别简单清楚:
在D-D转录时,两条链都可以作编码链(此处是指可以转录的)。而在D-R转录时,只有其中一条链是RNA编码链,另一条链是非RNA编码链。这不就完了吗?多简单的事儿。并且,如果你这样来理解,很多按照普通话术语已经成熟的知识形成的全新思路就会喷涌而出。例如,非RNA编码链并非绝对地就不能转录成RNA,因为既然在双链DNA中单独每一条链都可以转录成完整的DNA,那么,非RNA编码链可以先转录成完整的DNA,其实就是生成了RNA编码链与自己配对形成完整的DNA。然后再以这个RNA编码链为基础不就可以转录成RNA了吗?
还有蛋白质里有个种类叫伴娘蛋白(chaperone)。说到”伴娘“,马上人们就会想到“新娘蛋白”“新郎蛋白”“伴郎蛋白”在哪里?可惜都没有,只有伴娘一个人在那里参加婚礼。
六、把不会起名字进行到底
除以上概念混淆地起名字以外,这个领域还经常把一些本来是指通用类型的概念给安到一些特定的对象上。这是非常要命的,会给以后其他研究的发展带来极大困扰。 例如染色体。”染色“本来是一种相当通用的化学和分子生物学的测量方法,就是通过染色剂染色,使得需要进行测量的物质更容易被看到。但基因科学里却把一类特定的对象叫染色体,好像染色是它的专利一样。 我们最终回到中国疫情相关的命名上吧,可以说一直就是采用这种不会起名字的方法去命名。在出现SARS的时候,搞出一个“非典型性肺炎”。“典型”和“非典型”这是通用性的形容词,而且是变化的。过去非典型的,过一段时间认识清楚了就成典型的了。可是就这么“非典”一直叫下来。 这次出现COVID-19疫情和对应的SARS-CoV-2病毒,从开始到最终确定名称的确有一个过程,中间换过几个名字。世卫组织最终都已经有正式的相对比较科学的名称了,但中国却一直用“新型冠状病毒肺炎”(新冠肺炎,新冠病毒)的名字。“新型”“非新型”或“典型的”都是与时间相关的通用形容词。为什么有人认为石正丽2年前的论文里就在研究这个“新型冠状病毒”了,纯属起名字错误造成的误解。 冠状病毒有很多种,分为四个属:α、β、γ、δ。第一个冠状病毒是在1937年发现的,从鸡身上分离出来。但直到2002-2003年的SARS流行之后才开始引起医学界重视。在此过程中不断有新型的冠状病毒被发现,未来肯定还有更多新型冠状病毒被发现。你现在把这个特定的病毒叫“新冠病毒”,“非典型”都已经给占用了,那以后再遇到更新的冠状病毒怎么办?总不能叫“非典新型”“新非典新型”吧?
汪涛
“人类第三次科学革命”倡导者,纯科学理论体系创始人,历经30多年研究和实践形成科学经济学体系。
上海析易船舶技术有限公司联合创始人、总经理
云铝股份(000807)独立董事
浙江宇视科技 顾问
中央民族大学客座教授
作品
《科学经济学原理——看见看不见的手》
《实验、测量与科学》
《超越战争论——战争与和平的数学原理》
《即将来临的粮食世界大战》
《纯电动:一统天下》
《生态社会人口论》
《通播网宣言》
购买《科学经济学原理》,
请点击“阅读原文”