写给小白的AI入门科普

曾嵘胡扯的地方

2024-10-09

Editor's Note

好的科普文章的优点，就是让你在仅拥有基础知识储备的前提下，也能看得懂。

The following article is from 鲜枣课堂 Author 小枣君

█ 到底什么是AI？

AI，是artificial intelligence的缩写。

Artificial，很多同学认字认半边，会以为是艺术（art）的什么形容词。其实不然，artificial的意思就是“人工的、人造的”，和natural（天然的）是反义词。

Intelligence，这个不容易认错，是“智能”的意思。英特尔（Intel）公司的名字，就是基于这个词的前五个字母。

结合起来，AI，就是“人工的、人造的智能”，用人为的手段，创造智能。

关于AI的定义，行业里有很多种说法。比较学术化的一种，是这么说的：

AI，是研究、开发用于模拟、延伸和扩展人的智能行为的理论、方法、技术及应用系统的一门综合性科学。

这个定义很拗口，看得都头大。

其实，对于AI，我们可以拆解来看。

首先，AI的本质属性，是一门科学，是一个技术领域。

它涉及到了计算机科学、数学、统计学、哲学、心理学等多种学科的知识，但总体上，归类于计算机学科之下。

其次，AI的研究目的，是让一个“系统”具备智能。

这个“系统”，可以是一套软件程序，也可以是一台计算机，甚至是一个机器人。

第三，什么样的水平，才叫做真正的智能。

这是问题的关键。目前看来，能够像人一样感知、理解、思考、判断、决策，就是实现了人工智能。

配合机器人、机械臂等物理载体，AI也可以实现行动能力。

综合以上三点，理解AI的定义就比较容易了。

█ AI和普通计算机有什么区别？

AI，目前仍然是基于计算机的基本玩法，采用的是半导体芯片技术（所以经常会被称为“硅基”），以及计算机的一些体系和平台。

那么，它和传统的计算机程序，有什么区别呢？

传统的计算机程序，就是一个规则的集合。程序员通过代码告知计算机规则，计算机根据规则，对输入数据进行判断和处理。

例如经典的“if……else……（如果……否则……）”语句——“如果大于65岁，就退休。否则，继续上班”。

然后，计算机程序会根据这个规则，对所有输入年龄数据进行判断和处理。

但是，在现实生活中，很多要素（例如图像和声音）是极为复杂和多样的，我们很难给出固定的规则，让计算机实现高准确率的判断和处理。

例如，判断一只狗是不是狗。

狗有很多品种，每种狗有不同的颜色、体型、五官特征。狗在不同的时间，也有不同的表情、姿势。狗还会处于不同的背景环境下。

所以，计算机通过摄像头捕捉到的狗的影像，是无穷尽的。很难通过有限数量的规则，去帮助计算机做出判断。

想要让计算机实现像人一样的智能，不能采用简单的规则驱动，而是应该像教孩童一样，不断输入数据和答案，让他自行总结特征，形成自己的判断规则。

换言之，在经典的程序设计中，人们输入的是规则（即程序）和数据，系统输出的是答案。

而AI的计算过程，分为两个步骤：

第一个步骤，输入的是数据和预期得到的答案，系统输出的是规则。

第二个步骤，将输出的规则应用于新的数据，然后再输出答案。

第一步，我们可以称之为“训练”。第二步，才是真正“干活”。

这就是传统计算程序和现在主流AI技术的一个典型区别。（注意，我说的是“现在主流AI”。有一些“历史AI”和“非主流AI”，玩法不一样。不能一概而论。）

█ AI，有哪些类别？

前面说了，人工智能是一个非常庞大的科学领域。

从1950年代正式诞生以来，围绕人工智能，已经有很多科学家进行了大量的研究，也输出了很多非常了不起的成果。

这些研究，根据思路方向的不同，被分为了很多种学派。比较有代表性的，是符号主义学派、联结主义学派、行为主义学派。

这些学派并没有对错之分，相互之间也有一些交叉融合。

早期的时候（1960-1990），符号主义（以专家系统、知识图谱为代表）是主流。后来，从1980年开始，联结主义（以神经网络为代表）崛起，一直到现在，都是主流。

将来，也许有新的技术崛起，形成新的学派，也不一定。

除了方向路线之外，我们也可以从智能水平以及应用领域等方面对AI进行分类。

按智能水平，可以分为：弱人工智能（Weak AI）、强人工智能（Strong AI）、超人工智能（Super AI）。

弱人工智能只专精于单一任务或一组相关的任务，不具备通用智能能力。我们目前就处于这个阶段。

强人工智能更厉害一些，具有一定的通用智能能力，能够理解、学习并应用于各种不同的任务。这个还处于理论和研究阶段，还没落地。

超人工智能当然是最强的。它在几乎所有方面都超过人类智能，包括创造力、社交技能等。超人工智能是未来的终极形态，我们假设它能够实现。

关于按应用领域的AI分类，我们待会再说。

█ 什么是机器学习？

其实我们前面介绍规则总结的时候，其实已经提到了机器学习。

机器学习的核心思想，是构建一个可以从数据中学习的模型，并利用这个模型来进行预测或决策。

机器学习不是一个具体的模型或算法。它包括了很多种类型，例如：

监督学习：算法从带有标签的数据集中学习，即每个训练样本都有一个已知的结果。

无监督学习：算法从没有标签的数据集中学习。

半监督学习：结合了少量的带标签数据和大量的未带标签数据进行训练。

强化学习：通过试错的方式，学习哪些行为可以获得奖励，哪些行为会导致惩罚。

█ 什么是深度学习？

深度学习，具体来说，是深度神经网络学习。

深度学习是机器学习的一个重要分支。机器学习底下有一条“神经网络”路线，而深度学习，是加强版的“神经网络”学习。

神经网络是联结主义的代表。顾名思义，这个路线是模仿人脑的工作原理，建立神经元之间的联结模型，以此实现人工神经运算。

深度学习所谓的“深度”，是神经网络中“隐藏层”的层级。

经典机器学习算法使用的神经网络，具有输入层、一个或两个“隐藏层”和一个输出层。

深度学习算法使用了更多的“隐藏层”（数百个）。它的能力更加强大，让神经网络能够完成更困难的工作。

机器学习、神经网络和深度学习的关系，通过下面的图可以看出：

█ 什么是卷积神经网络、循环神经网络？

神经网络从1980年代开始崛起之后，就形成了很多的模型和算法。不同的模型和算法，有着各自的特性和功能。

卷积神经网络（Convolutional Neural Network，CNN）和循环神经网络（Recurrent Neural Network，RNN），是1990年代左右诞生的比较知名的神经网络模型。

它们的具体工作原理比较复杂。反正大家记住：

卷积神经网络（CNN）是一种用于处理具有类似网格结构的数据（例如图像和视频）的神经网络。所以，它通常用于计算机视觉中，可以用来图像识别和图像分类。

而循环神经网络（RNN）是一种用于处理序列数据的神经网络，例如语言模型和时间序列预测。所以，它通常用于自然语言处理和语音识别。

█ 什么是transformer？

transformer也是一个神经网络模型。它比卷积神经网络和循环神经网络更加年轻（2017年由谷歌研究团队提出），也更加强大。

作为非专业人士，不需要去研究它的工作原理，只需要知道：

1、它是一种深度学习模型；

2、它使用了一种名为自注意力（self-attention）的机制；

3、它有效解决了卷积神经网络和循环神经网络的瓶颈（局限性）问题；

4、它很适合自然语言处理（NLP）任务。相比循环神经网络，它的计算可以高度并行化，简化了模型架构，训练效率也大大提升；

5、它也被扩展到了其他领域，如计算机视觉和语音识别。

6、现在我们经常提到的大模型，几乎都是以transformer为基础。

神经网络还有很多种，我在网上找到一张图，供参考：

█ 什么是大模型？

这两年AI火，就是因为大模型火。那么，什么是大模型？

大模型，是具有庞大参数规模和复杂计算结构的机器学习模型。

参数，是指在模型训练过程中，学习和调整的变量。参数定义了模型的行为、性能、实现的成本以及对计算资源的需求。简单来说，参数是模型内部用来做出预测或决策的部分。

大模型，通常拥有数百万至数十亿的参数。相对应的，参数少的，就是小模型。对一些细分的领域或场景，小模型也够用。

大模型需要依赖大规模数据进行训练，对算力资源的消耗极大。

大模型有很多种类别。通常所说的大模型，主要是指语言大模型（以文本数据进行训练）。但实际上，还有视觉大模型（以图像数据进行训练），以及多模态大模型（文本和图像都有）。

绝大多数大模型的基础核心结构，都是Transformer及其变体。

按应用领域，大模型可以分为通用大模型和行业大模型。

通用大模型的训练数据集更加广泛，覆盖的领域更加全面。行业大模型，顾名思义，训练数据来自特定行业，应用于专门的领域（例如金融、医疗、法律、工业）。

█ GPT的本质是什么？

GPT-1、GPT-2……GPT-4o，等等，都是美国OpenAI这家公司推出的语言大模型，同样都是基于Transformer架构。

GPT的全称，叫做Generative Pre.trained Transformer，生成式-预训练-Transformer。

Generative（生成式），表示该模型能够生成连续的、有逻辑的文本内容，比如完成对话、创作故事、编写代码或者写诗写歌等。

这里刚好提一下，现在常说的AIGC，就是AI Generated Content，人工智能生成内容。内容，可以是文本、图像、音频、视频等。

GPT系列面向文本，谷歌也推出过竞品BERT。

文生图，比较有代表性的是DALL·E（也来自OpenAI）、Midjourney（知名度大）和Stable Diffusion（开源）。

文生音频（音乐），有Suno（OpenAI）、Stable Audio Open（由Stability.ai开源）、Audiobox（Meta）。

文生视频，有Sora（OpenAI）、Stable Video Diffusion（由Stability.ai开源）、Soya（开源）。图也可以生视频，例如腾讯的Follow-Your-Click。

AIGC是一个“应用维度”的定义，它不是一个具体的技术或模型。AIGC的出现，扩展了AI的功能，打破了此前AI主要用于识别的功能限制，拓宽了应用场景。

好了，继续解释GPT的第二个字母——Pre.trained。

Pre.trained（预训练），表示该模型会先在一个大规模未标注文本语料库上进行训练，学习语言的统计规律和潜在结构。

通过预训练，模型才有了一定的通用性。训练的数据越庞大（如网页文本、新闻等），模型的能力就越强。

大家对于AI的关注热潮，主要源于2023年初的ChatGPT爆火。

ChatGPT的chat，是聊天的意思。ChatGPT是OpenAI基于GPT模型开发的一个AI对话应用服务（也可以理解为GPT-3.5）。

通过这个服务，人们才可以亲身体验到GPT模型的强大，有利于技术的宣传和推广。

事实证明，OpenAI的策略成功了。ChatGPT充分吸引了公众关注度，也成功推动了AI领域的发展热潮。

█ AI，究竟能做什么？

AI的作用，极为广泛。

概括来说，AI和传统计算机系统相比，能提供的拓展能力，包括：图像识别、语音识别、自然语言处理、具身智能等方面。

图像识别，有时候也被归类为计算机视觉（Computer Vision，CV），让计算机具备理解和处理图像和视频的能力。常见的是摄像头、工业质检、人脸识别之类的。

语音识别，就是理解和处理音频，获得音频所搭载的信息。常见的是手机语音助手、电话呼叫中心、声控智能家居之类的，多用于交互场景。

自然语言处理，前面介绍过，就是使计算机能够理解和处理自然语言，知道我们到底在说什么。这个很火，多用于创造性的工作，例如写新闻稿、写书面材料、视频制作、游戏开发、音乐创作等。

具身智能，就是把人工智能搭载在一个物理形态（“身体”）上，通过与环境互动，来获得和展示智能。

带AI的机器人，属于具身智能。

斯坦福大学年初推出的“Mobile ALOHA”，就是一个典型的家用具身机器人。它可以炒菜、煮咖啡甚至逗猫，火爆全网。

值得一提的是，并不是所有的机器人，都是人形机器人。也不是所有的机器人，都用到了AI。

人形机器人

AI特别擅长对海量数据进行处理，一方面通过海量数据进行学习和训练，另一方面，基于新的海量数据，完成人工无法完成的工作。或者说，找到海量数据中潜在的规律。

目前AI在社会各个垂直行业的应用，主要是围绕上面的能力进行延展。

我们举一些常见的例子。

在医疗领域，AI已经可以用于分析X光片、CT扫描、MRI图像等，帮助识别识别异常区域，甚至做出诊断判断。AI还可以用于识别组织切片中的细胞变异，辅助病理学家进行癌症筛查和其他疾病的诊断。

AI还可以分析患者的基因组数据，确定最适合的治疗方案。AI也可以根据患者的病史和生理指标，辅助预测病情趋势。

在药品研发方面，AI可以帮助模拟化学成分的相互作用，缩短新药研发周期。

发生严重的公共卫生事件时，AI可以分析流行病数据，预测疾病传播的趋势。

在金融领域，AI可以实时监测市场动态，识别潜在的市场风险，并制定相应的风险对冲策略。

AI还可以通过分析借款人的信用记录、收入情况、消费行为等多维度数据，评估信贷风险。当然，AI也可以结合投资者的个人财务情况、风险偏好和收益目标，提供最合适的投资组合建议。

类似的例子实在是数不胜数。在工业制造、教育文旅、商业零售、农林牧渔、公共安全、政府治理等几乎所有领域，AI都已经有了实际的落地场景和案例。

AI正在改变社会，改变我们每一个人的工作和生活。

█ 我们应该如何看待AI？

AI的商业和社会价值，是毋庸置疑的。它的崛起趋势，也是不可阻挡的。

从企业的角度来说，AI能够自动化重复性、繁琐的任务，提高生产效率和质量，同时降低生产成本和人力成本。

对于制造业和服务业来说，这个优势至关重要，直接影响了企业的竞争力，甚至是生存。

从政府的角度来说，AI不仅可以提升治理效率，也能够带来新的商业模式、产品和服务，刺激经济。

强大的AI，也是一种国家竞争力。在科技博弈和国防事业方面，如果AI技术不如别人，可能会带来严重后果。

从个人的角度来说，AI可以帮助我们完成一些工作，也可以提升我们的生活品质。

从整个人类的角度来说，AI在疾病治疗、灾害预测、气候预测、消灭贫穷方面，也可以发挥重要的作用。

但事物都是有两面性的。AI作为工具，既有利，也有弊。

最现实的一个弊，就是可能会威胁到大量的人类工作岗位，导致大量失业。根据麦肯锡的研究，到2030年至2060年之间，大约50%的职业可能会逐步被AI取代，特别是对于知识工作者而言。

图片来自《纽约客》杂志

除此之外，AI被用于发动战争、欺诈（模仿声音或换脸，进行诈骗）、侵犯公民权益（信息过度采集、侵犯隐私）。

如果只有少数公司拥有先进的AI技术，可能会加剧社会的不公平现象。AI的算法偏见，也可能导致不公平。

AI变得越来越强大，也会让人们产生对AI的依赖，失去独立思考和解决问题的能力。AI的强大创造力，有可能让人类失去创造的动力和信心。

围绕AI的发展，还有安全（数据泄露、系统崩溃）、道德伦理等一系列问题。

所有这些问题，我们目前都没有靠谱的解决方案。所以，只能在发展AI的过程中，一点点去探索、思考和解决。对于AI的警惕和防范之心，是一定要有的。

作为我们普通人，目前最现实的做法，就是先了解它、学习它。先学会使用常见的AI工具和平台，帮助自己提升工作效率，改善生活品质。

有句话说的好：“未来，淘汰你的不是AI，而是掌握了AI的人”。与其焦虑，不如勇敢面对和积极拥抱，尽早掌握主动权。

好啦，以上就是今天文章的全部内容。对于一个普通人来说，知道这些AI常识，就是拥抱AI的第一步。至少和别人聊天的时候，谈到AI，就不会一头雾水了。

感谢大家的耐心阅读，我们下期再见！

https://civitai.com/images/19999539

特别介绍

有很多重要内容，公众号发不了，但群里特别能聊。

关注公众号可以进群一起唠嗑，群里圈内大佬特别多……

下面几个系列花了我不少精力写成，可以一起读一读：

再多读几篇

都刷到这里了，不来个「点赞」「分享」「在看」一键三连吗？

个人观点，仅供参考

继续滑动看下一个

曾嵘胡扯的地方

向上滑动看下一个

中美友好合作故事——十万名中国弃婴长大了

不仅要看已抓谁，还须一直抓到没

因为家暴终身挂着粪袋的她，在等一个死刑！

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

写给小白的AI入门科普

特别介绍

再多读几篇

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

不仅要看已抓谁，还须一直抓到没

因为家暴终身挂着粪袋的她，在等一个死刑！

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

生成图片，分享到微信朋友圈

写给小白的AI入门科普

特别介绍

再多读几篇

您可能也对以下帖子感兴趣