查看原文
其他

R爬虫之 html 简介

JunJunLab 老俊俊的生信笔记 2022-08-15

点击上方关注我们


今天 转载 一篇关于 html 基本知识的文章,文章来自 web前端开发 公众号,作者是一个资深的前端开发技术员,文章和技术都非常的优秀!欢迎大家去公众号学习前端知识!


转载这篇文章帮助大家理解 html 的结构,方便了解 R 语言爬取解析网页。



【教程】html+css零基础入门教程(一)

什么是 HTML?

HTML即超文本标记语言 (Hyper Text Markup Language), 是用来描述网页的一种语言。
超文本标记语言的结构包括"头"部分(外语:Head)、和"主体"部分(外语:Body),其中"头"部提供关于网页的信息,"主体"部分提供网页的具体内容。
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页

如下代码:

<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>


例子解释:

<html> 与 </html> 之间的文本描述网页
<body> 与</body> 之间的文本是可见的页面内容
<h1> 与 </h1> 之间的文本被显示为标题
<p> 与 </p> 之间的文本被显示为段落

HTML 元素

HTML 文档是由 HTML 元素定义的。

HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码。

开始标签元素内容结束标签
<p>This is a paragraph</p>
<a href="default.htm">This is a link</a>
<br />

注释:开始标签常被称为开放标签(opening tag),结束标签常称为闭合标签(closing tag),大多数 HTML 元素可拥有属性。


空的 HTML 元素:

没有内容的 HTML 元素被称为空元素。在 XHTML、XML 以及未来版本的 HTML 中,所有元素都必须被关闭。

在开始标签中添加斜杠,比如:<br>就是没有关闭标签的空元素, 而<br />是关闭空元素的正确方法,HTML、XHTML 和 XML 都接受这种方式。

即使 <br>在所有浏览器中都是有效的,但使用 <br /> 其实是更长远的保障。


HTML 提示:使用小写标签

HTML 标签对大小写不敏感:<P> 等同于<p>。许多网站都使用大写的 HTML 标签。

W3School 使用的是小写标签,因为万维网联盟(W3C)在 HTML 4 中推荐使用小写,而在未来 (X)HTML 版本中强制使用小写。

HTML 属性

HTML 标签可以拥有属性。属性提供了有关 HTML 元素的更多的信息。

属性总是以名称/值对的形式出现,比如:name="value"。

属性总是在 HTML 元素的开始标签中规定。


属性实例:

HTML 链接由 <a>标签定义。链接的地址在 href 属性中指定:

<a href="http://www.w3school.com.cn">This is a link</a>

注释:属性值应该始终被包括在引号内。双引号是最常用的,不过使用单引号也没有问题。在某些个别的情况下,比如属性值本身就含有双引号,那么您必须使用单引号,例如:name='Bill "HelloWorld" Gates'。


HTML 提示:使用小写属性

属性和属性值对大小写不敏感。

不过,万维网联盟在其 HTML 4 推荐标准中推荐小写的属性/属性值。

而新版本的 (X)HTML 要求使用小写属性。


一些常见HTML属性:

属性描述
classclassname规定元素的类名(classname)
idid规定元素的唯一 id
stylestyle_definition规定元素的行内样式(inline style)
titletext规定元素的额外信息(可在工具提示中显示)
HTML 编辑器

使用 Notepad 或 TextEdit 来编写 HTML

可以使用专业的 HTML 编辑器来编辑 HTML:

Adobe Dreamweaver

Microsoft Expression Web

CoffeeCup HTML Editor

HTML 标题

标题(Heading)是通过 <h1> - <h6> 等标签进行定义的。
<h1>This is a heading</h1><h1>定义最大的标题。
<h6>This is a heading</h6><h6> 定义最小的标题。

注释:浏览器会自动地在标题的前后添加空行。

注释:默认情况下,HTML 会自动地在块级元素前后添加一个额外的空行,比如段落、标题元素前后。

标题很重要

请确保将 HTML heading 标签只用于标题。不要仅仅是为了产生粗体或大号的文本而使用标题。
搜索引擎使用标题为您的网页的结构和内容编制索引。
因为用户可以通过标题来快速浏览您的网页,所以用标题来呈现文档结构是很重要的。
应该将 h1 用作主标题(最重要的),其后是 h2(次重要的),再其次是 h3,以此类推。

HTML 水平线

<hr /> 标签在 HTML 页面中创建水平线。
hr 元素可用于分隔内容。


例子:

<p>This is a paragraph</p>
<hr />
<p>This is a paragraph</p>
<hr />
<p>This is a paragraph</p>


页面上显示为:

This is a paragraph


This is a paragraph


This is a paragraph

提示: 使用水平线 (<hr> 标签) 来分隔文章中的小节是一个办法(但并不是唯一的办法)。

HTML 段落

可以把 HTML 文档分割为若干段落,段落是通过 <p> 标签定义的。

如下代码:

<p>This is a paragraph</p>
<p>This is another paragraph</p>

注释:浏览器会自动地在段落的前后添加空行。(<p> 是块级元素)

提示:使用空的段落标记 <p></p> 去插入一个空行是个坏习惯。用 <br /> 标签代替它!(但是不要用 <br /> 标签去创建列表。不要着急,您将在稍后的篇幅学习到 HTML 列表。)

不要忘记结束标签

即使忘了使用结束标签,大多数浏览器也会正确地将 HTML 显示出来:

如下代码:

<p>This is a paragraph
<p>This is another paragraph

上面的例子在大多数浏览器中都没问题,但不要依赖这种做法。忘记使用结束标签会产生意想不到的结果和错误。

注释:在未来的 HTML 版本中,不允许省略结束标签。

提示:通过结束标签来关闭 HTML 是一种经得起未来考验的 HTML 编写方法。清楚地标记某个元素在何处开始,并在何处结束,不论对您还是对浏览器来说,都会使代码更容易理解。

HTML 折行

如果您希望在不产生一个新段落的情况下进行换行(新行),请使用 <br /> 标签:

<p>This is<br />a para<br />graph with line breaks</p>

注释:<br /> 元素是一个空的 HTML 元素。由于关闭标签没有任何意义,因此它没有结束标签。

<br> 还是 <br />

您也许发现 <br> 与 <br /> 很相似。

在 XHTML、XML 以及未来的 HTML 版本中,不允许使用没有结束标签(闭合标签)的 HTML 元素。

即使 <br> 在所有浏览器中的显示都没有问题,使用 <br /> 也是更长远的保障。

HTML 输出 - 有用的提示

我们无法确定 HTML 被显示的确切效果。屏幕的大小,以及对窗口的调整都可能导致不同的结果。

对于 HTML,您无法通过在 HTML 代码中添加额外的空格或换行来改变输出的效果。

当显示页面时,浏览器会移除源代码中多余的空格和空行。所有连续的空格或空行都会被算作一个空格。需要注意的是,HTML 代码中的所有连续的空行(换行)也被显示为一个空格。

如下代码:

<p>
   春眠不觉晓,
     处处闻啼鸟。
       夜来风雨声,
         花落知多少。
</p>

输出结果:

春眠不觉晓, 处处闻啼鸟。夜来风雨声, 花落知多少。


练习题

1.以下关于标题的说法哪种是错误的?

A默认情况下,HTML 会自动地在块级元素前后添加一个额外的空行

B使用标题仅仅是为了产生粗体或大号的文本

C搜索引擎使用标题为您的网页的结构和内容编制索引


2.下面几个标题哪个权重最高,最主要?

A<h1>This is a heading</h1>

B<h2>This is a heading</h2>

C<h3>This is a heading</h3>


3.默认情况下,HTML 会自动地在块级元素前后添加一个额外的空行,这个说法对吗?

A对

B错


4.以下关于段落的做法哪种是正确的?

A<p>This is a paragraph

B使用空的段落标记 <p></p> 去插入一个空行

C<p>This is a paragraph </p>


5.下列折行标签使用正确的是?

A<p>This is<br>a para </br>graph with line breaks</p>

B<p>This is<br />a para<br />graph with line breaks</p>

C<p>This is a paragraph</br> graph with line breaks</p>


6.下列说法正确的是?

A可以通过在 HTML 代码中添加额外的空格或换行来改变输出的效果

B使用<br />标签来折行

C使用空的段落标记 <p></p> 去插入一个空行是个好习惯


请把你的答案写在留言区,大家一起交流学习。



所以今天你学习了吗?

发现更多精彩

关注公众号

欢迎小伙伴留言评论!

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,赏杯快乐水喝喝吧!

推 荐 阅 读




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存