Bleach：Mozilla 出品，快速准确地清理 HTML

Original 宁航开源前哨 2021-02-01

【导语】：Bleach 是 Mozilla 官方开发的 HTML 清理库，用 Python 实现。它使用简单，能够快速准确地清理文本中的 HTML 片段，还能提取出其中的链接，通过点击链接，你就能安全地查阅对应的内容。

简介

在日常的工作中，你是否碰到过带有 HTML 片段的内容，比如博客上的用户评论，或者商品的描述信息？在处理这些内容时，你是否因其中包含的无效标记，不完整标签以及不安全链接而困扰？如果你曾碰到过上述问题，那么 Bleach 库将会解决你的烦恼。

Bleach 是一个基于白名单的 HTML 清理库，可以转义或去除标记和属性。

简而言之，你可以自定义一个列表，其中包括允许存在的标签或属性，当接收到一部分 HTML 文本时，Bleach 能够把文本中的其他标签换码，并去除其他属性；另外，Bleach 还能安全地链接到文本，例如：你可以把一部分 HTML 文本中的所有 URL 转化为安全的 HTML 链接，同时你还能给这些链接自定义属性，还能删除某些不安全的链接。

项目地址:

https://github.com/mozilla/bleach

安装

用 pip 安装：

pip install bleach

使用简单

假设我们想清理一部分 HTML 中的标签：

import bleach
result = bleach.clean(
    "<b><i>开源前哨</i></b>",
    tags=["b"]
)
print(result)

输出结果如下：
开源前哨

假设我们想清理一部分 HTML 中的某个属性：

import bleach
result = bleach.clean(
    '<p class="foo" style="color: red; font-weight: bold;">开源前哨</p>',
    tags=['p'],
    attributes=['style'],
    styles=['color'],
)
print(result)

输出结果如下：
开源前哨

假设我们想提取链接，并加一个标题：

from bleach.linkifier import Linker
def set_title(attrs, new=False):
    attrs[(None, 'title')] = '京东商城'
    return attrs
linker = Linker(callbacks=[set_title])
result = linker.linkify('shopping https://www.jd.com Buy things.')
print(result)

输出结果如下：

shopping <a href="https://www.jd.com/" title="京东商城">https://www.jd.com</a> Buy things.

假设我们想删除某个链接：

from bleach.linkifier import Linker
def remove_link(attrs, new=False):
    if attrs[(None, 'href')].startswith('https:'):
        return None
    return attrs
linker = Linker(callbacks=[remove_link])
result = linker.linkify('<a href="https://www.abc.com">a website</a>')
print(result)

输出结果如下：
a website

Bleach 的简单介绍就到这里，更多内容详见该库的官方文档：https://bleach.readthedocs.io/

- EOF -

更多优秀开源项目（点击下方图片可跳转）

如果觉得本文介绍的开源项目不错，欢迎转发推荐给更多人。

分享、点赞和在看

支持我们分享更多优秀开源项目，谢谢！

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”