附录¶
[1]
BeautifulSoup的google讨论组不是很活跃,可能是因为库已经比较完善了吧,但是作者还是会很热心的尽量帮你解决问题的.
[2]
(1, 2) 文档被解析成树形结构,所以下一步解析过...
AI君
1年前 (2020-03-03) 44℃
0喜欢
Beautiful Soup 3¶
Beautiful Soup 3是上一个发布版本,目前已经停止维护.Beautiful Soup 3库目前已经被几个主要的linux平台添加到源里:
$ apt-get install Python-b...
AI君
1年前 (2020-03-03) 43℃
0喜欢
常见问题¶
代码诊断¶
如果想知道Beautiful Soup到底怎样处理一份文档,可以将文档传入 diagnose() 方法(Beautiful Soup 4.2.0中新增),Beautiful Soup会输出一份报告,说明不同的解析...
AI君
1年前 (2020-03-03) 46℃
0喜欢
解析部分文档¶
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索...
AI君
1年前 (2020-03-03) 48℃
0喜欢
复制Beautiful Soup对象¶
copy.copy() 方法可以复制任意 Tag 或 NavigableString 对象
import copy
p_copy = copy.copy(soup.p)
print p_copy...
AI君
1年前 (2020-03-03) 43℃
0喜欢
比较对象是否相同¶
两个 NavigableString 或 Tag 对象具有相同的HTML或XML结构时,
Beautiful Soup就判断这两个对象相同. 这个例子中, 2个 <b> 标签在 BS 中是相同的,
尽管他们...
AI君
1年前 (2020-03-03) 43℃
0喜欢
编码¶
任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,但是使用Beautiful Soup解析后,文档都被转换成了Unicode:
markup = "<h1>Sacr\xc3\xa9 ble...
AI君
1年前 (2020-03-03) 45℃
0喜欢
指定文档解析器¶
如果仅是想要解析HTML文档,只要用文档创建 BeautifulSoup 对象就可以了.Beautiful Soup会自动选择一个解析器来解析文档.但是还可以通过参数指定使用那种解析器来解析当前文档.
Beautiful...
AI君
1年前 (2020-03-03) 46℃
0喜欢
输出¶
格式化输出¶
prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行
markup = '<a href="http://example.c...
AI君
1年前 (2020-03-03) 46℃
0喜欢
修改文档树¶
Beautiful Soup的强项是文档树的搜索,但同时也可以方便的修改文档树
修改tag的名称和属性¶
在 Attributes 的章节中已经介绍过这个功能,但是再看一遍也无妨. 重命名一个tag,改变属性的值,添加或删...
AI君
1年前 (2020-03-03) 46℃
0喜欢
搜索文档树¶
Beautiful Soup定义了很多搜索方法,这里着重介绍2个: find() 和 find_all() .其它方法的参数和用法类似,请读者举一反三.
再以“爱丽丝”文档作为例子:
html_doc = """
<...
AI君
1年前 (2020-03-03) 44℃
0喜欢
遍历文档树¶
还拿”爱丽丝梦游仙境”的文档来做例子:
html_doc = """
<html><head><title>The Dormouse's story</title><...
AI君
1年前 (2020-03-03) 43℃
0喜欢
对象的种类¶
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
Tag , NavigableString , BeautifulSoup , Comment ...
AI君
1年前 (2020-03-03) 44℃
0喜欢
如何使用¶
将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.
from bs4 import BeautifulSoup
soup = BeautifulSoup(o...
AI君
1年前 (2020-03-03) 44℃
0喜欢
安装 Beautiful Soup¶
如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:
$ apt-get install Python-bs4
Beautiful Soup 4 通过PyPi发布,所以如...
AI君
1年前 (2020-03-03) 43℃
0喜欢
快速开始¶
下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档):
html_doc = """
<html><head><title>...
AI君
1年前 (2020-03-03) 43℃
0喜欢
Beautiful Soup 4.4.0 文档¶
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会...
AI君
1年前 (2020-03-03) 43℃
0喜欢