Beautifulsoup教程附录 附录¶ [1] BeautifulSoup的google讨论组不是很活跃,可能是因为库已经比较完善了吧,但是作者还是会很热心的尽量帮你解决问题的. [2] (1, 2) 文档被解析成树形结构,所以下一步解析过... AI君 3年前 (2020-03-03) 64℃ 2喜欢
Beautifulsoup教程BeautifulSoup3 Beautiful Soup 3¶ Beautiful Soup 3是上一个发布版本,目前已经停止维护.Beautiful Soup 3库目前已经被几个主要的linux平台添加到源里: $ apt-get install Python-b... AI君 3年前 (2020-03-03) 63℃ 2喜欢
Beautifulsoup教程常见问题 常见问题¶ 代码诊断¶ 如果想知道Beautiful Soup到底怎样处理一份文档,可以将文档传入 diagnose() 方法(Beautiful Soup 4.2.0中新增),Beautiful Soup会输出一份报告,说明不同的解析... AI君 3年前 (2020-03-03) 66℃ 2喜欢
Beautifulsoup教程解析部分文档 解析部分文档¶ 如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索... AI君 3年前 (2020-03-03) 68℃ 2喜欢
Beautifulsoup教程复制BeautifulSoup对象 复制Beautiful Soup对象¶ copy.copy() 方法可以复制任意 Tag 或 NavigableString 对象 import copy p_copy = copy.copy(soup.p) print p_copy... AI君 3年前 (2020-03-03) 64℃ 2喜欢
Beautifulsoup教程比较对象是否相同 比较对象是否相同¶ 两个 NavigableString 或 Tag 对象具有相同的HTML或XML结构时, Beautiful Soup就判断这两个对象相同. 这个例子中, 2个 <b> 标签在 BS 中是相同的, 尽管他们... AI君 3年前 (2020-03-03) 63℃ 2喜欢
Beautifulsoup教程编码 编码¶ 任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,但是使用Beautiful Soup解析后,文档都被转换成了Unicode: markup = "<h1>Sacr\xc3\xa9 ble... AI君 3年前 (2020-03-03) 65℃ 3喜欢
Beautifulsoup教程指定文档解析器 指定文档解析器¶ 如果仅是想要解析HTML文档,只要用文档创建 BeautifulSoup 对象就可以了.Beautiful Soup会自动选择一个解析器来解析文档.但是还可以通过参数指定使用那种解析器来解析当前文档. Beautiful... AI君 3年前 (2020-03-03) 66℃ 2喜欢
Beautifulsoup教程输出 输出¶ 格式化输出¶ prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行 markup = '<a href="http://example.c... AI君 3年前 (2020-03-03) 66℃ 2喜欢
Beautifulsoup教程修改文档树 修改文档树¶ Beautiful Soup的强项是文档树的搜索,但同时也可以方便的修改文档树 修改tag的名称和属性¶ 在 Attributes 的章节中已经介绍过这个功能,但是再看一遍也无妨. 重命名一个tag,改变属性的值,添加或删... AI君 3年前 (2020-03-03) 66℃ 2喜欢
Beautifulsoup教程搜索文档树 搜索文档树¶ Beautiful Soup定义了很多搜索方法,这里着重介绍2个: find() 和 find_all() .其它方法的参数和用法类似,请读者举一反三. 再以“爱丽丝”文档作为例子: html_doc = """ <... AI君 3年前 (2020-03-03) 64℃ 2喜欢
Beautifulsoup教程遍历文档树 遍历文档树¶ 还拿”爱丽丝梦游仙境”的文档来做例子: html_doc = """ <html><head><title>The Dormouse's story</title><... AI君 3年前 (2020-03-03) 63℃ 2喜欢
Beautifulsoup教程对象的种类 对象的种类¶ Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment ... AI君 3年前 (2020-03-03) 64℃ 2喜欢
Beautifulsoup教程如何使用 如何使用¶ 将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄. from bs4 import BeautifulSoup soup = BeautifulSoup(o... AI君 3年前 (2020-03-03) 64℃ 2喜欢
Beautifulsoup教程安装BeautifulSoup 安装 Beautiful Soup¶ 如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装: $ apt-get install Python-bs4 Beautiful Soup 4 通过PyPi发布,所以如... AI君 3年前 (2020-03-03) 63℃ 2喜欢
Beautifulsoup教程快速开始 快速开始¶ 下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档): html_doc = """ <html><head><title>... AI君 3年前 (2020-03-03) 63℃ 2喜欢
Beautifulsoup教程BeautifulSoup4.4.0文档 Beautiful Soup 4.4.0 文档¶ Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会... AI君 3年前 (2020-03-03) 63℃ 2喜欢