如何使用 BeautifulSoup 库解析 HTML 页面?
步骤:
- 导入 BeautifulSoup 库
import BeautifulSoup
- 加载 HTML 页面
html_content = open("html_page.html", "r").read()
- 创建 BeautifulSoup 对象
soup = BeautifulSoup(html_content, "html.parser")
-
访问页面元素
您可以使用 BeautifulSoup 的各种方法访问页面元素,例如
find()
,find_all()
,select()
等。以下是一个示例:
title = soup.find("title").text
paragraphs = soup.find_all("p")
- 遍历页面元素 您可以使用循环遍历页面元素,并对每个元素执行操作。以下是一个示例:
for paragraph in paragraphs:
print(paragraph.text)
- 关闭 BeautifulSoup 对象
soup.close()
示例 HTML 页面:
Hello, BeautifulSoup!
This is a paragraph.
运行代码:
import BeautifulSoup
# 加载 HTML 页面
html_content = open("html_page.html", "r").read()
# 创建 BeautifulSoup 对象
soup = BeautifulSoup(html_content, "html.parser")
# 访问页面元素
title = soup.find("title").text
paragraphs = soup.find_all("p")
# 遍历页面元素
for paragraph in paragraphs:
print(paragraph.text)
# 关闭 BeautifulSoup 对象
soup.close()
输出:
Hello, BeautifulSoup!
This is a paragraph.
```