python lxml 网页数据清洗

由墨香-15607781945 · 发布日期 2022年9月22日 · 已更新 2022年9月22日

数据提取：lxml模块

lxml模块可以利用XPath规则语法，来快速的定位HTML\XML 文档中特定元素以及获取节点信息（文本内容、属性值）；

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。

W3School官方文档：XPath 教程

提取xml、html中的数据需要lxml模块和xpath语法配合使用

示例

选择所有的h2下的文本

//h2/text()

获取所有的a标签的href

//a/@href

获取html下的head下的title的文本

/html/head/title/text()

获取html下的head下的link标签的href

/html/head/link/@href

4. 节点修饰语法

//title[@lang="eng"]	选择lang属性值为eng的所有title元素
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()>1]	选择bookstore下面的book元素，从第二个开始选择
//book/title[text()='Harry Potter']	选择所有book下的title元素，仅仅选择文本为Harry Potter的title元素
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

xml字符串：可以使用re、lxml等模块来提取特定数据

<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italian</title> 
  <author>Giada De Laurentiis</author> 
  <year>2005</year> 
  <price>30.00</price> 
</book>
<book category="CHILDREN">
  <title lang="en">Harry Potter</title> 
  <author>J K. Rowling</author> 
  <year>2005</year> 
  <price>29.99</price> 
</book>
<book category="WEB">
  <title lang="en">Learning XML</title> 
  <author>Erik T. Ray</author> 
  <year>2003</year> 
  <price>39.95</price> 
</book>
</bookstore>

xml以及和html：xml是一种可扩展标记语言，样子和html很像，功能更专注于对传输和存储数据

<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italian</title> 
  <author>Giada De Laurentiis</author> 
  <year>2005</year> 
  <price>30.00</price> 
</book>
<book category="CHILDREN">
  <title lang="en">Harry Potter</title> 
  <author>J K. Rowling</author> 
  <year>2005</year> 
  <price>29.99</price> 
</book>
<book category="WEB">
  <title lang="en">Learning XML</title> 
  <author>Erik T. Ray</author> 
  <year>2003</year> 
  <price>39.95</price> 
</book>
</bookstore>

数据提取：jsonpath模块

如果有一个多层嵌套的复杂字典，想要根据key和下标来批量提取value是比较困难的。jsonpath模块就能解决这个痛点，jsonpath可以按照key对python字典进行批量数据提取。

jsonpath模块的安装

pip install jsonpath
使用方法

from jsonpath import jsonpath
ret = jsonpath(a, 'jsonpath语法规则字符串')
jsonpath语法规则

book_dict = { 
  "store": {
    "book": [ 
      { "category": "reference",
        "author": "Nigel Rees",
        "title": "Sayings of the Century",
        "price": 8.95
      },
      { "category": "fiction",
        "author": "Evelyn Waugh",
        "title": "Sword of Honour",
        "price": 12.99
      },
      { "category": "fiction",
        "author": "Herman Melville",
        "title": "Moby Dick",
        "isbn": "0-553-21311-3",
        "price": 8.99
      },
      { "category": "fiction",
        "author": "J. R. R. Tolkien",
        "title": "The Lord of the Rings",
        "isbn": "0-395-19395-8",
        "price": 22.99
      }
    ],
    "bicycle": {
      "color": "red",
      "price": 19.95
    }
  }
}

提取代码

from jsonpath import jsonpath
 
# 返回列表，如果取不到将返回False
print(jsonpath(book_dict, '$..author'))

python lxml 网页数据清洗

数据提取：lxml模块

示例

xml字符串：可以使用re、lxml等模块来提取特定数据

xml以及和html：xml是一种可扩展标记语言，样子和html很像，功能更专注于对传输和存储数据

数据提取：jsonpath模块

提取代码

您可能还喜欢...

发表回复取消回复

近期文章

近期评论

归档

分类

python lxml 网页数据清洗

数据提取：lxml模块

示例

xml字符串：可以使用re、lxml等模块来提取特定数据

xml以及和html：xml是一种可扩展标记语言，样子和html很像，功能更专注于对传输和存储数据

数据提取：jsonpath模块

提取代码

您可能还喜欢...

打造爆款笔记（小红书、美篇、知乎、B站、简书）

在WordPress中创建独立页面

免费的天气API接口 获取今日, 未来3天, 未来7天天气预报数据

发表回复 取消回复

近期文章

近期评论

归档

分类

免费的天气API接口获取今日, 未来3天, 未来7天天气预报数据

发表回复取消回复