xml.dom.pulldom --- 支持構(gòu)建部分 DOM 樹?

源代碼: Lib/xml/dom/pulldom.py


xml.dom.pulldom 模塊提供了一個“拉取解析器”,它能在必要時被用于產(chǎn)生文件的可訪問 DOM 的片段。 其基本概念包括從輸入的 XML 流拉取“事件”并處理它們。 與同樣地同時應(yīng)用了事件驅(qū)動處理模型加回調(diào)函數(shù)的 SAX 不同,拉取解析器的用戶要負責(zé)顯式地從流拉取事件,并循環(huán)遍歷這些事件直到處理結(jié)束或者發(fā)生了錯誤條件。

警告

xml.dom.pulldom 模塊對于惡意構(gòu)建的數(shù)據(jù)是不安全的。 如果你需要解析不受信任或未經(jīng)身份驗證的數(shù)據(jù),請參閱 XML 漏洞。

在 3.7.1 版更改: SAX 解析器默認不再處理一般外部實體以提升在默認情況下的安全性。 要啟用外部實體處理,請傳入一個自定義的解析器實例:

from xml.dom.pulldom import parse
from xml.sax import make_parser
from xml.sax.handler import feature_external_ges

parser = make_parser()
parser.setFeature(feature_external_ges, True)
parse(filename, parser=parser)

示例:

from xml.dom import pulldom

doc = pulldom.parse('sales_items.xml')
for event, node in doc:
    if event == pulldom.START_ELEMENT and node.tagName == 'item':
        if int(node.getAttribute('price')) > 50:
            doc.expandNode(node)
            print(node.toxml())

event 是一個常量,可以取下列值之一:

  • START_ELEMENT

  • END_ELEMENT

  • COMMENT

  • START_DOCUMENT

  • END_DOCUMENT

  • CHARACTERS

  • PROCESSING_INSTRUCTION

  • IGNORABLE_WHITESPACE

node 是一個 xml.dom.minidom.Document, xml.dom.minidom.Elementxml.dom.minidom.Text 類型的對象。

由于文檔是被當(dāng)作“展平”的事件流來處理的,文檔“樹”會被隱式地遍歷并且無論所需元素在樹中的深度如何都會被找到。 換句話說,不需要考慮層級問題,例如文檔節(jié)點的遞歸搜索等,但是如果元素的內(nèi)容很重要,則有必要保留一些上下文相關(guān)的狀態(tài)(例如記住任意給定點在文檔中的位置)或者使用 DOMEventStream.expandNode() 方法并切換到 DOM 相關(guān)的處理過程。

class xml.dom.pulldom.PullDom(documentFactory=None)?

xml.sax.handler.ContentHandler 的子類。

class xml.dom.pulldom.SAX2DOM(documentFactory=None)?

xml.sax.handler.ContentHandler 的子類。

xml.dom.pulldom.parse(stream_or_string, parser=None, bufsize=None)?

基于給定的輸入返回一個 DOMEventStream。 stream_or_string 可以是一個文件名,或是一個文件類對象。 parser 如果給出,則必須是一個 XMLReader 對象。 此函數(shù)將改變解析器的文檔處理程序并激活命名空間支持;其他解析器配置(例如設(shè)置實體解析器)必須在之前已完成。

如果你將 XML 存放為字符串形式,則可以改用 parseString() 函數(shù):

xml.dom.pulldom.parseString(string, parser=None)?

返回一個 DOMEventStream 來表示 (Unicode) string

xml.dom.pulldom.default_bufsize?

bufsize 形參的默認值設(shè)為 parse()。

此變量的值可在調(diào)用 parse() 之前修改并使新值生效。

DOMEventStream 對象?

class xml.dom.pulldom.DOMEventStream(stream, parser, bufsize)?

在 3.11 版更改: Support for __getitem__() method has been removed.

getEvent()?

返回一個元組,其中包含 eventxml.dom.minidom.Document 形式的當(dāng)前 node 如果 event 等于 START_DOCUMENT,包含 xml.dom.minidom.Element 如果 event 等于 START_ELEMENTEND_ELEMENT 或者 xml.dom.minidom.Text 如果 event 等于 CHARACTERS。 當(dāng)前 node 不包含有關(guān)其子節(jié)點的信息,除非 expandNode() 被調(diào)用。

expandNode(node)?

node 的所有子節(jié)點擴展到 node 中。 例如:

from xml.dom import pulldom

xml = '<html><title>Foo</title> <p>Some text <div>and more</div></p> </html>'
doc = pulldom.parseString(xml)
for event, node in doc:
    if event == pulldom.START_ELEMENT and node.tagName == 'p':
        # Following statement only prints '<p/>'
        print(node.toxml())
        doc.expandNode(node)
        # Following statement prints node with all its children '<p>Some text <div>and more</div></p>'
        print(node.toxml())
reset()?