HTMLParser

HTML parser written in Python

It implements most of needed functions for convenient working with HTML DOM.

Features

Parsing from string or from URL(with or without connection);
All DOM readonly functions;
CSS query selectors;

Warnings

When using querySelect, please keep in mind some differences from native CSS selectors:

when using selectors like querySelectorAll("input[type='text']"), attribute value should always be quoted;
when using complex selectors like querySelectorAll("div > li > div"), there should be at least one space between each selector and operator.

Usage

From URL:

  from parser import *
  dom = HTMLDomParser(PARSER_MODE["URL"], "http://my_favourite_web_site.zzz")
  doc = dom.getDocument()
  divs = doc.getElementsByTagName("div")
  firstDiv = divs[0]
  firstDivFirstChild = firstDiv.firstElementChild()
  secondDiv = divs[1]
  secondDiv2 = firstDiv.nextElementSibling()

  navs = doc.getElementsByClassName("nav")

  classyDivs = doc.querySelectorAll("div[class]")
  divLiDiv = doc.querySelectorAll("div > li > div")

  ...

Or from string:

  from parser import *
  dom = HTMLDomParser(PARSER_MODE["RAW"], "<html><head>...</head><body>...</body></html>")

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
tests		tests
README.md		README.md
connection.py		connection.py
dom.py		dom.py
logger.py		logger.py
parser.py		parser.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

HTMLParser

Features

Warnings

Usage

About

Releases

Packages

Languages

onyazuka/HTMLParser

Folders and files

Latest commit

History

Repository files navigation

HTMLParser

Features

Warnings

Usage

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages