Еще одна библиотека для парсинга сайтов на Python

Grab – библиотека для парсинга сайтов написанная на замечательном языке Python. Её основные функции: Подготовка сетевого запроса (cookies, http-заголовки, POST/GET данные) Запрос на сервер (возможно через HTTP/SOCKS прокси) Получение ответа сервера и его первоначальная обработка (парсинг заголовков, парсинг cookies, определение

Коллекция HTML парсеров на Ruby, Javascript, PHP, .NET(C#), VB6, Python, Perl, Java

– Ruby. Nokogiri (http://nokogiri.org/) – JavaScript. jQuery (http://jquery.com/) – PHP. PHP5DOMDocument (http://docs.php.net/manual/en/domdocument.loadhtml.php) – .NET (C#). HTML Agility Pack (http://htmlagilitypack.codeplex.com/) – VB6. MSHTML (http://www.codeguru.com/vb/vb_internet/html/article.php/c4815) – Python. lxml (http://lxml.de/xpathxslt.html) – Perl. HTML:Parser (http://search.cpan.org/~gaas/HTML-Parser-3.68/Parser.pm) – Java. HTML Cleaner (http://search.cpan.org/~gaas/HTML-Parser-3.68/Parser.pm)

Собираем данные с помощью Scrapy / Python /

Инструмент действительно мощный и заслуживает большего внимания. В этом обзоре я расскажу, как создать паука, выполняющего GET запросы, извлекать данные из HTML документа, обрабатывать и экспортировать данные.

Лёгкий парсинг сайтов с помощью «Beautiful Soup» / Python / Хабрахабр

Как и обещал – еще один парсер на Python. «Beautiful Soup» — это HTML/XML парсер для Python, который может превратить даже невалидную разметку в удобное дерево для парсинга. Он предоставляет простые, идиоматические пути навигации, поиска и изменения дерева для парсинга.

Простая библиотека для парсинга HTML / Python / Хабрахабр

Простая библиотека для парсинга HTML / Python / Хабрахабр. Вполне можно попробовать применить для парсинга блогов с последущим переводом и публикацией. Впрочем таких библиотек довольно много – есть и на PHP