Еще одна библиотека для парсинга сайтов на Python

Grab – библиотека для парсинга сайтов написанная на замечательном языке Python. Её основные функции: Подготовка сетевого запроса (cookies, http-заголовки, POST/GET данные) Запрос на сервер (возможно через HTTP/SOCKS прокси) Получение ответа сервера и его первоначальная обработка (парсинг заголовков, парсинг cookies, определение

Собираем данные с помощью Scrapy / Python /

Инструмент действительно мощный и заслуживает большего внимания. В этом обзоре я расскажу, как создать паука, выполняющего GET запросы, извлекать данные из HTML документа, обрабатывать и экспортировать данные.

Лёгкий парсинг сайтов с помощью «Beautiful Soup» / Python / Хабрахабр

Как и обещал – еще один парсер на Python. «Beautiful Soup» — это HTML/XML парсер для Python, который может превратить даже невалидную разметку в удобное дерево для парсинга. Он предоставляет простые, идиоматические пути навигации, поиска и изменения дерева для парсинга.

Простая библиотека для парсинга HTML / Python / Хабрахабр

Простая библиотека для парсинга HTML / Python / Хабрахабр. Вполне можно попробовать применить для парсинга блогов с последущим переводом и публикацией. Впрочем таких библиотек довольно много – есть и на PHP