Парсеры, грабберы, обработка больших массивов данных, etc

Ключевые слова: парсинг, граббинг, web-scraping, screen-scraping, web-crawling.

Занимаюсь парсингом, сбором статистики, анализом больших массивов данных.

Результаты работы предоставлю в любой удобной для вас форме.

В работе активно использую следующие инструменты:

- Python (как основной язык для скриптования/написания парсеров);

- Scrapy (высокоуровневый фреймворк для сбора данных);

- Selemium RC (в случаях обработки сложных интерфейсов, завязанных на JS, и отсутствия требований к быстродействию);

- Google Refine (пост-обработка и очистка данных);

- Google Chart Tools (построение графиков, визуализация данных);

- множество других, исходя из задач;

Контактные данные:

E-mail/XMPP(Jabber, G-talk): binflow [@] gmail.com

ICQ: 646295512

Skype: thebinflow

============================================

Парсинг Яндекс.Маркет

============================================

Предлагаю услугу парсинга каталога Яндекс. Маркет.

Стоимость -- $1 за 1000 позиций.

Минимальная сумма заказа: $20

Данные, доступные для парсинга:

- Основная информации из "карточки" товара (описание, характеристики, изображения и т.д.)

- Отзывы о товаре (оценка пользователя, текст отзыва, кол-во голосов "за" и "против")

- Категории товара (полный и краткий, т.е. "хлебные крошки", путь в каталоге)

- Порядки цен (минимальная/максимальная/средняя)

- Предложения в магазинах (название магазина, ссылка на страницу товара, стоимость)

- Ссылки на обзоры товара (если таковые имеются)

Если нужны какие-либо дополнительные данные -- не проблема.

Результаты готов представить практически в любом виде. Для каждого заказа экспорт производится согласно индивидуальному шаблону из общей базы. Возможные варианты: XML/JSON/CSV/TSV/XLS/YAML/SQL(при условии предоставления примера рабочего дампа).

Т.о., данные можно получить сразу пригодными для импорта, например, в CMS.

Возможна подписка на периодические обновления каталога.

Максимальных объемов нет -- готов предоставить хоть полную базу Яндекс Маркета.

Теги: база яндекс маркета, парсинг яндекс маркета, парсер яндекс маркета, продам базу яндекс маркета

  • Имеется небольшая утилита. Написана на Python 2.x. GUI реализован с использованием Tkinter. Среди зависимостей: lxml/xlrd/requests/pytils. Необходимо собрать exe под win7. Обязательное требование: на выходе должен быть единственный исполняемый файл. Сам не могу сделать этого в силу отсутствия на рабочем ...

    Закрыт
    12 лет назад