Парсер информации по ЖЖ коммунити и топу яндекса
Необходим скрипт на php который должен уметь парсить посты из жж-коммунити:
1. уметь логиниться в жж (в коммунити могут быть подзамочные посты, которые видны только членам коммунити). аккаунт, под которым пользователь будет запускать скрипт, будет являться членом коммунити, поэтому учить скрипт вступать в коммунити не нужно.
2. с учетом пункта 1 суметь просканировать посты в коммунити за выбранный пользователем промежуток времени (за неделю, месяц, год или произвольный разумный промежуток времени), а именно:
2.1 получить перечень авторов и их постов, с указанием времени постинга постов и количества комментариев к посту (т.е. таблица вида автор, запись, дата и время записи, количество комментариев к записи - это есть на стандартной странице календаря в жж)
2.2 получить количество комментаторов к записи, количество комментариев автора записи, время оставления каждого комментария к записи (таблица вида автор, название записи, дата и время записи, количество комментаторов, количество комментариев автора и отдельная таблица с полями запись, автор записи, автор комментария, дата и время комментария). при этом необходимо учесть, что если комментариев к записи больше N, то все комментарии разбиваются на несколько страниц.
2.3 подсчитать количество тредов (тред начинается от корня поста) и глубины тредов (количество комментариев в треде) для каждого поста (таблица запись, автор, число тредов в записи и отдельно таблица запись, автор записи, глубина каждого треда)
2.4 подсчитать число комментариев каждого комментатора по всем постам за период. при этом по каждому комментатору вывести две суммы: число комментариев на которые есть ответ и отдельно число комментариев на которые нет ответа.
3. вывести данные по топу яндекса заданного списка блогов. на входе csv файл с перечнем жж, а на выходе csv файл с перечнем жж и указанием их авторитетности и количества читателей. можно реализовать отдельным скриптом.
Вывод можно делать в любой доступной для копипаста форме: в виде нескольких csv файлов, html страницы с кучей таблиц или с простым перечнем через запятую и тд.
--------
красота вывода не нужна, нужен рабочий скрипт, чтобы можно было положить на мой хостинг и допилить его напильником, при необходимости. поэтому главное требование - хороший, легкоподдерживаемый сторонним человеком код и комментарии.
--------
если есть рабочее приложение на delphi или c#, которое мне можно будет дописать при нужде тоже будет хорошо.
оплата возможна wm, ЯД или безопасной сделкой.