Написать парсер
Задача: написать парсер каталога блогов Technorati http://technorati.com/blogs/directory/overall/.
Итогом работы является таблица со следующими значениями:
- место в рейтинге technorati (числом)
- URL блога
- URL RSS-ленты блога (достаточно 1 шт, берется с самого сайта)
- название блога
- описание блога
полное описание берем на странице http://technorati.com/blogs/mashable.com
если нет полного описания как тут http://technorati.com/blogs/www.huffingtonpost.com
то берем краткое описание со страницы с блогами http://technorati.com/blogs/directory/overall/
- категория блога (technology, business, entertainment, lifestyle, sports, politics)
не обязательные поля, но очень желательные (не у всех получится собрать):
- имя владельца блога (из данных whois сервера)
- e-mail владельца блога (из данных whois сервера)
Всего должно получиться более 1 257 000 записей в таблице (http://technorati.com/blogs/directory/overall/page-50280/).
Формат таблицы любой, можно в формате mysql дампа.
Просьба писать стоимость и сроки.