Парсинг теле и радио сайтов
Необходимо написать программу (Perl ну или PHP в крайнем случае) которая по крону (раз в месяц) будет парсить и перепарсивать полтора десятка самых популярных сайтов с онлайн теле и радио потоками( половина рускоязычных, половина англоязычных). Для безопасности парсинга должны быть эмуляция работы браузера + разумные задержки между запросами.
В результате работы парсера должна быть база данных на сервере, в которой содержится следующая информация:
- название станции или телеканала или потока. Соответственно для каждого канала возможно больше одного блока
--- качество трансляции
--- тип трансляции
--- кусок кода для вставки в ХТМЛ
+ техническая информация
- когда информация обновилась
- с какого УРЛ информация взялась
и т.д.
Соответственно, т.к. будет парсится несколько сайтов, то необходимо удалять или объединять повторяющуюся информацию.
Подбор сайтов для парсинга – приветствуется.