Нужна программа для фильтрафии веб-архива
У меня есть каталог, в котором собраны несколько больших (порядка 1-2 МБ) файлов в формате ТХТ.
В этих файлах находятся списки доменов в формате без www.
Я задаю ключевое слово программе и программа:
1) собирает все домены, в названии которых содержится данное ключевое слово и сохраняет в виде списка в том же каталоге
2) потом проверяет на наличие файлов в веб-архиве http://web.archive.org
3) если в веб-архиве нет упоминаний об этом сайте, урл домена стирается из списка
4) если в веб-архиве есть упоминания об этом сайте, то возле урла сайта ставится число страниц об этом сайте в веб-архиве
Желательные функции
1) список урлов из п4 хотелось бы по убыванию числа страниц из веб-архива
2) проверить список урлов из п4 на предмет занятости соотвествующего домена и если домен занят, то такой сайт удаляется из списка