Парсер линков
Парсер урлов страниц
Многопоточность
На входе задаем тхт док с урлами - их может быть дововльно много .. ну до 100к
- нужна возможность задавать макс. размер страницы (в КБ), если больше то игнорируем ее
- возмножность задавать количество потоков
- нужна возможнать задавать таймаут ответа страницы
- нужна возможность игнорирования скриптом 404 итд ошибок
- файл логов где бы было написано куда зашли, и что получили в таком формате:
урл который обрабатываем|размер|ошибка если была |количество найденых урлов удовлетвор. условию|найденая фраза\фразы, если есть|записано или нет в результаты|
- не надо никаких интерфейсов, кроме страницы где бы % выполнения отображался бы просто в пхп файле нужен выбор режима:
а) Режим при котором скрипт собирает все урлы на странице (в том числе и текстовые),
на котором собираються урлы. + опция собирать\не собирать урлы, которые содержат домен на котором они собираются
б) Режим при котором собираются урлы по масках (используя регулярные выражения)
+ опция собирать\не собирать урлы, которые содержат домен на котором они собираются
*add.php?tid=*
*add.php?mode=reply&f=*&t=*
*add.php?mode=reply&t=*
*add.php?mode=reply&t=*
( "*" я обозначил любое содержание, так как в регул. выраж пока не совсем ориентируюсь )
Результаты пишем в result.txt
В обоих режимах еще нужно добавить опцию поиска фраз: если фраза есть в коде страницы то урл пишем в результаты + в логи пишем
что была найдена фраза 1 sport или 2 фразы сразу, если фраз не указано - то ниче не искать
phrase1=sport
phrase2=music
phrase3=car
.
.