Парсинг урлов с гостевух
Парсинг урлов с гостевух
Скрипт должен грабить урлы с гостевух и форумов.
Рассмотрим работу скрипта на примере.
На входе файл с урлами гостевух url.txt
Скрипт доложен загрузить первый урл потом сграбить все внешние(не из этого домена) урлы
- если урл не грузится, то ждем 20секунд и переходим к следующему урлу
- если урл грузится, но он очень большой по обьему, то грузим 20 секунд и обрываем загрузки и грабим из того что скачалось
Грабим в память все внешнии урлы, но перед тем как сохранить их в файл нужно будет их отфильтровать на:
- чтобы не было доменов 2-ого уровня без папок и сабов
- чтобы не было ошибок урле, так как в некоторых гостевухах присутсвуют урлы с ошибками
- проверяем урлы на наличие в файле delete.txt. Если сграбленные урлы есть в этом файле то удаляем их из памяти
- оставлять один урл, если урлы из одного домена и папки.
Например было несколько таких урлов
http://domen.com/zuka/htposa.html
http://domen.com/zuka/sdfsdf.html
http://domen.com/zuka/osihaz.html
оставляем один, без разницы какой
Написать можно как на перле так и на пхп.
Цену и сроки указывайте в своих предложениях.