Парсинг урлов с гостевух

Василий18 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
08.01.2008

Парсинг урлов с гостевух

Скрипт должен грабить урлы с гостевух и форумов.

Рассмотрим работу скрипта на примере.

На входе файл с урлами гостевух url.txt

Скрипт доложен загрузить первый урл потом сграбить все внешние(не из этого домена) урлы

- если урл не грузится, то ждем 20секунд и переходим к следующему урлу

- если урл грузится, но он очень большой по обьему, то грузим 20 секунд и обрываем загрузки и грабим из того что скачалось

Грабим в память все внешнии урлы, но перед тем как сохранить их в файл нужно будет их отфильтровать на:

- чтобы не было доменов 2-ого уровня без папок и сабов

http://domen.com

http://www.domen.com/

- чтобы не было ошибок урле, так как в некоторых гостевухах присутсвуют урлы с ошибками

- проверяем урлы на наличие в файле delete.txt. Если сграбленные урлы есть в этом файле то удаляем их из памяти

- оставлять один урл, если урлы из одного домена и папки.

Например было несколько таких урлов

http://domen.com/zuka/htposa.html

http://domen.com/zuka/sdfsdf.html

http://domen.com/zuka/osihaz.html

оставляем один, без разницы какой

Написать можно как на перле так и на пхп.

Цену и сроки указывайте в своих предложениях.

Заявки фрилансеров