Требуется парсер контента (php4-5)
Требуется парсер контента. Укажите стоиомость и сроки выполнения.
ТЗ:
Есть txt файл с списком urlов разбитых через \n.
Собераем массив проходим циклом, удаляем пройденный URL из файла после завершения каждого вхождения.
В цикле:
- проверяем есть ли url в бд;
если нету:
- по хосту получаем ip;
- проверяем пренадлежит ли домен USA; - функция гео таргетинга есть;
если пренадлежит:
- проверяем (курл) код 200;
если код 200:
- Создаем карту сайта(глубина карты с лимитом 3 вхождения и до 1000 страниц), то есть спарсил с главной внутр. ссылки, пошол по ним парсить,
и еще раз по полученным(естественно ссылки уники);
после полученой карты сайта:
- парсим title, keywords, description, чистый текст без тегов, внутренние ссылки, внешние ссылки, email адресса;
Собераем в массивы по отдельности;
Внешние ссылки, email адресса прогоняем через array_unique;
mysql
В бд по каждому полю отдельная таблица;
url - ссылка сайта; поля (id,url)
email - привязаны к индексу url(id), каждый email добавляеться в отдельную запись;
in_url - внутренние ссылки,привязаны к индексу url(id); Поля (in_url_id, in_url(значение внутреннея ссылки), url_id);
title - привязаны к in_url по индексу; перед добавление необходим лимит до 250 символов
description - привязаны к in_url по индексу; перед добавление необходим лимит до 300 символов
keywords - перед добавление ключевых слов необходим лимит до 250 символов, и разбить на массив через знак ","
и добавить каждое отдельное слово в отдельную запись из полученного массива, привящанное к индексу in_url, это же касаеться и добавления out_url
out_url - внешние ссылки,привязаны к in_url по индексу, добавляються в отдельные записи;