Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Нужен скрипт на PHP 5.2.5 с работой на mySQL 4.1.22-standard (нужно, чтобы скрипт работал на хостинге с данными параметрами), который делает следующие вещи:

Берет из файлов длинные урлы, обрезает их, удаляет дубликаты (сверка с базой), добавляет в базу, парсит содержимое, проверяет на 2 признака, парсит ссылку, добавляет результат в базу.

Подробное описание:

В системе будет страничка с элементами управления:

«Добавить из папки upload» (добавляем урлы из файлов папки в базу, обработанные файлы удаляем)

«Запустить парсилку»

А также статистика:

Всего урлов:

Обработано: (тут выводим количество url со статусом 1 – таблица полей внизу описания)

1. Берем файлы из папки uploads и парсим их. В файлах записаны урлы в виде

http://sub1.site1.com/page32/page32.html

http://www.sub1.site1.com/page32/page33.html

http://sub2.site1.com/page32/page32.html

http://site2.com/page32/page32.html

http://site3.com/index

http://site3.com/index2

Нужно для всех файлов

а. Очистить домены от хвостов и удалить дубликаты, а также привести все домены к одному виду записи. То есть на выходе будет список:

http://sub1.site1.com

http://sub1.site1.com

http://sub2.site1.com

http://site2.com

http://site3.com

http://site3.com

б. Удалить дубликаты - на выходе получаем

http://sub1.site1.com

http://sub2.site1.com

http://site2.com

http://site3.com

То есть в mySQL у нас будет таблица с уникальными доменами (2-го и 3-го уровня - субдомены одного сайта считаются уникальными)

2. Заходим на сайт по url1, проверяем страницу на наличие признаков1.

-Если признаки нашли (хотя бы 1 из списка), то ставим checkresult=1, если не нашли ни одного, то ставим checkresult=0.

-Если признаки1 найдены на сайте, то ищем признаки2. Признаки 2 – это текст, который является анкором ссылки. При нахождении текста из признаков2 мы выдираем его ссылку и вставляем в url2. Например признаки 2 содержат слово «Сафари сегодня» в одной из строк. При находжении ссылки вида Сафари сегодня

Мы дерем ссылку http://site.com/safari.html и сохраняем в поле url2.

-Меняем status на 1

Содержимое url1 запрашивается с сервера, а управляющий парсингом скрипт запускается с локала через веб-интерефейс. Каждый обработанный url1 – новая точка на выводе. Через каждые 100 точек выводится ID следующего обрабатываемого url1/всего url1 (ID идут, начиная от 1 и дальше). Пример: …… …100/85302…….. ..200/85302…

Должна быть возможность экспорта содержимого базы в файл .csv в папку data в виде:

url1;checkresult;url2;status

url1;checkresult;url2;status

Если поле url2 пустое, то строка для данной записи выглядит так:

url1;checkresult;;status

Должна быть возможность повторного добавления новых записей в таблицу с уже существующими там записями. При этом повторные url1 не добавляются – только уникальные. И для новых url1 ставится status= 0, чтобы при запуске скрипта только новые записи обрабатывались.

Таблица должна иметь поля:

url1 (значение - проверяемый домен), checkresult (результат поиска первых признаков - 1 (найдены), 2 (не найдены), url2 (ссылка на внутреннюю страницу, найденная по 2-м признакам), status (1 - обработан, 0 - не обработан)

Признаки1 находятся в файле priznaki1.txt

Признаки2 находятся в файле priznaki2.txt

Параметры хостинга, где будет установлен скрипт.

PHP version 5.2.5

MySQL version 4.1.22-standard

16 лет назад
cyrox
NaN лет
16 лет в сервисе
Был
13 лет назад
14 отзывов
Выбранный исполнитель
njkxxmlzprn
Сергей 
38 летРоссия
16 лет в сервисе
Был
15 лет назад
16 лет назад
$50
1 день
Отличный заказчик - приятен в общении, постоянно на связи, оплата точно в срок.
  • Похожие заказы
  • Здравствуйте. Необходимо разработать систему приема частных объявлений в газету через интернет. В системе необходим: - личный кабинет; - история объявлений; - задание шаблона объявлений (по разному считается стоимость объявлений) - выгрузка объявлений пользователей в заданном формате. Биллинг: - возможность оплаты ВМЗ; - возможность выставления ...

    Закрыт
    16 лет назад
  • Нужен скрипт для ротации popup баннеров на сайте. Пример такого работающего скрипта можно увидеть на сайте: qiq.ru На сайте с каждым переходом на другую страницу, открываеться новый попап баннер. Т.е. отрабатывает один поп-ап банер, подключается другой.

    Завершен
    16 лет назад
  • Привет! необходимо срочно, до поендельника, подключить Liberty Reserve к скрипту. Я выдам скрипт + классы работы с Liberty Reserve, т.е. нужно просто разобраться в логике работы скрипта и интегрировать готовое решение с ним. Скрипт уже подключен к ...

    Закрыт
    16 лет назад
  • Есть интернет-магазин с каталогом товаров. Требуется в админку на страницу редактирования свойств каждого из товаров добавить возможность задавать страны, при заходе на сайт из которых этот товар будет отображаться в каталоге. При заходе из других ...

    Завершен
    16 лет назад
  • Нужно с сайта почты россии http://www.russianpost.ru/portal/ru/home/postal/trackingpo Вытащить скрипт проверки нахождения почтового отпритьавления. Вообщем, чтобы вот эту часть можно было поставить на мой сайт www.ufaservice.ru Поиск по почтовому идентификатору Отслеживание операций обработки РПО (в том числе международных) по почтовому ...

    Закрыт
    16 лет назад
  • Требуется флешер для постоянной сдельной работы. Обсуждение задачи при переписке. От Вас, работы с zinc или описание уровня знания

    Закрыт
    16 лет назад
  • Необходимо адаптировать 2 флеш сайта с английского языка на русский. Текста не очень много, т.к. это промо сайты, в основном весь текст в текстовом виде. В своей ставке просьба указывать полную стоимость адаптации за 2 сайта ...

    Закрыт
    16 лет назад
  • Задача: имеется база e-mail (порядка 2000). Некоторые потеряли актуальность, так-то возможно потребуется проверка базы. Необходимо по ним сделать рассылку HTML письма. В заявке укажите точную стоимость всей работы и сроки. также укажите какими средствами будете проверять ...

    Закрыт
    16 лет назад