Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Парсер должен быть написан на php, порядок его работы:

1) Главная страница представляет из себя textarea, в которую пользователь заносит список доменов (каждый с новой строки), кнопку старт и поля с настройками (см. ниже).

2) После нажатия на кнопку, скрипт по очереди обрабатывает каждый домен: идет на страницу

http://wayback.archive.org/web/*/site.ru*

(где site.ru - один введенный домен), на ней есть все страницы, сохраненные в wayback.archive.org для этого домена.

3) Скрипт парсит все страницы, полученные из п.2. Если в вебархиве только один "снимок" страницы, то ссылку на нее мы получим сразу из п.2, если несколько, то из п.2 мы получим ссылку на календарь из которого мы должны взять последний снимок этой страницы.

Требуется обработка всех вариантов ответа сайта wayback.archive.org. Если сайт временно не доступен, работа должна прерываться, должно выводиться соответствующее предупреждение.

4) Каждая полученная страница обрабатывается библиотекой http://www.keyvan.net/2010/08/php-readability/ (она обрезает все меню, header, footer), там несложно.

5) После того, как скрипт получил все страницы и пропустил через php-readability, проводится дополнительная обработка:

- вырезаем все внешние ссылки (учитываем, что и внешние и внутренние ссылки на полученных страницах идут через редирект wayback.archive.org)

- исключаем все страницы, текста (без тегов) в которых меньше 500 символов (кол-во задается в настройках на главной)

- если получилось, что на нескольких страницах одинаковый текст, оставляем только одну, остальные исключаем

- внутренние ссылки на те страницы, что мы не исключили оставляем, все остальные - вырезаем (но сами урлы нужны будут позже в п.6).

6) Все страницы, которые не были исключены, мы сохраняем в папку site.ru/public_html (можно поменять в настройках на главной) под именами 1.html, 2.html и т.д. (главная сохраняется как index.html)

Если урл представляет из себя картинку, то она сохраняется в site.ru/public_html/images/ под именем 1.png, 2.jpg и т.д.

Файлы скриптов, стили, флеш сохранять не нужно.

При этом параллельно создается файл .htaccess в который добавляются инструкции, которые редиректят со старого адреса на новый. Например, мы скачали из архива страницу, оригинальный адрес которой был www.site.ru/index.php?param и сохранили ее под именем 1.html. В файле .htaccess в папке site.ru/public_html должна быть инструкция для редиректа с index.php?param на 1.html

Для урлов всех исключенных страниц, а так же урлов, полученных из внутренних ссылок в п.5, должен быть редирект на главную страницу.

Все оставленные в п.5 внутренние ссылки меняем с учетом новых имен (1.html и т.п.). Все теги изображений так же должны быть обработаны (у изображений новые имена), если изображения не было сохранено, то тег вырезается. Все пути должны быть относительными.

7) Сохраненные страницы сохраняются в обычный html документ с кодировкой utf-8. Кроме контента полученного из php-readability мы сохраняем так же оригинальный тег . Внизу каждой страницы мы вставляем карту сайта, содержащую все сохраненные страницы (<a href="/index.html">/</a> <a href="/1.html">1</a> <a href="/2.html">2</a> и т.д.) </p><p> </p><p>8) В итоге, для введенного в начале <a href="http://site.ru">site.ru</a> мы получим папку <a href="http://site.ru/public_html/">site.ru/public_html/</a> </p><p> </p><p>файлы страниц в ней </p><p><a href="http://site.ru/public_html/index.html">site.ru/public_html/index.html</a> </p><p><a href="http://site.ru/public_html/1.html">site.ru/public_html/1.html</a> </p><p><a href="http://site.ru/public_html/2.html">site.ru/public_html/2.html</a> </p><p>и т.д. </p><p> </p><p>файл с редиректами </p><p><a href="http://site.ru/public_html/.htaccess">site.ru/public_html/.htaccess</a> </p><p> </p><p>папку с картинками </p><p><a href="http://site.ru/public_html/images/1.png">site.ru/public_html/images/1.png</a> </p><p><a href="http://site.ru/public_html/images/2.png">site.ru/public_html/images/2.png</a> </p><p>и т.д. </p><p> </p><p>В общем, отдельный сайт на html, сохраненный локально. После загрузки на хостинг должен работать. </p><p> </p><p> </p><p> </p><p>Если есть вопросы/уточнения - спрашивайте не стесняйтесь. Оплата по факту, или частями по факту, или через сделку без риска WebMoney или Я.Деньги. </p><p> </p><p>Выслушаю предложения по срокам и стоимости.</p>

12 лет назад
Gerasimov-M-N
Михаил 
35 летРоссия
14 лет в сервисе
Был
4 года назад
  • Похожие заказы
  • $50

    нужно доработать cms систему. www.kryn.org (сумма обговаривается) модуль должен позволять выводить список дочерних страниц. например список новостей или статей. позволять просматривать их по странично, т.е. если дочерних страниц больше 40, то это 2 страницы по 20 страниц ...

    Закрыт
    12 лет назад
  • $10

    Убрать блоки в шаблоне - DLE для статических страниц. Наше требование: Осуществить это в стандартном main.tpl путём исключений: [not-aviable=****] [/not-aviable]. Убирать придётся почти всё, кроме футера и хедера и возможно придётся вносить дополнения в ...

    Закрыт
    12 лет назад
  • Нужен специалист для создания небольшого флеш-ролика. Графика для ролика есть, необходимо просто его сделать. Обязательные навыки: Flash, ActionScript Предполагаемая оплата -- 7-9 USD за час работы. Присылайте ссылки на свои резюме и портфолио.

    Завершен
    12 лет назад
  • Требуется разработчик готовый заняться разработкой сервиса (формирование xml документов из исходных данных), а так же компонента Joomla для взаимодействия с сервисом. Умение работать с git / svn. Подробности в личке.

    Закрыт
    12 лет назад
  • $50

    формы должны быть: - в материале или на странице формы должна быть заданная информация, - кросбраузерные, - отправлять по заданному темплейту email на адрес отправителя и наш адрес, - capcha, - после отправки формы должно быть уведомление об отправке запроса ...

    Завершен
    12 лет назад
  • доработка сайта 3designo.ru 1. перенести меню, примерно как в макете http://files.mail.ru/05WWR1 2. сделать портфолио, примерно как на http://archicube.ru/sm/restorany/ 3. сделать отдельную админ-страницу с возможностью легкого добавления портфолио группами по несколько фото по каждому проекту в каждом разделе + ...

    Закрыт
    12 лет назад
  • Разработать простой сайт для просмотра и сравнения курсов валют. Что нужно: 1. Парсинг данных из нескольких источников (в том числе и html) 2. Сортировка данных в таблице курсов 3. Отображение лучших курсов 4. Информация о банках (адрес, телефон, ...) с ...

    Закрыт
    12 лет назад
  • Необходим парсер страниц (PHP+CURL). Даю URL надо получить все локальные ссылки на странице, включая рисунки, скрипты и css (необходимо для занесения страницы в кеш прокси). Следует учитывать что в html могут быть различные написания ссылок, ...

    Завершен
    12 лет назад
  • $1000

    Меня интересует создание портала на фреймоворке Yii, программирование необходимых модулей. Обязательные ежедневные видимые результаты работы, проект достаточно сложный. Все детали готовы обсудить с выбранным исполнителем. Сроки очень сжатые: до 10-15 декабря, ищем программиста готового отдать всего себя как ...

    Закрыт
    12 лет назад