Нужен грабер
Требования к Граберу.
1) Основная цель грабера собирать для объединения информацию в Интернете на определенные объекты (например, виды спорта, турниры, спортивные клубы, спортсмены и т.д. и т.п.).
2) Грабер должен запускаться:
2.1. По расписанию (т.е. иметь кнопку включения и выключения режима по расписанию).
2.2. В ручную (т.е. иметь кнопку запуска).
2.3. И главное иметь кнопку остановки процесса после любого запуска.
2.4. Грабер должен, что-то показывать, чтобы было видно, что он не перемалывает пустые страницы.
3) Грабер ищет информацию по ключевым словам:
3.1. На сайтах из заранее заданного списка сайтов, если надо, то авторизуется по логину и паролю из базы.
3.2. На сайтах полученных с поисковых запросов по ключевым словам на основных поисковиках, как русских, так и английских(очень желательно чтобы настройки поиска были на странице администратора).
3.3. Глубина поиска настраивается:
3.3.1. Полностью просматривается сайт.
3.3.2. Глубина определяется вручную.
3.3.3. Анализируется появление новой информации и если такая имеется сохранять ее в базе.
4) Грабер должен:
4.1. Отличать анонс от новости, и соответственно сохранять как анонс (чтоб вновь не сочинять), так и саму новость, с привязкой к ключевым словам.
4.2. Сохранять дату и время (если есть) самой новости.
4.3. Сохранять дату и время получения самой новости.
4.4. Сохранять URL, TITLE, Description, Keywords страницы с новостью.
4.5. Маскироваться, чтобы не определили, что это грабер и не блокировали доступ.
4.6. Все новости сохранять в единой кодировке (желательно в win).
4.7. При занесении нового объекта в базу, проверять наличие информации по данному объекту в базе.
4.8. Иметь режимы сохранения статей и анонсов или прямо в базу или в файлы (ну и соответственно перегонять их туда – сюда, просто еще не решили, как хранить информацию).
5) Сделать удобный интерфейс администратора (соответственно на нем авторизация) для настройки и функционирования грабера.
6) Все сделать на PHP и MySQL.
7) Надо учесть, как различать однофамильцев и одноименные объекты (пример футбольный клуб «Москва» и город Москва.). И так на всякий случай, чтобы Путина с «Путинкой» не путать (корень ведь один ;).
8) Максимально откомментировать и хорошо оформить код.
9) Проект будет начинаться, и набирать первоначальную базу на локальном компьютере под Денвером (PHP 5.1.2, MySQL 4.1.16), поэтому через некоторое время может понадобиться помощь в переносе грабера на хост, но это уже после всех расчетов, просто отложенная услуга фрилансера.
10) Все дополнения и уточнения будут приветствоваться.