Доработать скрипт граббинга овертюры

Мельник20 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

29.01.2006

Есть скрипт граббинга, который в массив matches кидает совпадения:

$file_content="";

$file2=fopen("in/$file2_name","r");

while(!feof($file2))

{

$file_content.=fgets($file2);

};

preg_match_all("/.*?([^\t\'\">/i", $file_content, $matches, PREG_PATTERN_ORDER);

print_r($matches);

Надо его доработать:

1. Работа через прокси (брать из файла циклически)

2. Работа со списком ключевых слов и сочетаний

3. Анализ выдачи и отсечение дупов (в т.ч. слов)

4. Запись в файл результатов

5. Настройка числа итераций Smile

Пример, запрос dedicated service:

dedicated outsource service

dedicated hosting provider service

Исключаем дупы и получаем:

outsource

hosting provider

...

Делаем запрос по outsource (первая итерация):

outsource project

...

Исключаем дупы, получаем project

Делаем запрос по project (вторая итерация):

project voyeur

...

Исключаем дупы и получаем voyeur

И так по каждому слову :)

В результате формируется файл со смежными словами по заданным ключевикам.