Доработать скрипт граббинга овертюры
Есть овертюра: http://inventory.overture.com/d/searchinventory/suggestion/
Есть скрипт граббинга, который в массив matches кидает совпадения:
$file_content="";
$file2=fopen("in/$file2_name","r");
while(!feof($file2))
{
$file_content.=fgets($file2);
};
preg_match_all("/.*?([^\t\'\">/i", $file_content, $matches, PREG_PATTERN_ORDER);
print_r($matches);
?>
Надо его доработать:
1. Работа через прокси (брать из файла циклически)
2. Работа со списком ключевых слов и сочетаний
3. Анализ выдачи и отсечение дупов (в т.ч. слов)
4. Запись в файл результатов
5. Настройка числа итераций Smile
Пример, запрос dedicated service:
dedicated outsource service
dedicated hosting provider service
Исключаем дупы и получаем:
outsource
hosting provider
...
Делаем запрос по outsource (первая итерация):
outsource project
...
Исключаем дупы, получаем project
Делаем запрос по project (вторая итерация):
project voyeur
...
Исключаем дупы и получаем voyeur
И так по каждому слову :)
В результате формируется файл со смежными словами по заданным ключевикам.