Однопоточный парсер яндекса

Мутко13 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
11.11.2011

php/mysql

в mysql две таблицы

queries и results

queries:

id - айди запроса

query - запрос

status - not_parsed|parsed|used

results:

id - айди резалта

result_url - урл резалта

query_id - айди запроса по которому получен резалт

query - сам запрос по которому получен резалт

position - позиция резалта в выдаче

после запуска, перебираем через прокси запросы из queries, берём первые 10 резалтов и пишем их в results, после чего помечаем запрос как parsed

если яндекс забанил, то берём следующую проксю.

При каждом новом проходе, юзаем рэндомный юзерагент и сохраняем куки

Прокси в файле вида ip:port