Однопоточный парсер яндекса
Мутко13 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
11.11.2011
php/mysql
в mysql две таблицы
queries и results
queries:
id - айди запроса
query - запрос
status - not_parsed|parsed|used
results:
id - айди резалта
result_url - урл резалта
query_id - айди запроса по которому получен резалт
query - сам запрос по которому получен резалт
position - позиция резалта в выдаче
после запуска, перебираем через прокси запросы из queries, берём первые 10 резалтов и пишем их в results, после чего помечаем запрос как parsed
если яндекс забанил, то берём следующую проксю.
При каждом новом проходе, юзаем рэндомный юзерагент и сохраняем куки
Прокси в файле вида ip:port