Скрипт парсинга Гугл, Яндекс
1. Нужен скрипт PHP, или серверное решение на ином языке
2. скрипт будет использоваться как часть решения в иных скриптах пхп – нужна легкая интеграция
3. скрипт парсит яндекс выдачу, яндекс вордстат, гугл выдачу
4. на вход подается уже полностью «готовый» - сформированный урл для парсинга, на выходе скрипт выдает данные-страницу по этому адресу, сырую, не обработанную никак, кодировка страници на выходе – такая же как у исходника
5. скрипт кеширует результаты на заданную в сеттнгах величину часов
для каждого типа урл задаем свое время кеширования
«тип урла» - определяется сравнением куска урла данного в сеттингах и урлом, который подан на вход
6. при запуске скрипта с определенным параметром – сначала ищется результат в своем кеше, при отсутствии – происходит процесс парсинга
7. Скрипт может запускаться разными приложениями, асинхронно, что может приводить к ситуации почти одновременных запусков, т.е. время обращения к одному и тому же источнику может быть мало, что будет приводить к бану, для избежания нужна возможность парсить с подстановкой разных айпи, из существующей своей базы
8. также нужно следить за временем «остывания» каждого айпи, подставлять самые «холодные»
9. прикрутить сервис антигейт(антикапча)
10. ведем статистику за сутки
сколько запусков было
сколько каждый айпи был раз задействован
сколько каждый айпи словил раз капчу, на каком «сервисе» (яндекс, гугл, вордстат), сколько денег в антикапче осталось,
статистику раз в сутки шлем на мыло админу
основная задача – это стабильная «безбаннаая» работа на протяжении большого промежутка времени