Работа через фри-прокси
Существуют сервисы, показывающие онлайн прокси.
Нас интересуют хттп-прокси. Работа - в несколько потоков.
1 поток. Раз в 2-5 минут подключается к разным источникам
сбора проксей, по очереди, и собираем список из доступных
проксей, отсеивая проверенные за последние 30 минут.
Если таких источников будет 4-10, то в след. раз скрипт
обратится к первому источнику через 2-5*4-10= 8-50 минут,
что совсем неплохо.
Более того, при наличие рабочих проксей, к каждому новому
источнику можно обращаться через найденную на них проксю,
и в таком случае время доступа можно уменьшать.
Источники
https://www.xroxy.com/proxylist.htm 394 proxies selected
http://www.proxy-zone.com/ - ежедневный апдейт проксей
http://proxy.asechka.ru/index.php?page=proxylist
http://www.freeproxy.ru/download/lists/goodproxy.txt
ну и т.д. Вот список мест для поиска списков проксей:
http://www.freeproxy.ru/ru/links.htm
http://www.softsoul.net/content/nid/141/index.html
2 поток. Проверяет прокси на работоспособность и на принадлежность
к хттп-проксям, нерабочие прокси хранятся напр-р, 30 минут (чтобы
их не проверять заново, а ведь потом они могут заработать, поэтому
"кэш" надо очищать).
Можно запускать задачу каждую минуту - и если оно работает, то ничего
не запускать, а если не работает - запускать.
3 поток. Проверяет список доступных проксей. Если во {временной} таблице
рабочих проксей более скажем 3, то начинает работу - иначе выводит
ошибку о недостатке свободных проксей.
Запускается также в одной работающей в единицу времени копии.
Пройдя проверку на кол-во доступных работающих хттп-проксей:
-берет первую из них
-проверяет её работоспособность. Если не работает - выкидываем из списка.
-делает с помощью неё запрос
-задержка
-берет следующую (по порядковому номеру)
-...
-когда список пройден до конца, возвращаемся к первой проксе. Это сделано
для того, чтобы 1.исключить взятие одной прокси два раза подряд или через раз
и 2. увеличить задержку между запросами с одного и того же ipшника
Жду предложения исполнителей.