Парсер яндекс.картинок
Нужен парсер яндекс.картинок.
1. Парсер получает URL картинок, все картинки на моем хостинге. (картинок больше 40 тысяч)
2. Парсер ищет "другие размеры" этих картинок и сохраняет самую большую или побольше размером. Не важно, любая картинка будет больше той, которые у меня.
3. Парсер ищет похожие изображения и сохраняет первые 3 страницы изображений, переходить на другие сайты нет нужды, т.к. в списке в HTML коде указывается прямая ссылка на картинку.
Возможность ставить таймауты между парсингом картинок, чтобы не забанили.
Фильтр должен быть в состоянии "Без защиты", а не умеренный: http://clip2net.com/s/3q0ezuc
Что касается капчи, если 1-2 будут вылетать на каждые 100-120 штук, тогда нормально. Если же нет, нужно будет подключить antigate.
То есть, скрипт получил 1000 ссылок, спарсил, сохранил все картинки в папке. Можно PHP+AJAX, можно программу для винды.
И еще, названия всех картинок должны уникализироваться, чтобы не перезаписывались! Очень часто это 1.png, 1.jpg и т.д. Лучше всего, просто md5( microtime()) + расширение.