Парсер Google Images
1) Парсим гугл: на входе нужно использование прокси, возможность задавать большой объем запросов, а также диапазон количества картинок, которые будут парситься (например, я указываю 1 раз от 30 до 50, и для каждого запроса будет браться рандомное значение из этого диапазона). Нужно, чтобы скрипт сам работал с массивом запросов, т.е. если я указал 2000 ключей, а он берет за один запуск по 50, например, то чтобы он сам подчищал файл, оставляя неиспользованные ключи.
2) Скачиваем картинки на диск и добавляем их в базу данных, нужно брать с самих сайтов, кроме картинки нужен тайтл страницы, с которой она берется, рандомный идентификатор, который тоже задается в диапазоне (картинка называется по нему). Т.е. раньше это было реализовано так - я задаю диапазон чисел, и с него с определенным шагом каждой картинке присваивается номер, который есть в базе, и который является названием картинки на диске. Также нужен размер и вес картинки.
Также нужна возможность запускать скрипт через крон, чтобы не было проблем на сервере.
По скорости, желательно, чтобы за день можно было таким образом выкачивать 1-2 тысячи запросов хотя бы, без особого геморроя в виде перезапуска скрипта и тд