Парсер, выкачивающий картинки
Привет. есть сайт - allmovie.com
мне необходимо создать парсер, который будет коннектиться к сайту, делать POST на поиск фильма с определенным названием и выкачивать картинку этого фильма в нужную папку. и туда ложить preview.
Структура базы:
ID : integer - autoincrement
TITLE - varchar(200)
year - varchar(10)
prev_image_url - varchar(200)
full_image_url - varchar(200)
В ней 10 тыс. записей.
И далее по алгоритму
1. берем Title (Это англ. название фильма)
2. берем year (это год 1999 например)
3. Делаем поиск в Allmovie.com
4. Парсим результаты - в них находим название фильма и уточняем по году если надо (названия иногда дублируются)
5. Скачиваем картинку (там она фулл) в папку (это ниже) с именем = ID Этой записи
6. Делаем файл preview этой картинки - пропорциональный , чтобы высота была 100 пикселей
7. делаем апдейт соотв. полей в базе.
Структура папки
/moviefotos/prev/0/...
/moviefotos/prev/11/...
/moviefotos/prev/../...
/moviefotos/full/0/...
/moviefotos/full/99/...
/moviefotos/full/../...
Подпапка вычисляется по округляем(ID/1000), это необходимо, чтобы избежать большого кол-ва файлов в одной папке.
Платформа - линух
В дополнение:
Дублирующиеся названия - попробуйте ввести на сайте "The Wind' - появится несколько вариантов фильма.
Поэтому и нужен Год выпуска, чтобы не промазать