Парсинг объявления с сайта
ТЗ на разработку ПО для скачивания и переноса данных с сайта в БД
1. Авторизация на сайте. Один из списка: zernovozonline.ru, http://www.zernovoz.su/ , zol.ru, shipgo.ru, перевозка-зерна.рф
2. Заполнение полей в фильтре объявлений. Регион – Ростовская область, тип – услуга, Культура – пшеница. В идеале создать интерфейс, в котором пользователь может менять критерии в фильтре
3. Запуск поиска по значениям фильтра
4. Скачивание каждого объявления по результатам поиска
5. Анализ текста объявления для поиска значений и заполнения полей в БД
a. Дата внесения записи в БД
b. Вес(если возможно) – числовое значение между «пробелом» и «т» или «тонн».
c. Дистанция – числовое значение между «пробелом» и «км» или «километр». Или указать в БД – «анализ дистанции невозможен»
d. Цена – числовое значение между «пробелом» и «р» или «руб» или «рублей» за тонну, т.е. одно из сочетание «р/т» или «р за тонну» или «руб за тонну» и т.д. » Или указать в БД – «анализ цены невозможен»
e. Вычислить цену в рублях за тонну за километр [руб/(т*км)] путем деления поля цена на поле дистанцию
f. Откуда – текстовое значение: критерии поиска
i. Между «пробел» и «пробел», «тире». Пример « Ростов – Москва»
ii. Между «из » и « в» или Между «из » и « до»
iii. Другие критерии по тексту объявлений
g. Куда – текстовое значение: критерии поиска аналогично Откуда
h. Дата объявления – из текста объявления
i. Номер объявления на сайте(если возможно)
j. Автор – из текста объявления или отдельное поле в таблице
k. Контакт – из текста объявления или отдельное поле в таблице
l. Тип услуги(если возможно) – запрос перевозки или предложение перевозки. Или указать в БД – «анализ типа услуги невозможен»
m. с перегрузом или без?(из текста объявления). значения "да/нет/не указано"
n. ссылка на объявление в сети интернет
6. При повторном запуске добавлению в БД новых объявлений
7. Язык разработки – один из списка: VBA, VBS, c++, php, perl
8. Графический интерфейс
9. Данные выгружать в БД SQL, тогда с удобным графическим интерфейсом просмотра и выгрузки в текст или ексель или сразу в файл ексель