Парсинг поисковика
Необходимо написать парсилку поисковика (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed).
Сценарий работы:
- Парсилка запускается автоматически по крону.
- Поисковик получает запрос. Запрос с пометкой о сортировке результатов по времени.
- Новые результаты поиска, тех которых нет в БД, а также данные со страницы на которую они ведут записываются в MySQL (соответственно весь мусор должен удаляться)
Соответственно при первом запросе придется анализировать много страниц в поисковике, а дальше будет проще - при каждом последующем обращении результат поиска практически не меняется.
Крайне желательно чтобы парсилка представлялась в виде Интернет Браузера.
Трудность в том, что у поисковика все ссылки сделаны как ява-скрипты.
Общение через почту weblancer