Парсер сайтов
Нужен php скрипт (функция) без всяких фреймворков который будет подключаться к основному проекту через include и вызываться.
суть функции:
- парсер структуры сайта (неглубокий)
- заходим на сайт (домен) который передаеться через параметр в функцию сканим все href заходим на каждую страницу этой структуры и парсим полный пакет данных title, meta tags (все) и т.д. после чего в ответ этой функции генерируем json или xml не имеет значения
Пример ответа:
{
{
"/qp3wg23g/f12f":
{
"name":"links name (тот что в !!!)",
"title":"msn",
"keywords":"msn, microsoft",
......... (и т.д. все возможные тэги )
},
"/hello":
{
"name":"links name (тот что в !!!)",
"title":"msn hellow",
"keywords":"msn, microsoft",
......... (и т.д. все возможные тэги )
}
}
}
Важно:
1) в ответ включать нужно только линки принадлежащие этому домену, любой выход за пределы домена не обрабатывать и не включать в ответ.
2) Не использовать curl
3) При запросе user agent и другие параметры максимально прибилизить к реальному браузеру.