Универсальный PHP парсер контента с сайтов.
Есть база данных, в ней есть ссылки на сайты.
Требуется парсить контент с сайтов и добавлять в базу.
Предложения минимум 4 слова от первого слова с Заглавной буквы до точки.
Не брать предложения, которые оканчиваются многоточием или другими знаками препинания - ";" ":" и т.п.
Например, "В этой книге, последней из опубликованных знаменитым английским астрологом XVII в. Уильямом Лилли, под мостом ..." - Сохранится = В этой книге, последней из опубликованных знаменитым английским астрологом XVII в.
Не анкоры, т.е. берем только голый текст, если это предложение является анкором - игнорируется.
Если предложение до точки, но в ней есть какое-то слово, которое является анкором ссылки, но это слово с маленькой буквы. То тег
Не брать предложения, в которых есть цифры.
Не брать предложения, в которых есть слешы - \ или /
Не брать предложения, в котрых есть знаки препинания отличные, от тире, двоеточия, запятой.
Список может быть дополнен в процессе.
Перемешать все предложения в конце работы.
Есть аналог парсера контета с сайтов, уже готовый. Может пригодится, как база.