Многопоточный PHP парсер Интернет
Многопоточный PHP парсер Интернет
Имеется 3 файла:
1. список нехороших URL'ов; (исключения для парсера)
2. списки хороших слов; (содержит списки ключевых слов на разные темы)
3. список нехороших слов; (исключения для парсера)
Словоформы использовать ненужно, проверка только на полное совпадение слов/фраз из списка.
Требуется парсировать все подряд Интернет-странички (включая подстранички) для накопления текстов в базе данных.
Должны парсироваться сайты (и их подстранички), которые успешно прошли через список нехороших URL'ов и нехороших слов.
С сайтов и их подстраничек должны собираться тексты, которые имеют длину 150 и более слов.
Если внутри найденного текста найдено несколько из слов какой-либо категории из списка хороших слов, то этот текст сохранятеся под id соответствующей категории.
Ведение лога.
Предложения типа "я всё могу, пишите мне в личку..." или "вот моё мыло, пишите мне..." - ОТКЛОНЯЮТСЯ СРАЗУ!
Резюме принимаются по Skype.
Мой ник: sabia-sd