Скрипт парсера фраз с сайта по заданным критериям
Исходные данные:
- есть пул ключевых слов, например "красоте, красоту, красоты, маска, маски, маску"
- есть исходный сайт, пусть будет site.ru (для тестов сайт есть готовый)
Требуется спарсить все ключевые фразы с сайта, которые содержат ключевые слова, в нашем случае "мечта о красоте, салон красоты, как навести красоту, маска для лица, какая лучшая маска, как сделать маску дома" и т.п., по определенным критериям.
Алгоритм работы скрипта.
Задаю:
- количество потоков
- адрес сайта
- ключевые слова через запятую
- количество слов справа от ключевика, от и до (например, от 1 до 7, ключевик находится слева), получится набор фраз №1
- количество слов слева от ключевика, от и до (например, от 2 до 5, ключевик находится справа), получится набор фраз №2
- количество слов от ключевика по обеим сторонам (например, от 1 до 3, ключевик находится в центре), получится набор фраз №3
- символы, при обнаружении которых во фразе, такая фраза игнорируется (например, слово "маска" явилось первым словом в предложении и слева от него находится точка, следовательно, при добавлении даже одного слова во фразу слева от ключевика появится точка во фразе, тогда такую фразу игнорируем. Такими символами могут быть ,.?!:; и прочие знаки препинания)
- регистр знаков в ключевике в контенте игнорируется
После задания исходных данных:
Скрипт в многопоточном режиме сканирует каждую страницу сайта между тегами , добавляя к каждому ключевику по заданному количеству слов справа, слева и от центра по очереди. При необходимости могу остановить работу скрипта, поставить на паузу, продолжить парсинг.
Сканируемая страница/страницы отображаются, чтобы я видел, что скрипт работает, а не завис или стоит.
Дубликаты фраз удаляются, но подсчитывается количество для выходного файла.
После завершения работы парсер информирует об окончании.
Выходные данные:
Файл xls с колонками "Ключевик/Фраза/Кол-во фраз на сайте/Положение ключевика":
- ключевик – ключ, по которому ведется парсинг
- фраза – фраза с этим ключевиком
- кол-во фраз на сайте – сколько раз эта фраза попалась за парсинг
- положение ключевика – где находился ключевик в составе фразы (слева/справа/центр)
Возможно как десктопное решение (в приоритете), так и серверный вариант с управлением через веб-интерфейс.
Готов выслушать и ответить на Ваши вопросы и предложения.
Если Вы готовы выполнить данное задание, то, пожалуйста, ОБЯЗАТЕЛЬНО, укажите срок и стоимость выполнения. Без этих данных заявка сразу идет в отказ.