Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Исходные данные:

- есть пул ключевых слов, например "красоте, красоту, красоты, маска, маски, маску"

- есть исходный сайт, пусть будет site.ru (для тестов сайт есть готовый)

Требуется спарсить все ключевые фразы с сайта, которые содержат ключевые слова, в нашем случае "мечта о красоте, салон красоты, как навести красоту, маска для лица, какая лучшая маска, как сделать маску дома" и т.п., по определенным критериям.

Алгоритм работы скрипта.

Задаю:

- количество потоков

- адрес сайта

- ключевые слова через запятую

- количество слов справа от ключевика, от и до (например, от 1 до 7, ключевик находится слева), получится набор фраз №1

- количество слов слева от ключевика, от и до (например, от 2 до 5, ключевик находится справа), получится набор фраз №2

- количество слов от ключевика по обеим сторонам (например, от 1 до 3, ключевик находится в центре), получится набор фраз №3

- символы, при обнаружении которых во фразе, такая фраза игнорируется (например, слово "маска" явилось первым словом в предложении и слева от него находится точка, следовательно, при добавлении даже одного слова во фразу слева от ключевика появится точка во фразе, тогда такую фразу игнорируем. Такими символами могут быть ,.?!:; и прочие знаки препинания)

- регистр знаков в ключевике в контенте игнорируется

После задания исходных данных:

Скрипт в многопоточном режиме сканирует каждую страницу сайта между тегами , добавляя к каждому ключевику по заданному количеству слов справа, слева и от центра по очереди. При необходимости могу остановить работу скрипта, поставить на паузу, продолжить парсинг.

Сканируемая страница/страницы отображаются, чтобы я видел, что скрипт работает, а не завис или стоит.

Дубликаты фраз удаляются, но подсчитывается количество для выходного файла.

После завершения работы парсер информирует об окончании.

Выходные данные:

Файл xls с колонками "Ключевик/Фраза/Кол-во фраз на сайте/Положение ключевика":

- ключевик – ключ, по которому ведется парсинг

- фраза – фраза с этим ключевиком

- кол-во фраз на сайте – сколько раз эта фраза попалась за парсинг

- положение ключевика – где находился ключевик в составе фразы (слева/справа/центр)

Возможно как решение для компьютера на OS Windows, так и серверный вариант с управлением через веб-интерфейс.

Готов выслушать и ответить на Ваши вопросы и предложения.

Если Вы готовы выполнить данное задание, то, пожалуйста, ОБЯЗАТЕЛЬНО, укажите срок и стоимость выполнения. Без этих данных заявка сразу идет в отказ.

9 лет назад
ekamenskiy
Каменский 
43 годаРоссия
13 лет в сервисе
Был
4 года назад
  • Похожие заказы
  • Здравствуйте! Необходим программист, который сможет реализовать скрипт для инвестиционного (хайп) проекта, наподобие - https://boss-auto.net Чтобы понять, о каком скрипте идет речь, зарегистрируйтесь в проекте (https://boss-auto.net/office/registration) и войдите в Личный кабинет. Помимо стандартных опций Регистрация/Авторизация в Личном кабинете ...

    Закрыт
    9 лет назад
  • Добрый день. Требуется разработать плагин для ВП (не для магазина). Если есть что-то подобное, то можно взять за основу. Есть товар, он может быть разнесен в несколько категорий/подкатегорий. Товар привязан к марке. Товару присущи признаки ( выводится списком ...

    Закрыт
    9 лет назад
  • Требуется добавить возможность ввода текста через отдельное поле и кнопку типа"Ваш текст", в результате после ввода и нажатия на эту кнопку пользователю выводилась его надпись и ссылка на нее в виде картинки. Исходник прикреплен.

    Закрыт
    9 лет назад
  • Есть два интернет-магазина: один на CMS под названием shopos.ru 2.5.9, второй на самописке (php+jquery). Нужно интегрировать способ оплаты через платежную систему paykeeper.ru по протоколу POST-API (опсание https://paykeeper.ru/paykeeper/software/install/informer/). Т.е. нужно брать номер заказа и сумму, отправлять из ...

    Закрыт
    9 лет назад
  • Необходимо на 2 сайтах: vpoicke.ru и advart1717.myjino.ru подключить формы обратной связи к моей почте. также на сайте advart1717.myjino.ru необходимо вставить прайс лист (примерно как здесь http://armatura-v-moskve.ru — можно этот прайс скопировать и вставить, только поменяв ...

    Закрыт
    9 лет назад
  • Нужен скрипт (бот) для браузерной онлайн-игры типа Бойцовский Клуб (http://top.roleplay.ru/r3223.htm). Брауузер - Chrome. Основная задача бота - выполнять однотипные квесты - прохождения подземелий. Работающий скрипт не должен мешать работе пользователя за компьютером (не забирать ресурсы и курсор ...

    Закрыт
    9 лет назад
  • $200

    для интернет потока нужно сделать плеер, который будет работать стабильно при разрывах интернета. поток нужно организовать: 1. icecast поток (mp3) 2. плеер (запуск в любом браузере) 3. пользовательская часть (воспроизведение) 3.1. предзагрузка потока (настраиваемая часть (возможность изменения времени ...

    Закрыт
    9 лет назад
  • Здравсвтуйте. Нужно настроить форму обратной связи на сайте. Сайт простой, множество html страничек. Нужно чтобы данные падали на почту и в эксель файлик. Работа недорогая и небольшая. Оставляйте свои заявки.

    Завершен
    9 лет назад
  • $1000

    Требуется фрилансер для написания скрипта который будут имитировать однообразные действия пользователя (переход по ссылкам, заполнение и отправка форм и т.п.) Знание: JS, css, html, AJAX и желательно php.

    Закрыт
    9 лет назад