Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Необходимо сделать скрипт парсинга ключевых слов со страницы статистики поисковых запросов http://stat.go.mail.ru/

Результат, который пользователь получает при вводе интересующего его слова на странице http://stat.go.mail.ru/ - таблица, в первой колонке которой приведены все варианты запросов, содержащие это ключевое слово, а во второй - количество запросов в месяц.

Наш скрипт, должен делать следующее: последовательно брать каждую строку первого столбца вышеуказанной таблицы результатов, то есть - брать те ячейки таблицы, в которых содержатся возможные варианты запросов, и записывать все эти слова в отдельный текстовый файл.

Скрипт должен иметь два поля и одну кнопку с функцией "отправить". Первое поле - поле, в которое вводится интересующее ключевое слово, на основе которого сайт http://stat.go.mail.ru/ будет выдавать нам возможные варианты запросов, которые вводили пользователи в поисковик. Второе поле - поле для ввода "стоп-слов". Подробнее о "стоп-словах" - ниже.

Скрипт должен выбирать из результирующей таблицы запросов и записывать в отдельный файл только те слова, которые удовлетворяют определенным критериям, а именно:

- эти ключевые фразы должны состоять не более, чем из четырех слов, то есть - скрипт должен отбрасывать длинные ключевые слова, он должен проверить длину ключевой фразы, посчитав в ней количество пробелов, если количество пробелов между словами, входящими в ключевую фразу превышает 3 - такое слово "отбрасывается" и в базу не заносится.

- слова, которые можно записать в базу - не должны содержать "стоп-слов", которые вводятся в вышеупоминавшееся поле для "стоп-слов". То есть - если ключевая фраза содержит "стоп-слова", например, "порно, взлом, кряк, ключ, бесплатно, скачать" - она также "отбрасывается" и в базу не записывается.

Скрипт должен "обойти" все страницы, которые выдает в ответ на запрос пользователя сайт http://stat.go.mail.ru/. То есть скрипт сначала обрабатывает первые 100 слов, затем переходит по ссылке на вторую страницу и обрабатывает следующие сто слов и так далее - до самого конца. В качестве параметра ссылки, который определяет порядковый номер каждой следующей сотни слов выступает параметр sf. То есть - ссылка на первую страницу результатов выглядит так:

http://stat.go.mail.ru/stats?q=word#, где "word" - исходное слово. Ссылка на каждую их последующих страниц имеет вид: http://stat.go.mail.ru/stats?&q=word&sf=num, где "num" - число, кратное 100.

Пример работы скрипта: на странице скрипта есть поле для ввода ключевой фразы. Есть поле для "стоп-слов". Предположим, мы вводим в поле для ввода ключевой фразы слово "пипетки", в поле для "стоп-слов" вводим слово "порно, скачать бесплатно".

Допустим, на первой странице статистики http://stat.go.mail.ru, при вводе слова "пипетки", мы получили следующую таблицу (приведен исходный код) (скрипт автоматически, после того, как мы нажали на кнопку с функцией "отправить" зашел на страницу http://stat.go.mail.ru, ввел интересующее нас слово в соответствующее поле на странице http://stat.go.mail.ru и нажал кнопку "сабмит" на этой странице и получил следующую интересующую нас часть):

Слова

Запросы

пипетки

111

автоматическая пипетка

46

пипетки пастера

19

...................................................................

...................................................................

...........остальная часть кода - здесь не приведена в целях экономии места....................

...................................................................

...................................................................

 

· 1 ·

 2 

 3 

  Далее › 

Скрипт должен "взять" все, что содержится между теми тэгами, в которые заключены варианты запросов, полученные на основе исходного ключевого слова и записать эти варианты запросов в отдельный txt-файл.

Предположим, что возможные кандидаты на запись в базу, это следующие слова:

пипетки

автоматическая пипетка

пипетки пастера

пипетки пастера пластиковые

ранетки пипетки

пользование пипеткой в невесомости космического корабля

пипетки модернизированные с турбонаддувом и подушками безопасности

пипетки скачать бесплатно

пипетки порно

Скрипт должен проверить все слова-кандидаты на "проф-пригодность", а именно - проверить, есть ли среди них "длинные" слова и есть ли среди них фразы, содержащие "стоп-слова". То есть, скрипт должен "вытянуть" все ключевые фразы за исключением слишком длинных фраз (фраз, которые содержат более четырех слов, либо, что то же самое - более трех пробелов) и за исключением фраз, в состав которых входят "стоп-слова", то есть - с первой страницы нужно "вытянуть" следующие слова:

пипетки

автоматическая пипетка

пипетки пастера

пипетки пастера пластиковые

ранетки пипетки

Скрипт должен "отбросить", то есть - не заносить в базу следующие слова:

пользование пипеткой в невесомости космического корабля (потому что очень длинная фраза - более четырех слов)

пипетки модернизированные с турбонаддувом и подушками безопасности (причина - аналогичная, то есть - очень длинная фраза - более четырех слов)

пипетки скачать бесплатно (в состав фразы входит стоп-слово "скачать бесплатно")

пипетки порно (в состав фразы входит стоп-слово "порно")

Абсолютно аналогичные действия скрипт должен совершить над всеми страницами статистики, которые ему выдаст в ответ на запрос с интересующим нас ключевым словом сайт http://stat.go.mail.ru. То есть - скрипт последовательно должен обойти и обработать в соответствии с вышеизложенным алгоритмом, сначала первую страницу с первой сотней результатов, затем - вторую страницу - со второй сотней результатов, затем - третью - с третьей сотней слов-кандидатов на запись в базу и так далее - до тех пор, пока страницы не закончатся.

P.S. Возможны следующие варианты: скрипт можно реализовать в какой-либо другой среде программирования (абсолютно на Ваш выбор) - единственное, что обязательно - это вышеописанный функционал. Реализация - на Ваше усмотрение. Также обязательно - указывать сроки изготовления и стоимость.

P.P.S. В личку - не писать. Оставлять заявки здесь.

15 лет назад
Zakazchikk
Александр 
37 летУкраина
17 лет в сервисе
Был
13 лет назад
Выбранный исполнитель
VadikV
55 летУкраина
16 лет в сервисе
Был
3 года назад
15 лет назад
$10
1 день
Скрипт на PHP был написан очень-очень быстро - буквально за 1 час. Данный факт говорит, по моему мнению, о: - высокой квалификации Вадима - о высокой степени ответственности - об умении выполнять работу в очень сжатые сроки В то время, как другие фрилансеры называли сроки от 1-го до 3-х дней, Вадим, как я уже сказал, сделал его в гораздо меньшие сроки. Во-вторых - все сделано в точности с ТЗ. В-третьих - все было сделано практически без дополнительных уточнений с моей стороны - Вадим в точности понял и выполнил поставленную перед ним задачу. Рекомендую всем!
Действительно отлично поставленные ТЗ. Никаких дополнительных вопросов и сомнений. Очень рекомендую этого заказчика.
  • Похожие заказы
  • Нужно анимировать несколько элементов со страницы (11 штук) нарезать и сверстать... добавить эффекты, добавить мышь все что есть прикрепил приостанавливаю проект, скорей всего буду редактировать этот проект либо создавать новый. требуется консультация (безвозмездно) если есть возможность то жду сообщений ...

    Закрыт
    15 лет назад
  • http://www.tvoymarket.ru/47756-taras-bulba.html Титл страницы такой: Смотреть онлайн {title}, скачать {title} >> Смотреть фильмы онлайн и скачать и т.д. Нужно сделать в таком душе: Смотреть онлайн {title}, скачать {title} онлайн Касается только полной новости. Аська 1332814 Вроде файл отвечающий за этот момент приложил.

    Завершен
    15 лет назад
  • Требуется: 1) при отправке формы на ящик должен также приходить уникальный номер заявки по порядку отправки формы. То есть если 1-ый посетитель отправил заявку на бронирование, то присваивается номер #1, если 27-ой посетитель, то #27, то ...

    Завершен
    15 лет назад
  • $250

    Нужно создать скрипт сбора инфы с моих сайтов + сделать сайт по типу одного моего + отдельно или вместе типа прокси списков пишите строго на е-мейл [email protected] на эл. почту захожу очень часто по возможности ...

    Закрыт
    15 лет назад
  • Есть движок, который не совсем корректно работает. нужно дописать и нормализовать файлообменник. подробности, лично. ТЗ вышлю на почту.

    Закрыт
    15 лет назад
  • Ответившим большое спасибо за предложения! Исполнитель, к сожалению, может быть только один и он выбран:) Всем удачи! Требования. Парсер работает автоматически по разделу. Я назначаю каким-либо образом раздел и парсер собирает данные по всем товарам этого раздела. Например, ...

    Закрыт
    15 лет назад
  • $500

    Добрый день, Описание проекта 1: 1. Из базы магазина Melbis Shop выбрать заказы покупателей, передать данные во внешний скрипт. Настроить SMS оплату в магазине 2. Настроить и установить готовый или свой скрипт файлового обменника с возможностью заливки по ...

    Закрыт
    15 лет назад