Скрипт парсинга и обработки выдачи по условию
УКАЗЫВАЙТЕ СРАЗУ ЦЕНУ И СРОКИ (ЗАЯВКИ БЕЗ ЭТИХ ПАРАМЕТРОВ НЕ БУДУТ РАССМАТРИВАТЬСЯ)
СРОКИ – ГАРАНТИРОВАННЫЕ
Язык программирования – php, python, delphi, c++, c#.
Если ЯП delphi, c++ или c# – потребуются исходные коды в том числе.
Цель:
Определить сайт компании из массива выдачи по входным данным.
Входные данные:
TXT-файл со строками (формат данных – одно значение либо два значения через
запятую, значение – это любое словофраза через пробел), пример строки с
двумя значениями: Торговый дом Прометей, мебель.
Процесс:
Загружаем файл с входными данными. Нажимаем кнопку "Обработать". Скрипт читает
первую строку, вырезает запятые (если есть, заменяя пробелом) и
вставляет её в строку поиска и получает выдачу, а именно – только первые
10 результатов поиска. Далее скрипт открывает каждый URL выдачи и
обрезает его до главной страницы домена (домен может быть как 2го, так и
3го уровня). С каждого полученного домена скрипт идёт по первым 100
внутренним страницам и на каждой странице он ищет вхождение первого
значения из обрабатываемой строки и отдельно второго значения (если оно
есть) из обрабатываемой строки. Если более чем на 3х внутренних страниц
есть и первое вхождение и второе вхождение – то данный домен
записывается в результирующий файл. В 90% случаях при обработке одной
строки из загружаемого файла (полученных 10 страниц выдачи) – в
результирующий файл будет записываться только один домен. Если по данным
условиям не найдено не одного файла, то в результирующий файл
записывается значение "Не найдено".
Дополнительные функции:
- Если поле "Ключ AntiGate" заполнено, то капчи поисковых систем должны
обрабатываться антикапчей. Если поле не заполнено, но капчи попадаются –
то в логе (блоке хода выполнения) это должно как-то фиксироваться,
чтобы было понимание, что надо вставить ключ антикапчи.
- Если стоит только чекбокс "Яндекс" – то парсинг идёт только по поисковой системе Яндекс и результат пишется в файл yandex.txt
- Если стоит только чекбокс "Google" – то парсинг идёт только по поисковой системе Google и результат пишется в файл google.txt
- Если выбраны оба чекбокса "Яндекс" и "Google" – то поиск производится
по двум поисковым системам с получением двух результирующих файлов
yandex.txt и google.txt
- Скрипт должен работать в многопоточном режиме(!)
Интерфейс:
- Поле "Файл для обработки" с выбором файла для загрузки (обязательное поле).
- Поле "Ключ AntiGate" (не обязательно для заполнения)
- Чебоксы "Яндекс" и "Google" (по умолчанию оба выбраны)
- Кнопка "Обработать файл".
- Блок с ходом выполнения, а именно – сколько строк (или какой процент) обработался.