Скрипт парсинга по названию компании
УКАЗЫВАЙТЕ СРАЗУ ЦЕНУ И СРОКИ (ЗАЯВКИ БЕЗ ЭТИХ ПАРАМЕТРОВ НЕ БУДУТ РАССМАТРИВАТЬСЯ)
СРОКИ – ГАРАНТИРОВАННЫЕ
Язык программирования – php, python, delphi, c++, c#.
Если ЯП delphi, c++ или c# – потребуются исходные коды в том числе.
Цель:
Определить сайт компании из массива выдачи по входным данным.
Входные данные:
TXT-файл со строками (формат данных – одно значение либо два значения через запятую, значение – это любое словофраза через пробел), пример строки с двумя значениями: Торговый дом Прометей, мебель.
Процесс:
Загружаем файл с входными данными. Нажимаем кнопку "Обработать". Скрипт читает первую строку, вырезает запятые (если есть, заменяя пробелом) и вставляет её в строку поиска и получает выдачу, а именно – только первые 10 результатов поиска. Далее скрипт открывает каждый URL выдачи и обрезает его до главной страницы домена (домен может быть как 2го, так и 3го уровня). С каждого полученного домена скрипт идёт по первым 100 внутренним страницам и на каждой странице он ищет вхождение первого значения из обрабатываемой строки и отдельно второго значения (если оно есть) из обрабатываемой строки. Если более чем на 3х внутренних страниц есть и первое вхождение и второе вхождение – то данный домен записывается в результирующий файл. В 90% случаях при обработке одной строки из загружаемого файла (полученных 10 страниц выдачи) – в результирующий файл будет записываться только один домен. Если по данным условиям не найдено не одного файла, то в результирующий файл записывается значение "Не найдено".
Дополнительные функции:
- Если поле "Ключ AntiGate" заполнено, то капчи поисковых систем должны обрабатываться антикапчей. Если поле не заполнено, но капчи попадаются – то в логе (блоке хода выполнения) это должно как-то фиксироваться, чтобы было понимание, что надо вставить ключ антикапчи.
- Если стоит только чекбокс "Яндекс" – то парсинг идёт только по поисковой системе Яндекс и результат пишется в файл yandex.txt
- Если стоит только чекбокс "Google" – то парсинг идёт только по поисковой системе Google и результат пишется в файл google.txt
- Если выбраны оба чекбокса "Яндекс" и "Google" – то поиск производится по двум поисковым системам с получением двух результирующих файлов yandex.txt и google.txt
- Скрипт должен работать в многопоточном режиме(!)
Интерфейс:
- Поле "Файл для обработки" с выбором файла для загрузки (обязательное поле).
- Поле "Ключ AntiGate" (не обязательно для заполнения)
- Чебоксы "Яндекс" и "Google" (по умолчанию оба выбраны)
- Кнопка "Обработать файл".
- Блок с ходом выполнения, а именно – сколько строк (или какой процент) обработался.