C#. Модуль для индексации сайта. (Паук)
Указываем имя сайта.
Указываем количество уровней вложенности, которое нужно проиндексировать от главной. Указываем 2 фильтра:
1. Список подстрок которые должен содержать УРЛ (хотябы 1 из всего списка), чтобы мы обрабатывали страницу;
2. Список подстрок которые не должен содержать УРЛ (ни одну)
Указываем максимальное количество страниц, после достижения которого заканчиваем работу (0 - игнорировать).
Определяем кодировку сайта и начинаем индексировать.
У каждой страницы определяем уровень вложенности, число внутренних, число внешних и число внешних без учета и анкор по которому найдена от главной.
На форме отображаются в DataGridView результаты и количество найденых. Так же отображается количество в очереди и можно саму очередь страниц. Желательно чтобы работало в потоках.
Можно нажать остановить, тогда текущий результат сохраняется в файл, Можем продолжить после закрытия и повторного открытия программы. Форма не должна "тормозить" в процессе индексации.