Верификация базы данных CRM системы сайта

Сделана выборка из базы ДубльГИС данных более 5000 записей (во вложении в формате MS EXCEL). Но база данных была актуальна на сентябрь 2013 года и в выборку попали не профильные организации (проблема рубрикатора ДубльГИС). Нужно вручную открывать сайты организаций, бегло смотреть раздел «Продукция/Услуги», и чистить базу, чтобы потом мы могли загрузить её в CRM систему сайта и прозвонить.

Критерии для удаления записей:

1. Сайт не работает, не открывается, домен не продлен или выставлен на продажу;

2. Не профильная тематика компании (нет смысла им звонить, выслать компред);

3. Дублирование записи.

Должны остаться такие сайты, подобно www.bryansk-vorota.ru

Т.е. они торгуют воротами, шлагбаумами, приводами для ворот. И они могут потенциально покупать ОПТОМ (от 100 шт) пульты для шлагбаумов и ворот.

Также такие организации могут параллельно заниматься домофонами, видео-наблюдением, пожарной сигнализацией и прочим. Главное, чтобы на сайте в разделе продукция/товары/услуги/прайс-лист были приводы для ворот и шлагбаумы или услуги по их монтажу.

P.S. Выборка была сделана автоматический при помощи SQL-запроса и выгружена в MS EXCEL для ручной чистки.

WHERE `sa` != ''

AND `strana` = 'Россия'

AND (`cat` LIKE '%Автоматические ворота / двери%' OR `cat` LIKE '%Системы безопасности и охраны%')

AND `name` NOT LIKE '%бухгалтер%'

AND `name` NOT LIKE '%текстиль%'

AND `name` NOT LIKE '%дизайн%'

AND `name` NOT LIKE '%окна%'

AND `name` NOT LIKE '%двери%'

AND `name` NOT LIKE '%текстиль%'

AND `name` NOT LIKE '%шторы%'

AND `name` NOT LIKE '%ДорХан%'

AND `name` NOT LIKE '%спутник%'

AND `name` NOT LIKE '%интернет-магазин%'

AND `cat` NOT LIKE '%окна%'

AND `cat` NOT LIKE '%остекление балконов / лоджий%'

AND `cat` NOT LIKE '%портьерные ткани / шторы%'

AND `cat` NOT LIKE '%входные двери%'

AND `cat` NOT LIKE '%интерьерные лестницы / ограждения%'

Т.е. были выбраны только российские компании из рубрик «Автоматические ворота / двери» и «Системы безопасности и охраны», у которых есть веб-сайт и нет определенных слов в названии и в названиях рубрик.