Проверить текст на уникальность в пределах базы

Дмитрий16 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
19.11.2013

Имеется большое количество html-текстов (до 50 тыс файлов, до 200кб каждый файл). Нужно на C# (обязательно для msvc 2008) разработать функцию, которая разобьет все тексты на шинглы и проверить все шинглы на уникальность. Выведет результат в % - уникальность каждого текста в пределах базы и исходный html-текст с подсвеченными желтым цветом не уникальными шинглами.