Обработка mysql таблицы - удаление дублей
Есть таблица mysql в ней есть колонка megasup с текстом (статьями), а так же есть колонка tom (название тома). Всего уникальных томов около 1000, необходимо пройтись по каждому тому (колонка tom) и удалить дубликаты строчек в таблице (дубликаты по содержимому колонки megasup, по сути дубликаты статей встречающихся в пределах одного tom, один экземпляр дубликата оставляем). Дубликатом будем считать тогда, когда первые 200 статьи идентичны, при этом мы не учитываем встречающиеся теги html (
и
- они в одинаковых статьях могут быть на разных местах, но от этого статьи не перестают быть одинаковыми), разность в переносе строк, пробелы, т.е. учитываем только одинаковость последовательности символов, т.к. форматирование (перенос строк) может быть не идентична при идентичности статей.
Т.е. к примеру запускаем скрипт, он берет первое значение колонки tom "ааа" и проходит все строчки таблицы с этим значением tom и если по колонке megasup встречаются дубликаты, то оставляем только один из них.
У скрипта необходимо прикрутить онлайн мониторинг, чтобы понятно было какой tom на данный момент проходим, когда проверен очередной tom на наличие дубликатов.
Работа на субботу. Завтра с 11:00 до 13:00 в онлайне и хотелось бы определиться с исполнителем по проекту и все вопросы, которые могут у вас возникнуть.