Обработка mysql таблицы - удаление дублей

Олег18 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
23.07.2010

Есть таблица mysql в ней есть колонка megasup с текстом (статьями), а так же есть колонка tom (название тома). Всего уникальных томов около 1000, необходимо пройтись по каждому тому (колонка tom) и удалить дубликаты строчек в таблице (дубликаты по содержимому колонки megasup, по сути дубликаты статей встречающихся в пределах одного tom, один экземпляр дубликата оставляем). Дубликатом будем считать тогда, когда первые 200 статьи идентичны, при этом мы не учитываем встречающиеся теги html (

и
- они в одинаковых статьях могут быть на разных местах, но от этого статьи не перестают быть одинаковыми), разность в переносе строк, пробелы, т.е. учитываем только одинаковость последовательности символов, т.к. форматирование (перенос строк) может быть не идентична при идентичности статей.

Т.е. к примеру запускаем скрипт, он берет первое значение колонки tom "ааа" и проходит все строчки таблицы с этим значением tom и если по колонке megasup встречаются дубликаты, то оставляем только один из них.

У скрипта необходимо прикрутить онлайн мониторинг, чтобы понятно было какой tom на данный момент проходим, когда проверен очередной tom на наличие дубликатов.

Работа на субботу. Завтра с 11:00 до 13:00 в онлайне и хотелось бы определиться с исполнителем по проекту и все вопросы, которые могут у вас возникнуть.

Заявки фрилансеров