Добавление функционала в скрипт
Нужно добавить в существующий скрипт удаления ссылок дополнительный функционал:
В файле 404.txt будет список ссылок с 404 ошибкой. Нужно, чтобы при запуске скрипта после удаления внешних ссылок удалялись и ссылки из этого списка.
Формат будет такой:
http://www.site.com/index2.html
http://www.site.com/images/picture34x.jpg
http://www.site.com/bloodletting.html
Соответственно, нужно залезть в каждый файл и найти ссылку в нем на эти файлы. Ну и я так понимаю, надо сначала смотреть точное соответствие (т. е. абсолютную ссылку), а потом - относительные ссылки.
Чтобы удалялись оба варианта:
site.com/images/cyber_city.jpg" target="_blank">
- из этого кода нужно просто удалить ссылку:
Кроме ссылок, нужно удалять также по списку 404 и картинки, т.е.
images/picture34x.jpg" width="400" height="261" border="0" alt="">
превращать в