Заказ на парсер
Есть заказ на парсер!
Для упрощения замены пропущенных или не заполненных полей нужен парсер, который сможет обработать исходный архив статей сайта и выдать SQL скрипт, который можно будет загрузить на сервер и обновить пропущенные поля.
В папке архива выпусков журнала 29 подпапок вида issueNN и 4 подпапки без номера. NN - номер выпуска. Парсер должен будет запускаться под Windows в отдельных подпапках, с дополнительным параметром --issueId - этот параметр отличается от номера выпуска NN. Для каждой подпапки будет задан свой issueId.
В каждой подпапке содержится до 30 файлов вида MM_XXYY.aspx и 1 intro.aspx (этот файл пропускаем). MM - номер статьи в выпуске, XX, YY - не интересуют
В файле aspx - html-текст с вкраплениями VB.NET. Из файла aspx нужно извлечь 2 поля:
1) Поле SpecialForVMInnerText - по RegExp ]*>.*(.*)[^
2) Поле AuthorThanks - по RegExp (.*)
Эти поля могут присутствовать не во всех фалйах.
На выходе нужно получить SQL-скрипт в формате MSSQL следующего вида.
update Articles
set SpecialForVMInnerText = 'Значение регулярки №1', AuthorThanks = 'Значение регулярки №2'
where IssueId={параметр issueId} and SortPosition = {MM из названия статьи}
Если оба поля пусты - пропускаем эту статью.
Один скрипт для каждой подпапки. Выполнять SQL-скрипт не требуется (его нужно сначала проверить глазами на наличие аномалий).
Парсер может быть на любом из следующих языков: c#, c++, delphi, php, sed.
По результату парсер и исходники.
Жду вашего ответа! Архив по запросу.