Заказ на парсер

Анна19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
28.10.2013

Есть заказ на парсер!

Для упрощения замены пропущенных или не заполненных полей нужен парсер, который сможет обработать исходный архив статей сайта и выдать SQL скрипт, который можно будет загрузить на сервер и обновить пропущенные поля.

В папке архива выпусков журнала 29 подпапок вида issueNN и 4 подпапки без номера. NN - номер выпуска. Парсер должен будет запускаться под Windows в отдельных подпапках, с дополнительным параметром --issueId - этот параметр отличается от номера выпуска NN. Для каждой подпапки будет задан свой issueId.

В каждой подпапке содержится до 30 файлов вида MM_XXYY.aspx и 1 intro.aspx (этот файл пропускаем). MM - номер статьи в выпуске, XX, YY - не интересуют

В файле aspx - html-текст с вкраплениями VB.NET. Из файла aspx нужно извлечь 2 поля:

1) Поле SpecialForVMInnerText - по RegExp ]*>.*(.*)[^

2) Поле AuthorThanks - по RegExp (.*)

Эти поля могут присутствовать не во всех фалйах.

На выходе нужно получить SQL-скрипт в формате MSSQL следующего вида.

update Articles

set SpecialForVMInnerText = 'Значение регулярки №1', AuthorThanks = 'Значение регулярки №2'

where IssueId={параметр issueId} and SortPosition = {MM из названия статьи}

Если оба поля пусты - пропускаем эту статью.

Один скрипт для каждой подпапки. Выполнять SQL-скрипт не требуется (его нужно сначала проверить глазами на наличие аномалий).

Парсер может быть на любом из следующих языков: c#, c++, delphi, php, sed.

По результату парсер и исходники.

Жду вашего ответа! Архив по запросу.