Парсинг данных с сайта kad.arbitr.ru и автоматическая обработка текста
ТЗ: https://drive.google.com/open?id=1Cq0RvSWwIBqOmkFtDET73WhZp6YNSWyf
Коротко: необходим парсинг максимально возможного количества данных об арбитражных делах с сайта kad.arbitr.ru за период 2008-2012 гг. с последующей обработкой текстов, где ответчиками выступают ФАС, ФНС и ФТС. Во вложении – ТЗ с вкладками переписки прежнего исполнителя (сейчас его парсер не работает и он не готов в данный момент решать эту проблему), в дальнейшем будут присланы ИНН региональных подразделений ФАС, ФНС и ФТС.
Большая просьба также в итоговой БД зафиксировать эту информацию из кода страницы: https://drive.google.com/open?id=1l1A-ku3RdWt-kq4GZhsmL5CvWPEhz5FE
Идеальный конечный продукт: парсер, который впоследствии можно настраивать для парсинга и последующей обработки данных (текстов решений) с этого же сайта, где полями ввода будут данные сторон, тип (ответчик/истец) и период + сама база данных. Опционально можно договориться только о парсере, но очень хотелось бы, чтобы выгрузка данных не занимала много времени (больше 2 недель).
Также возможно в качестве конечного продукта договориться о непосредственно только базе данных.
Сумма оплаты и сроки обсуждаемы.
парсер, который впоследствии можно настраивать для парсинга и последующей обработки данных (текстов решений) с этого же сайта, где полями ввода будут данные сторон, тип (ответчик/истец) и период + сама база данных