Подготовить CSV из PDF часто задаваемых вопросов
Добрый вечер, есть PDF(PDF содержит текст, копировать можно) файл с часто задаваемыми вопросами. Необходимо из него вытащить 104 вопрос/ответа в 5 разделах и сформировать файл CSV.
Ниже требования:
- Скопировать вопрос и ответ в формат описанные ниже
- Формат структуры: вопрос, ответ, порядковый номер вопроса, номер строки начала вопроса, имя раздела (пример файла приложил)
- Отбирать только те вопросы, ответ которых состоит из нескольких абзацев текста, без картинок и таблиц (если есть сомнения лучше спросить)
- Те вопросы что не были добавлены, нужно отметить в отдельном файле (структура файла страница вопроса, почему не был добавлен)
- Обрезать пустые символы пробела спереди и сзади
- Сделать первые 20 вопросов и показать, после подтверждения что все Ок, сделать остальные
- Необходимые разделы
- Страница 3, ПОИСК, 7 вопросов
- Страница 66, РАСХОЖДЕНИЯ В ДАННЫХ, 22 вопроса
- Страница 94, КАРТОЧКА И ЕЕ СОСТАВЛЯЮЩИЕ, 34 вопроса
- Страница 130, ИНДЕКСЫ, 18 вопросов
- Страница 165, СЕРВИСЫ, 23 вопроса
- PDF файл предоставлю отобранным кандидатам.