Отпарсить сайт и собрать базу данных
Есть определенная работа - однократно "отпарсить" данные с одного сайта и собрать их в базу данных мускул
эта база будет в дальнейшем использована на сайте, посвященном переводу книг нового завета
будет поиск, редактирование и дополнительное структурирование базы
оригинальный сайт - http://www.bible.in.ua/underl/index.htm
это подстрочный перевод книг нового завета
офлайн версия сайта скачивается здесь - http://www.bible.in.ua/underl/underl.exe
нужно «извлечь» содержимое книг нового завета и словарей
книг 24, содержимое их однообразное - оригинальные греческие слова с набором данных к каждому из них
словарей два - «номер Стронга» и «словарное определение»
(в "словарном определении" нет значений для некоторых слов)
структура данных книг такова:
оригинальное греческое слово (γενέσεως )
транскрипция1 (апОстолос)
транскрипция2 (апУстулос)
подстрочник винокурова (апостол)
морфологические характеристики (Существительное Именительный падеж Единственное число Мужской род )
номер стронга (652)
коневая форма (γενέσεως )
традиционная библейская нумерация (номер главы, стиха)
- так каждое слово греческого оригинала имеет такой одинаковый набор данных
"книга" состоит из кучи таких вот слов, без запятых и прочего деления на предложения
но у каждого слова есть свой номер для поиска
или другими словами - база это таблица, где каждое слово греческое это одна колонка, в каждой строке которой стандартный набор данных каждого слова. далее когда будет разработан интерфейс сайта, будет происходить дальнейшее структурирование базы - разбивка на предложения и абзацы
словари устроены также просто, номер стронга и значение.
словари различаются лишь подробностью, каждое слово оригинала имеет свой номер Стронга
остальные данные которые есть на сайте винокурова - игнорируются
также нужно сохранить возможность работы с разными кодировками, как это сделано на сайте винокурова, в разделе "настройки"
тоесть, есть подстрочный перевод Алексея Винокурова, который он разрешает свободно использовать.
я хочу сделать то же самое, но по своему.
например автор программы greekNT проделал подобную работу - использовал данные Винокурова и сделал свой аналог интерфейса - мне нужен больший функционал чем в этой программе
алгоритм работы предлагаю такой - вы делаете одну книгу (первую из списка, "матфея"), если результат качественный - я расплачиваюсь за нее, и также за последующие книги, по факту выполненной работы
сейчас хочу выбрать исполнителя по стоимости его работы - цена за одну книгу, цена за словари
проект некоммерческий, а скорее научно-образовательный, поэтому желательна цена доступная
после этапа формирования базы мускул - планирую разработку самого сайта, на хтмл пхп яваскрипт цсс
результат работы для проверки и тестирования нужен в виде работающей базы мускул, простейшим образом представленной в виде хтмл страницы, с элементарной навигацией по книгам, с включением/отключением любого класса элементов базы данных (например отключить транскрипции) и в отдельном окне/фрейме отображение словаря для выбранного слова по номеру Стронга. и с возможностью выбора кодировки и представления греческого текста (как это у винокурова сделано)
в приложении эскиз интерфейса для тестирования базы