Отпарсить сайт и собрать базу данных

Россиянин15 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

05.09.2010

Есть определенная работа - однократно "отпарсить" данные с одного сайта и собрать их в базу данных мускул

эта база будет в дальнейшем использована на сайте, посвященном переводу книг нового завета

будет поиск, редактирование и дополнительное структурирование базы

оригинальный сайт - http://www.bible.in.ua/underl/index.htm

это подстрочный перевод книг нового завета

офлайн версия сайта скачивается здесь - http://www.bible.in.ua/underl/underl.exe

нужно «извлечь» содержимое книг нового завета и словарей

книг 24, содержимое их однообразное - оригинальные греческие слова с набором данных к каждому из них

словарей два - «номер Стронга» и «словарное определение»

(в "словарном определении" нет значений для некоторых слов)

структура данных книг такова:

оригинальное греческое слово (γενέσεως )

транскрипция1 (апОстолос)

транскрипция2 (апУстулос)

подстрочник винокурова (апостол)

морфологические характеристики (Существительное Именительный падеж Единственное число Мужской род )

номер стронга (652)

коневая форма (γενέσεως )

традиционная библейская нумерация (номер главы, стиха)

- так каждое слово греческого оригинала имеет такой одинаковый набор данных

"книга" состоит из кучи таких вот слов, без запятых и прочего деления на предложения

но у каждого слова есть свой номер для поиска

или другими словами - база это таблица, где каждое слово греческое это одна колонка, в каждой строке которой стандартный набор данных каждого слова. далее когда будет разработан интерфейс сайта, будет происходить дальнейшее структурирование базы - разбивка на предложения и абзацы

словари устроены также просто, номер стронга и значение.

словари различаются лишь подробностью, каждое слово оригинала имеет свой номер Стронга

остальные данные которые есть на сайте винокурова - игнорируются

также нужно сохранить возможность работы с разными кодировками, как это сделано на сайте винокурова, в разделе "настройки"

тоесть, есть подстрочный перевод Алексея Винокурова, который он разрешает свободно использовать.

я хочу сделать то же самое, но по своему.

например автор программы greekNT проделал подобную работу - использовал данные Винокурова и сделал свой аналог интерфейса - мне нужен больший функционал чем в этой программе

алгоритм работы предлагаю такой - вы делаете одну книгу (первую из списка, "матфея"), если результат качественный - я расплачиваюсь за нее, и также за последующие книги, по факту выполненной работы

сейчас хочу выбрать исполнителя по стоимости его работы - цена за одну книгу, цена за словари

проект некоммерческий, а скорее научно-образовательный, поэтому желательна цена доступная

после этапа формирования базы мускул - планирую разработку самого сайта, на хтмл пхп яваскрипт цсс

результат работы для проверки и тестирования нужен в виде работающей базы мускул, простейшим образом представленной в виде хтмл страницы, с элементарной навигацией по книгам, с включением/отключением любого класса элементов базы данных (например отключить транскрипции) и в отдельном окне/фрейме отображение словаря для выбранного слова по номеру Стронга. и с возможностью выбора кодировки и представления греческого текста (как это у винокурова сделано)

в приложении эскиз интерфейса для тестирования базы

JavaScript PHP