ФОРМАТЫ ЭЛЕКТРОННЫХ КНИГ
ФОРМАТЫ ЭЛЕКТРОННЫХ КНИГ
Книги бывают представлены в основном в одном из 3 самых распространённых форматов - PDF. DJVU. CHM.

PDF (Portable Document Format) это переносимый формат документов , созданный Adobe как средство межплатформенного обмена данными. Хотя существует масса способов передать документ, например, между Windows и Mac OS, Adobe PDF предлагает наиболее элегантное решение. Формат не накладывает никаких ограничений на внешний вид документа — текст, векторная и растровая графика могут быть объединены произвольным образом. Реализуется принцип «все мое ношу с собой» — для просмотра PDF-файла не нужно ничего, кроме самого файла и бесплатной программы Acrobat Reader.PDF создавался как формат электронного документа. Необходимость быстрого перемещения по страницам и объектам документа обусловила иерархическую структуру данных PDF. В начале файла находится оглавление, показывающее где и какие объекты расположены в файле, затем идут сами данные. Для того, чтобы что-либо делать с PDF-файлом, его нужно иметь целиком, поскольку фрагмент данных, который понадобится первым, может находиться в любой части файла — в том числе и в самом конце. Для документов с явным преобладанием текста и векторной графики формат PDF, как правило, обеспечивает заметное сокращение объема файла (с соответствующим сокращением времени пересылки по сети и т. д.).



DjVu (дежа-вю) - графический формат, разработанный фирмой AT&T, оптимизированный для хранения отсканированных документов. Особое значение этот формат приобретает для переноса в сеть математической и вообще технической литератуы, где обилие схем и формул делает распознавание и перевод в текстовый формат практически невыполнимым. . В настоящее время DjVu становится фактическим стандартом для электронных библиотек технической и научной литературы. Отныне существует компромисный вариант - перевод отсканированных картинок в формат DjVu (дежа-вю). При этом текст и контрастные рисунки сохраняются с разрешением 300dpi, все остальное считается фоном и сохраняется с пониженным разрешением. Это позволяет хорошо сжать электронный документ без потери его читаемости. Размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что вполне приемлемо.
Разработанный фирмой AT&T Технологию DjVu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500:1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия.


Программа для просмотра DjVu файлов:
WinDjView 0.4.1 + модуль русского языка (прим. 500Kb)




CHM (Compiled HTML) Изначально формат CHM был создан для формирования удобной и функциональной справочной системы к программам Windows. Этот формат часто используется не только для создания хелп-систем к ПО, но и для издания книг в электронном виде. Самой сильной стороной этого формата является наличие в CHM файлах полнотекстового поиска. Вкратце файл CHM —это набор скомпилированных HTML-файлов, т. е., другим языком, что-то вроде архива из Web-страниц. И действует CHM-файл по принципу архива, сжимает данные, хранящиеся в нем, но не все, а только текстовые или содержащие текст, отформатированный с помощью тегов HTML (HTML, TXT, CSS и файлы других форматов).



Единого стандарта для создания е-книг не существует. Применяются различные форматы, среди которых наиболее распространенными являются PDF, EXE, CHM, DJVU и некоторые другие.

PDF (Portable Document Format) - это переносимый платформонезависимый портативный формат электронных документов. Данные импортируются из большинства современных форматов текстовых документов, векторных и растровых графических форматов. Для просмотра PDF-файла не нужно ничего, кроме самого файла и бесплатной программы Acrobat Reader. В начале файла находится оглавление, показывающее где и какие объекты расположены в файле, затем идут сами данные. Для документов с явным преобладанием текста и векторной графики формат PDF, как правило, обеспечивает заметное сокращение объема файла (с соответствующим сокращением времени пересылки по сети и т. д.). У PDF-формата много достоинств, но есть и недостатки: во-первых, файлы PDF невероятно громоздки, во-вторых, в них отсутствует мало-мальски приемлемая защита - преодолеть пароль и ограничение на печать можно за несколько секунд. Несмотря на это, в этом формате распространяется большинство технической документации. Лидером среди публикаций в PDF-формате является всем известный Adobe Acrobat. Но применяются также PRIMO PDF, PDF Creator, Foxit Reader, ScanToPDF и некоторые другие менее известные программы.

*.Exe. Большой популярностью при создании е-книг пользуется формат самоисполняемых файлов с расширением *.exe. Файл *.exe состоит из двух частей: из управляющей информации для загрузчика и, собственно, загрузочного модуля. Информация для загрузчика расположена в начале файла и образует так называемый заголовок. Сразу за ним следует тело загрузочного модуля. Тело загрузочного модуля начинается на границе блока и представляет собой копию образа памяти задачи, которую построил компоновщик. Е-Книга в этом формате может содержать текст, рисунки, анимацию, навигационный гипертекст, поиск в е-книге, живые линки на вебстороны, Java Applets и JavaScripts. Большинство программ в качестве исходников применяют HTML, GIF, JPEG и стандартные плагины. Имеется возможность применения парольной защиты всей е-книги, а также отдельных страниц, запрет на печать и копирование, что позволяет активно использовать при коммерческом распространении именно этот формат. Конечно, у него есть и свои ограничения: книги ExeBook работают только на платформе WIN32. Однако, легкость и быстрота изготовления макета, позволяет изготовлять е-книги не только профессиональным издателям, но и самиздату. Самоисполняемость файла обеспечивает работу без дополнительного программного обеспечения. Внешний вид книги максимально приближен к печатной форме и потому создает привычные ощущения чтения обычной книги.

DjVu (дежа-вю от фран. déjà vu — уже виденное) - это технология сжатия изображений, разработанная специально для распространения сканированных документов — книг, прежде всего математических, журналов и пр. DjVu иногда называют «тексто-графическом» форматом. Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовывать удобную навигацию в DjVu книгах. Размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что вполне приемлемо. DjVu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500:1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия.

CHM (Compiled HTML). Изначально формат CHM был создан для формирования удобной и функциональной справочной системы к программам Windows. Этот формат часто используется не только для создания хелп-систем к ПО, но и для издания книг в электронном виде. Самой сильной стороной этого формата является наличие в CHM файлах полнотекстового поиска. Вкратце файл CHM — это набор скомпилированных HTML-файлов, т. е., другим языком, что-то вроде архива из Web-страниц. И действует CHM-файл по принципу архива, сжимает данные, хранящиеся в нем, но не все, а только текстовые или содержащие текст, отформатированный с помощью тегов HTML (HTML, TXT, CSS и файлы других форматов).

*.LIT. Закрытый формат от Microsoft, основанный на OEB. Индексации не поддается, воспринимается только «родной» программой MS Reader. Microsoft LIT включает ряд инструментов, которые делают его очень похожим на Adobe PDF: в частности, доступны закладки, аннотации и масштабирование. Степень сжатия текста — 50-60%.

*.iSilo (Pаlm Os Platform /pdb - Palm Pilot Database format) - очень популярный формат базы данных для карманных устройств. Используется во всех 3Com PalmPilot, IBM Workpad и Macintosh/PC для сохранения записей в базе данных. Одно из главных достоинств — высокая степень сжатия текста. Поддерживает множество шрифтов, корректно работает с графикой, позволяет вставлять в книги гиперссылки. Размер одной записи может превышать 64кб, имеются биты BackUp и т.д. Через вьювер от iSilo книги в формате PDB выглядят как в формате CHM. Особенных достоинств у этого формата не наблюдается, однако встречаются весьма интересные книги скомпилированные в PDB.

*.PalmDOC (он же — PDB и AportisDoc). Еще один популярный Palm-формат. Его нормально воспринимает большинство программ для чтения электронных книг. Но при этом степень сжатия гораздо ниже, чем у iSilo.PDB, а графика не поддерживается вовсе.

*.FB2. (FictionBook 2.0) - это открытый формат, основанный на XML, что (теоретически) позволяет создать программы для чтения на любой платформе. Поддержка Unicode полностью решает проблему корректного отображения текстов на разных языках. Поддерживается графика. Для Windows и Pocket PC выпущено множество инструментов для чтения книг в этом формате и для конвертации в него текстов из других форматов, существуют библиотеки, поддерживающие FB2 и экспорт из него в различные форматы. Однако, пока нет читалок FB2 под другие платформы.

*.RB. Был разработан специально под устройства для чтения электронных книг Rocket Book и сейчас постепенно умирает.

*.zTXT. - закрытый формат, очень похожий на PalmDOC, но с гораздо более высокой степенью компрессии (до 45%). Допускает возможность вставки закладок, поддерживает гиперссылки. Доступен на Palm OS.

*.PRC. Palm-формат. Поддерживается программой Mobi Pocket.

*.TR (ToRaTRPW). - формат программы Tome Raider. Отличается одной из наиболее высоких степеней сжатия. А благодаря возможности индексации текста этот формат можно использовать при составлении каталогов электронных книг.

*.DataPlkr. - открытый формат Plucker — специальной программы, предназначенной для просмотра веб-документов на Palm. Корректно отображает рисунки, гиперссылки, разные шрифты. А конвертирование в этот формат даже не требует запуска внешних приложений — после установки соответствующего ПО его можно производить с помощью контекстного меню.

*.FBR. - защищенный формат данных, доступных для чтения программой Franklin Reader.

*.eBookMan. - был создан специально для прообраза современных Palm, устройства под названием Franklin eBookMan, и сегодня практически не используется.

*.HTML По открытости, индексируемости, конвертируемости и читаемости на любой платформе к формату нет никаких претензий. Иное дело, что полноценная книга с иллюстрациями будет состоять из нескольких файлов, а это не слишком удобно. К тому же отсутствует сжатие. Возможностями HTML пользуются многие форматы, основанные на нем, например iSilo.

*.TXT Противоречивый формат. С одной стороны, он не поддерживает оформление текста, а с другой — нет такой платформы, на которой txt-файл нельзя было бы прочесть.

*.OEB Открытый формат, основанный на XHTML (XML) и созданный в свое время консорциумом компаний под предводительством Microsoft. По сути, OEB-книга представляет собой ZIP-архив xhtml- (xml-), графических файлов и файла с информацией о документе в целом. В своем текущем состоянии формат практически мертв, однако сейчас OpenReader Consortium строит грандиозные планы по расширению возможностей OEB и его превращению в действительно универсальный формат
Категория: Полезно знать | Добавил: mirpiar (25.09.2008) | Автор: добавил админ
Просмотров: 4209
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Больше информации