Описание каталога литературы
Redactor, Abd, Sergeant, tfk

Организация библиотеки
   Все книги одним списком
   Поиск книг по классификатору

Формат djvu

Сканирование и оцифровка книг
   Перед тем, как начать
   Оборудование и программное обеспечение
   Последовательность работы
      Сканирование
      Чистка и форматирование
      Переброс в "нормальный формат"
      Оцифровка (не обязательно)
      Оформление (не обязательно)

Поиск, обмен и распространение книг
      Поиск
      Распространение

Дополнение:
      How to scan


CD cover

Каталог литературы включает книги по биологии, медицине и пособия для изучения иностранных языков. Большинство книг прислано участниками сайта molbiol.ru.

На этой странице описано, как организован каталог, приводятся советы по сканированию и оцифровке литературы.



    Организация каталога литературы

    Все книги одним списком
    книги на английском языке: molbiol.ru/review/05_01.html
    книги на русском языке: molbiol.ru/review/05_00.html

    Окно броузера разделено на две части по горизонтали. В верхней части перечислены книги в алфавитном порядке. Если навести курсор на название книги, появится подсказка: серия, издательство, количество страниц и ISBN.

    Если кликнуть по названию, в нижней части откроется подробное описание книги: аннотация, выходные данные, картинка обложки, ссылка на оглавление (у некоторых книг описания не полные — нет обложки, или ISBN, или оглавления, в таких случаях соответствующий элемент даже не упоминается). В комментариях к описанию — обсуждение книги и ссылки на online-источники.

    Оглавление книги откроется в отдельном окошке, если щелкнуть по кнопке Оглавление книги. Это будет либо html-страница, либо pdf-документ.


    Поиск книг по классификатору
    molbiol.ru/index.php?can=lit

    Окно броузера разделено на две части по вертикали. В правой части приведены три раздела классификатора: (i) "Область", (ii) "Язык и уровень", (iii) "Где можно найти". Если щелкнуть по названию откроются разделы классификатора. Количество книг в каждом разделе приведено в квадратных скобках. Если кликнуть по квадратным скобкам в левой части окна будут выведены описания книг соответствующего раздела (по 7 описаний на страницу при "подробном" показе и по 25 — при кратком).




    Формат djvu

    Наиболее часто встречающийся формат англоязычных библиотек — "pdf", русскоязычных — "djvu". Разница в том, что обычный путь англоязычной книги в электронную библиотеку:

    "компьютерный макет в издательстве" --> "pdf-версия" --> "библиотека"


    а путь русскоязычной:

    "книжка из магазина" --> "сканирование" --> "библиотека"


    В первом случае нужно перенести макет книги в доступный всем формат с сохранением форматирования, а во втором — сохранить набор графических страниц в файле минимального размера.

    Пакет страниц в формате "djvu" в среднем в 3-6 раз меньше, чем в формате "pdf". Книги можно смотреть в браузере после установки плагина с сайта компании LizardTech (установка автоматическая, не требует администраторских привилегий). Тот, кто хочет самостоятельно создавать документы в формате "djvu" могут воспользоваться бесплатно распространяемой программой "DjVuSolo3.1/некоммерческая версия" (2,2Мб) той же компании (установка без адм. привилегий). Существует более мощная платная программа — "Document Express".




    Сканирование и оцифровка книг


    Перед тем, как начать

    NB! прежде чем сканировать книгу, проверьте, не сделано ли это до вас (см. "Поиск, обмен и распространение книг"). Если книга нашлась в списке сканированных, не поленитесь в неё заглянуть. "Отсканировано" не всегда означает "отсканировано с приемлемым качеством". Весьма вероятно, что вы предпочтёте сделать хороший скан, а не маяться с плохим.

    Создание электронной книги состоит из трёх этапов:

    1. постраничное (или "по-разворотное") сканирование физической книги, промежуточный результат — набор tiff-файлов с изображениями страниц;
    2. обработка изображений страниц (подчистка, разрезание разворотов на отдельные страницы, поворот, преобразование цвета);
    3. подготовка конечного продукта — компактных файлов в формате PDF и/или Djvu; возможно — оцифровка.

    Обратите внимание, что даже без второго этапа (подчистки, разрезания и т.д.) часто удаётся получить вполне приемлемое качество и размер конечного файла.



    Оборудование и программное обеспечение

    Потребуются сканер и компьютер с нормальной производительностью (сканирование — ресурсоёмкое и достаточно долгое мероприятие). Даже дешевый сканер должен давать скорость ~45-60 сек. на разворот (две страницы). Удачная модель (в пределах 200$) может быть в полтора-два раза быстрее.

      Особое замечание о фотографировании, как альтернативе сканирования. Несомненные преимущества — фотоаппарат работает быстрее, чем сканер; страницы удобнее переворачивать сверху. Недостаток — при "непрофессиональном подходе" результаты гораздо хуже, чем при сканировании. Несколько моментов, на которые необходимо обратить внимание:

      • если кадрировать полем фотоаппарата, то (i) останутся поля; (ii) по краям снимка прямые превратятся в кривые. Чистка полей сведёт на нет преимущество в скорости фотографирования. Если не чистить, размер файлов будет большим. Чтобы кадрировать внутри поля съёмки, нужно использовать фотоаппарат, подсоединённый к компьютеру (управление с компьютера);
      • чтобы кадр не плавал, фотоаппарат должен быть закреплён в штативе, поверхность, на которой лежит книга, должна иметь уголок-упор;
      • освещение должно быть равномерным и без бликов (при глянцевой бумаге), перед съёмкой каждой новой книги необходимо выставить в фотоаппарате "белый цвет" на пустой странице книги;
      • книжку при съёмке лучше придерживать в раскрытом состоянии, так как иначе листы выгнутся;
      • важно, чтобы фотоаппарат выдавал "сырые" снимки, а не переводил их в формат jpeg (устанавливается в опциях фотоаппарата). JPEG совершенно не приспособлен для хранения графики. Он всё превращает в "переходы" цвета. В свою очередь, djvu воспринимает "переходы" как фон и не справляется со сжатием файлов. Итог: "сканирование книг" и "формат JPEG" АБСОЛЮТНО несовместимы.



    Все это знают, но на всякий случай... ниже упоминаются некоторые коммерческие программы. Некоторые из них недёшевы (FineReader7 — 130$; Adobe Photoshop — 650$). Если вы находитесь в России, поспрашивайте вокруг, в любом городе есть магазины или киоски, где эти же программы можно купить по цене 3-10$.


    Любители экстремальных задач могут справится со сканированием, имея на компьютере только софт сканера и доступ к интернету (tiff файлы со сканера переводятся в djvu на any2djvu.djvuzone.org).

    "Достаточно удобный" набор для сканирования включает в себя ещё FineReader; совсем удобно, если есть программы для редактирования pdf и djvu: Adobe Acrobat (не Reader) и DjVuSolo.

    Список программного обеспечения "от души":

    • собственно сканирование
      • софт сканера
      • "FineReader" от ABBYY (сейчас — 7я версия)
    • чистка полученных картинок
      • "ScanKromsator", автор: Bolega
      • FineReader или какая-либо программа для работы с растровыми изображениями: "Photoshop", "PhotoStudio", и т.п.
    • переброс в "нормальный формат" и редактирование
      • "FineReader"
      • "Acrobat" от Adobe для работы с pdf-документами
      • "DjVuSolo", а лучше "Document Express" от AT&T Labs Technology для работы с djvu-документами
    • оцифровка
      • "FineReader"
      • "FRFGrab" от gencho
    • оформление страниц книги
      • UniDream
    • автоматизация повторяющихся операций

    Кроме того, в папке "How to scan" приводятся описания ещё нескольких полезных утилит (для пакетных преобразований, для контроля длины имён файлов перед записью CD и т.п.).



    Последовательность работы

    Сканирование

    • занятие это долгое, лучше иметь под рукой хорошую музыку или фильм;
    • оптимально использовать программу FineReader, она позволяет организовать автоматическое сканирование — не нужно будет нажимать на кнопки (только переворачивать страницы). Кроме того, она автоматически выровняет наклон и разрежет развороты на отдельные страницы.;
    • обычно используется разрешение 300dpi (если ниже - заметно падает качество; если выше - растёт время сканирования и размер файлов);
    • перед сканированием проверьте, что стекло сканера чистое;
    • чтобы не просвечивало изображение с обратной стороны листа, лучше прокладывать чёрную картонку;

    Выбор режима сканирования сильно зависит от того, как выглядит исходный текст. Общее правило — надо использовать "минимальный формат", соответствующей странице. Это не только значительно уменьшает размер файлов, но и делает текст более читабельным.

    1. только текст (даже если он цветной) или текст со схемами без полутонов:
      1. "чёрно-белый" режим сканирования, 300 dpi;
      2. после очистки (см. ниже) — перевод в djvu в режиме "bitonal".

    2. текст с небольшим количеством серых (15-20%) рисунков или черно-белых фотовставок:
      1. "чёрно-белый" режим сканирования, 300 dpi;
      2. страницы с серыми рисунками и черно-белыми фотографиями дополнительно сканируются 300 dpi в gray-scale режиме (в отдельные файлы);
      3. все gray-scale страницы доводятся в Photoshop: выделяете рисунок, переводите режим в ч-б и подбираете яркость, контраст, если нужно, перегоняете через фильтр увеличения резкости или какой-либо другой, позволяющий наиболее реалистично представить картинку. Готовый рисунок переносится (Copy/Paste) на соответствующую ч-б страницу;
      4. если по технологии, описанной в предыдущем пункте, ничего хорошего не получается, тогда превратите страницы с полутоновыми изображениями в отдельные djvu-файлы в режиме "clean". Готовые djvu-страницы собираются вместе в djvu-редакторе.

    3. текст с большим количеством полутоновых рисунков или фотографий:
      1. "gray-scale" режим сканирования, 300 dpi (настраиваются яркость и контраст);
      2. после очистки (см. ниже) — перевод в djvu в режиме "clean".

    4. книга с цветными вклейками:
      1. сканирование основного текста - "чёрно-белый" режим сканирования, 300 dpi. Цветные вклейки сканируются отдельно в цветном режиме и, учитывая, что цветовая гамма в научной полиграфии, как правило, небогатая, можно подобрать режим сканирования в цвете с небольшим количеством цветов (Web-палитра или 256 цветов);
      2. вклейки конвертируются в отдельные цветные djvu-файлы. Готовые djvu-страницы собираются вместе в djvu-редакторе.

    5. фотокнига или полноцвет:
      1. сканируете как есть в том разрешении, в котором не утрачиваются детали, но желательно не переусердствовать (1200 dpi наверняка будет "перебором");
      2. после очистки (см. ниже) — перевод в djvu в режиме "clean" - если очень плохо, то в режиме "foto" или "scanned".

    Перед тем, как начинать работу, обязательно проверьте качество сканирования на странице с "типичным текстом" и "типичной картинкой". Настройте параметры сканирования так, чтобы текст и картинки были отчётливо видны, но сама страница оставалась белой и обратная сторона не просвечивала. Не жалейте время на оптимизацию настроек — оно окупится при чистке страниц.

    На следующем этапе грязь будет по "лишним полям", если с большим запасом выставить размер сканирования и в месте сгиба корешка; проблемы с качеством — из-за удаления текста от стекла в месте сгиба и из-за наклона книги во время сканирования.

    Не ленитесь аккуратно установить размер сканирования. Не изменяйте его для данной книги (повернуть текст на 90 или 180 градусов можно будет в электронном документе без потери качества). Следите за тем, чтобы книга была плотно прижата к стеклу (особенно, в начале и в конце книги). В некоторых случаях имеет смысл разобрать книгу на страницы (например — вы вскоре уедете за границу и книги с собой не потащите) — это облегчит работу. Для разобранной книги можно поискать в окрестностях автоматический сканер — он сэкономит кучу времени.

    Сканированные страница лучше сохранять в формате TIFF (главное - не jpg, про этот формат при сканировании забудьте, он только для фотографий; сканы он НЕПОПРАВИМО портит). Не стоит сканировать сразу в djvu или pdf (хотя "Adobe Acrobat", "DjVuSolo" и "Document Express" позволяют так делать), так как djvu- и pdf-файлы неудобно чистить.

    TIFF-скан (или проект в FineReader) лучше сохранить на каком-нибудь CD(R). Стоят они недорого, зато останется возможность вернуться к исходным картинкам.


    Чистка и форматирование

    Очистить весь пакет страниц от грязи по полям поможет пакет ScanKromsator. Некоторые функции программы (подробнее в руководстве):

    • автоматическое исправление наклона страниц;
    • разрезание разворотов страниц на две отдельные страницы;
    • автоматическое определение ширины книги и приведение размеров всех ее страниц к единому значению, автоматическое исправление полей страниц;
    • уборка лишних или "грязных" полей;
    • уборка черных полос на развороте страниц;

    При сканировании в цвете на страницах может оставаться паразитный оттенок. Его можно убрать с помощью цветокоррекции в "Photoshop".

    После пакетной обработки оставшиеся на страницах огрехи можно исправить в FineReader или каком-нибудь графическом редакторе: "Photoshop", "PhotoStudio", и т.п.

    Лучше (но не обязательно), если развороты разделены на отдельные страницы, а номера страниц соответствуют страницам книги.


    Переброс в "нормальный формат"

    "Нормальными форматами" для чтения являются pdf, djvu, doc. FineReader способен сохранить пакет графических файлов в pdf (если каждую страницу отметить как один графический блок). Для перевода в djvu можно использовать "DjVuSolo", а лучше "Document Express". Ещё один (очень хороший) вариант для djvu — бесплатная онлайн-служба перевода документов из форматов GIF, TIFF, PDF, PS в формат дежавю. Для отправки на сервер слишком большие файлы лучше разбить на части порядка 10Mb (по 60-100 страниц).


    Оцифровка (не обязательно)

    Полностью перевести книгу в цифровой формат — очень тяжелая задача. Провести собственно оцифровку (получение текста из картинок) несложно, но проверить полученный документ на опечатки и восстановить прежнее форматирование в каком-нибудь MS Word — задача для гигантов.

    Реальность на сегодня:

    1. либо книжка без оцифровки вообще — одни картинки страниц;
    2. либо оцифровка, привязанная к картинке (читатель видит исходную картинку, так что проблем с опечатками нет; но, кроме того, любой текст сопровождается оцифровкой, так что его можно выделить и скопировать. Выглядит всё так, будто копируется нарисованный текст, на самом деле - стоящая за ним оцифровка. Если оцифровка без ошибок, разницы нет. К счастью, ошибки встречаются редко. Эта же оцифровка позволяет проводить поиск по тексту.

    Выбор программы оцифровки русских текстов однозначен: FineReader. Английские djvu-файлы можно оцифровать на сервере any2djvu.djvuzone.org.

    Привязать русскую оцифровку к файлам djvu поможет программа FRFGrab. Интерфейса у программы нет. Командная строка в стиле UNIX. FineReader-проект сохраняется в графическом файле (или файлах); из него(них) создаётся djvu-документ. Текст распознаётся в FineReader. На файлы проекта натравливается FRFGrab, который извлекает распознанный текст. Другой утилиткой текст загоняется в DjVu. Результат — файл DjVu в котором работает поиск и возможность copy/paste.


    Оформление (не обязательно)

    Под этим понимается создание оглавления с гиперссылками (гиперссылки можно делать без оцифровки) и (если хочется) размещение на всех страницах надписей типа "сканировал Dr.X; не для продажи".

    Создать гиперссылки в djvu-файле можно с помощью "Document Express": во второй линии меню выбираем маркер и мажем им по строчке в оглавлении. Правым кликом мыши вызываем свойство Hyperlink.

    Разместить одну и ту же надпись на всех страницах можно с помощью программы UniDream.




    Поиск, обмен и распространение книг

    Поиск

    В сети существует несколько коллекций сканированной научной литературы. Первыми зашевелились физики и математики и сейчас их библиотека занимает 14 DVD дисков. Приводить здесь web-адреса библиотек нет никакого смысла. Во-первых, список постоянно меняется, так как одни библиотеки умирают, а другие — рождаются. Во-вторых, многие администраторы не одобряют появление своих адресов на открытых ресурсах. Если хотите узнать текущее состояние дел, идите на сайт "Ru-Board", форум "Варезник" (нужно будет зарегистрироваться) и найдите там раздел "Книги, Физика, Математика, Химия, Биология, Медицина...". Покопайтесь там и наверняка найдёте и список библиотек и правила доступа (обычно — весьма либеральные).

    Ещё один вариант — по рукам бродит множество электронных оффлайн-библитотек. Обычно это несколько CD- или DVD-дисков с оглавлением или без оного (свалка книжек). Поспрашивайте знакомых — найти эти библиотеки не слишком сложно. Если будете спрашивать через форум, имеет смысл представиться и указать место работы — вполне аозможно, что библиотека есть у Ваших соседей за стенкой.


    Наконец — нужную книгу можно поспрашивать на форуме (в этой теме; NB! администрации сайта письма слать бесполезно, по email книги не рассылаются). Обычно на вежливые просьбы народ откликается.


    Распространение

    Если поделиться с коллегами отсканированной книгой, то у хозяина её не убудет, зато, возможно, с ним тоже чем-нибудь поделятся.

    Чтобы сделать книгу доступной, можно отправить её в известную коллекцию книг (кстати, тогда администратор коллекции отнесётся гораздо внимательнее к вашей просьбе о доступе).

    Сделать книгу доступной в сети для множества адресатов можно самостоятельно. Заведите бесплатный почтовый ящик с неограниченным объёмом (mail.ru, yandex), разбейте книгу на части и загрузите их в этот почтовый ящик. Теперь достаточно выслать коллегам адрес ящика и пароль, книгу они заберут сами.





                MolBiol.Ru: http://molbiol.ru
                e-mail: redactor@molbiol.ru