PDF vs DJVU

Myp

frig писал(а):

хотя я бы уходил в сторону более вменяемых форматов djvu не люблю.

это какие такие более вменяемые форматы? я тока чтото pdf могу припомнить

Модератор "Digit":тема выросла из этого

frig

Цитата:

я тока чтото pdf могу припомнить

мало?

Myp

ну если в природе всего 1 вменяемый формат существует...
то джа конечно этого мало

дэжавю нормальный формат имхо.

frig

Цитата:

дэжавю нормальный формат имхо.

только читать эти кривые буквы не особо приятно... не говоря уже о поиске, о том, что иногда страницы перекошены... а так нормальный.

m2

Кто-нибудь смотрел мои новые идеи по перелистыванию - вот тут: http://natahaus.info/forums/showpost.ph ... stcount=66 ?

Надеюсь услышать оценку по ним.
frig

Цитата:

только читать эти кривые буквы не особо приятно... не говоря уже о поиске, о том, что иногда страницы перекошены... а так нормальный.

Это вовсе не есть недостатки формата DjVu - а лишь банальное неумение народа сделать DjVu-книгу как положено. Вот посмотрите для примера образец качественного DjVu:

http://www.djvu-soft.narod.ru/scan/djvu_example.rar (554 КБ) (Для просмотра необходима программа WinDjView).
Поиск там работает, буквы и читать приятно, и не перекошены.
Инструкция как правильно делать DjVu-книги есть - вот она: http://www.djvu-soft.narod.ru/scan/123.htm
Причём эта технология постоянно прогрессирует.
По сравнению с Pdf, DjVu значительно менее требователен к памяти - что позволяет легко просматривать его на всяких слабых покетах.

frig

Цитата:

Это вовсе не есть недостатки формата DjVu - а лишь банальное неумение народа сделать DjVu-книгу как положено. Вот посмотрите для примера образец качественного DjVu:

посмотрел. точно тоже о чем я говорю. шрифты плывут, на странице 3 бока в середине страницы, на странице 6 в конце, что-то с точками... в общем тоже что и обычно.

я не против djvu и пользуюсь им, когда нет альтернативы, но pdf предпочитаю больше.

Цитата:

По сравнению с Pdf, DjVu значительно менее требователен к памяти - что позволяет легко просматривать его на всяких слабых покетах.

увы наблюдается процесс увеличения мощностей ВСЕХ вычислительных устройств и экономия ресурсов уже мало кого интересует. а на всяких слабых покетах можно смотреть просто чистый текст, если уж больно нужно.

Добавлено спустя 3 минуты 43 секунды:
перелистывать, имхо, вакуумом, либо вообще руками-полуавтоматом-автоматом вставить между страницами леску. да, их будет много, но зато гарантировано

сама по себе процедура перелистывания сложна и не всегда удается людям. что про машины говорить. странички нежные, слепленные, еще и сжатые во время сканирования. и страничку надо отделить, одну, не помять... а как контролировать, что отделена одна страница? ну распознав текст можно считать номера страниц и кое чего понять... но тоже, имхо, приятного в такой затее мало.

Добавлено спустя 4 минуты 14 секунд:
заглянул по ссылкам и аж проникся... это ж сколько всего надо прочитать, чтобы сделать нормальный djvu! :shock:

прямо шаманом надо стать.

а pdf.. поставил finereader, нажал 2 кнопки и готово. надо будет пофоткать книжки, пораспознавать... посмотреть чего из этого выйдет.

m2

frig

Цитата:

процесс увеличения мощностей ВСЕХ вычислительных устройств и экономия ресурсов уже мало кого интересует

Дай то бог. Но пока что вот такие штуки слабоваты: http://doc.the-ebook.org/lBookeReaderV3/print

Цитата:

шрифты плывут, на странице 3 бока в середине страницы, на странице 6 в конце, что-то с точками...

Не понял это.

Цитата:

а pdf.. поставил finereader, нажал 2 кнопки и готово. надо будет пофоткать книжки, пораспознавать... посмотреть чего из этого выйдет.

В том-то и дело, что никаких "нажал 2 кнопки и готово" не может быть и с PDF. Если распознавать - то мудохаться вручную вычитывать. Но как известно, технческие книги не поддаются распознаванию (схемы, таблицы, формулы мешают).

Цитата:

заглянул по ссылкам и аж проникся... это ж сколько всего надо прочитать, чтобы сделать нормальный djvu! прямо шаманом надо стать.

Ну так чтобы сделать нормальный растровый PDF - надо проделать ровно всё то же самое. Самое сложное - обработать сырые сканы - которые потом конвертируются либо в растровый PDF, либо в DjVu.

Цитата:

я не против djvu и пользуюсь им, когда нет альтернативы, но pdf предпочитаю больше.

Если говорить о чисто векторном PDF - то никто не будет спорить, что это лучше, чем DjVu. Но Вы попробуйте сначала его сверстать из сырых сканов - и во что это Вам обойдётся.

Быстрее и проще загнать в DjVu.

Технология DjVu не стоит на месте - она ещё будет развиваться и упрощаться для конечного пользователя. Есть идея сделать удобный самодельный наборчик программ для всего цикла создания DjVu-книги (вместо разношёрстной кутерьмы как сейчас). Вот лучше помогите нам такой робосканер придумать.

frig

Цитата:

Дай то бог. Но пока что вот такие штуки слабоваты: http://doc.the-ebook.org/lBookeReaderV3/print

это на арме-то с 200Мгц и 64 метрами Озу?? хм. сомневаюсь я чего-то в этом...

Цитата:

Не понял это.

смотрите приведенный образцовый документ.

Цитата:

В том-то и дело, что никаких "нажал 2 кнопки и готово" не может быть и с PDF.

все зависит от качества сканирования. если это нормальная книга, а не древний папирус, то ровень распознания будет более чем высокий. Да и пара букв на 10 страниц - не критично.

Цитата:

Но как известно, технческие книги не поддаются распознаванию (схемы, таблицы, формулы мешают).

не знаю, кому как известно, а таблицы finereader жрет аж визжит, а формулы просто рисует картинками.

Цитата:

Если говорить о чисто векторном PDF - то никто не будет спорить, что это лучше, чем DjVu. Но Вы попробуйте сначала его сверстать из сырых сканов - и во что это Вам обойдётся.

Быстрее и проще загнать в DjVu.

я про векторный и говорю. сырые сканы тоже бывают разные. а распознавать, так народ и посложнее вещи распознает... чертежи, например. с синьки. с пятнами. так что все возможно. и даже если не сейчас, то с каждой новой версией качество распознавания только растет.

Цитата:

Вот лучше помогите нам такой робосканер придумать.

придумать... чего придумывать-то? странички перелистывать все равно будет либо сложно, либо не надежно. уж больно хрупкая инстанция эти странички...

вариант предложенный моим отцом (все никак не уговорю его здесь зарегаться) пускай и сложный, но вариант. берем вакуум, поднимаем страницу вертикально а потом второй присоской с обратной стороны пытаемся оттащить прилипшую страницу. попыток отлепить страницу должно быть "количество отлепленный страниц+1" т.е. работать будет даже если страниц слеплено больше одной и есть защита от ошибок.

m2

Цитата:

это на арме-то с 200Мгц и 64 метрами Озу?? хм. сомневаюсь я чего-то в этом...

Так что, как видите, не так уж и растёт крутизна оргтехники...

А по идее - именно на таких устройствах (и ни на чём более) и следует читать DjVu.

Цитата:

а таблицы finereader жрет аж визжит,

Да уж знаю я, как он там таблицы распознаёт.

Ни одной без ошибок не распознает. По крайней мере, это касается перемычек.

Цитата:

так народ и посложнее вещи распознает... чертежи, например. с синьки. с пятнами. так что все возможно

Да, но какой ценой? Трудозатраты на DjVu гораздо меньше, чем на вёрстку с распознаванием. И это при том, что ещё всё-таки нет путевой программы для подготовки сырых сканов для DjVu - а появится она - всё ещё упростится. Да одна только необходимость вычитать текст на предмет буквенных ошибок - это очень трудозатратно. А формулы - разве мыслимо их все вручную в ФР в зону-рисунок выделять? Ну на 1-2 книги Вас хватит. А если надо пару десятков научных монографий сделать?

Цитата:

и даже если не сейчас, то с каждой новой версией качество распознавания только растет.

Здорово, конечно, но нам ведь надо СЕЙЧАС.

Распознавание ещё слишком убого, чтобы заменить DjVu. В DjVu я могу без лишних хлопот загнать ЛЮБУЮ книгу - что уж никак не скажешь о распознавании. Тем более - если представить, что такой робосканер создан - то он будет делать минимум 1 книгу в день - предлагаете их все распознавать - верстать в векторный PDF? Да быстрее ножки протянуть...

Однако, наш диалог весьма полезен - он показывает, насколько ещё народ суеверно воспринимает DjVu.

Точно так же при Петре I крестяне не хотели сажать картошку.

Здесь можно одно посоветовать: пробуйте самостоятельно сделать DjVu-книгу - и сами убедитесь, что к чему. У DjVu соотношение "цена услилий - качество результата" на порядок выше, чем у OCR-вёрстка.

blindman

Интересно, а OCR справится с туркмено-монгольским словарем?

m2

Цитата:

странички перелистывать все равно будет либо сложно, либо не надежно. уж больно хрупкая инстанция эти
странички...

Да, в этом вся и сложность... Я думаю - книгу надо будет перед робо-сканированием как-либо "распушивать" руками, пролистывать листы, чтобы они "поотклеивались" друг от друга, чтобы не такие уж сильно слипшиеся были.

Я обновил страницу http://www.djvu-soft.narod.ru/scan/roboscanner.htm - добавил туда свежие итоги обсуждений.

Myp

древний боян гдето слышал

на кафедре препод потребовал диплом в электронном виде предоставить
наверно хотел както его потом использовать

так автор не поленился и распечатанный диплом по листику отсканировал и эти рисунки отдал преподу)

frig

Цитата:

Да одна только необходимость вычитать текст на предмет буквенных ошибок - это очень трудозатратно.

да и совершенно не обязательно к тому же...

Цитата:

А формулы - разве мыслимо их все вручную в ФР в зону-рисунок выделять?

не мыслимо. и именно по этому ФР все это делает сам. и формулы и рисунки и номера страниц "кушает" исправно.

Цитата:

Распознавание ещё слишком убого, чтобы заменить DjVu.

это ваше предвзятое мнение. DjVu убог так как выглядит уродливо.

тоже заявление что надо...

Цитата:

насколько ещё народ суеверно воспринимает DjVu.

увы, популярность djvu будет только падать. вычислительные мощности растут, алгоритмы распознавания совершенствуются, недостатки распознавания тают на глазах. с каждым годом. так что ждать улучшений для djvu не приходится. ни экономия ресурсов, ни экономия места (или при террабайтном винте важно сколько весят книжки?) уже никому не интересны.

так что как не крути, а если не завтра, так послезавтра djvu помрет. я уже сейчас всерьез подумываю о том, чтобы перегнать из djvu в pdf тот материал, что у меня есть. ибо pdf красив и удобен.

Digit

frig писал(а):

ибо pdf красив и удобен.

Frig, ты случаем не у адоба на содержании?

frig

Цитата:

:D Frig, ты случаем не у адоба на содержании?

эх... кто бы меня на содержание взял... рад был бы безмерно! :cry:

Добавлено спустя 15 минут 42 секунды:
смеха ради только что взял поставил ФР и тупо загнал туда картинку. распознало

. да, есть очепятки, но совершенно не смертельно! во вложении исходник и полученный pdf. все что я сделал - перетащил в окно ФР картинку и потом сделал "сохранить как PDF". ничего не правил. ФР 9-й.

roboforum.ru

PDF vs DJVU

Кто сейчас на конференции