roboforum.ru

Технический форум по робототехнике.

PDF vs DJVU

PDF vs DJVU

Myp » 04 дек 2008, 19:25

frig писал(а):хотя я бы уходил в сторону более вменяемых форматов djvu не люблю.


это какие такие более вменяемые форматы? я тока чтото pdf могу припомнить

Модератор "Digit":тема выросла из этого

Re: Разработка робота - полного автомата для сканирования книг

frig » 05 дек 2008, 10:07

я тока чтото pdf могу припомнить


мало?

Re: Разработка робота - полного автомата для сканирования книг

Myp » 05 дек 2008, 10:11

ну если в природе всего 1 вменяемый формат существует...
то джа конечно этого мало

дэжавю нормальный формат имхо.

Re: Разработка робота - полного автомата для сканирования книг

frig » 05 дек 2008, 10:33

дэжавю нормальный формат имхо.


только читать эти кривые буквы не особо приятно... не говоря уже о поиске, о том, что иногда страницы перекошены... а так нормальный.

Re: Разработка робота - полного автомата для сканирования книг

m2 » 05 дек 2008, 11:06

Кто-нибудь смотрел мои новые идеи по перелистыванию - вот тут: http://natahaus.info/forums/showpost.ph ... stcount=66 ?

Надеюсь услышать оценку по ним.
frig
только читать эти кривые буквы не особо приятно... не говоря уже о поиске, о том, что иногда страницы перекошены... а так нормальный.

Это вовсе не есть недостатки формата DjVu - а лишь банальное неумение народа сделать DjVu-книгу как положено. Вот посмотрите для примера образец качественного DjVu:

http://www.djvu-soft.narod.ru/scan/djvu_example.rar (554 КБ) (Для просмотра необходима программа WinDjView).
Поиск там работает, буквы и читать приятно, и не перекошены.
Инструкция как правильно делать DjVu-книги есть - вот она: http://www.djvu-soft.narod.ru/scan/123.htm
Причём эта технология постоянно прогрессирует.
По сравнению с Pdf, DjVu значительно менее требователен к памяти - что позволяет легко просматривать его на всяких слабых покетах.

Re: Разработка робота - полного автомата для сканирования книг

frig » 05 дек 2008, 11:34

Это вовсе не есть недостатки формата DjVu - а лишь банальное неумение народа сделать DjVu-книгу как положено. Вот посмотрите для примера образец качественного DjVu:


посмотрел. точно тоже о чем я говорю. шрифты плывут, на странице 3 бока в середине страницы, на странице 6 в конце, что-то с точками... в общем тоже что и обычно.

я не против djvu и пользуюсь им, когда нет альтернативы, но pdf предпочитаю больше.

По сравнению с Pdf, DjVu значительно менее требователен к памяти - что позволяет легко просматривать его на всяких слабых покетах.


увы наблюдается процесс увеличения мощностей ВСЕХ вычислительных устройств и экономия ресурсов уже мало кого интересует. а на всяких слабых покетах можно смотреть просто чистый текст, если уж больно нужно.

Добавлено спустя 3 минуты 43 секунды:
перелистывать, имхо, вакуумом, либо вообще руками-полуавтоматом-автоматом вставить между страницами леску. да, их будет много, но зато гарантировано :D

сама по себе процедура перелистывания сложна и не всегда удается людям. что про машины говорить. странички нежные, слепленные, еще и сжатые во время сканирования. и страничку надо отделить, одну, не помять... а как контролировать, что отделена одна страница? ну распознав текст можно считать номера страниц и кое чего понять... но тоже, имхо, приятного в такой затее мало.

Добавлено спустя 4 минуты 14 секунд:
заглянул по ссылкам и аж проникся... это ж сколько всего надо прочитать, чтобы сделать нормальный djvu! :shock: прямо шаманом надо стать.

а pdf.. поставил finereader, нажал 2 кнопки и готово. надо будет пофоткать книжки, пораспознавать... посмотреть чего из этого выйдет.

Re: Разработка робота - полного автомата для сканирования книг

m2 » 05 дек 2008, 13:14

frig
процесс увеличения мощностей ВСЕХ вычислительных устройств и экономия ресурсов уже мало кого интересует

Дай то бог. Но пока что вот такие штуки слабоваты: http://doc.the-ebook.org/lBookeReaderV3/print
шрифты плывут, на странице 3 бока в середине страницы, на странице 6 в конце, что-то с точками...

Не понял это.
а pdf.. поставил finereader, нажал 2 кнопки и готово. надо будет пофоткать книжки, пораспознавать... посмотреть чего из этого выйдет.

В том-то и дело, что никаких "нажал 2 кнопки и готово" не может быть и с PDF. Если распознавать - то мудохаться вручную вычитывать. Но как известно, технческие книги не поддаются распознаванию (схемы, таблицы, формулы мешают).
заглянул по ссылкам и аж проникся... это ж сколько всего надо прочитать, чтобы сделать нормальный djvu! прямо шаманом надо стать.

Ну так чтобы сделать нормальный растровый PDF - надо проделать ровно всё то же самое. Самое сложное - обработать сырые сканы - которые потом конвертируются либо в растровый PDF, либо в DjVu.
я не против djvu и пользуюсь им, когда нет альтернативы, но pdf предпочитаю больше.

Если говорить о чисто векторном PDF - то никто не будет спорить, что это лучше, чем DjVu. Но Вы попробуйте сначала его сверстать из сырых сканов - и во что это Вам обойдётся. :) Быстрее и проще загнать в DjVu.

Технология DjVu не стоит на месте - она ещё будет развиваться и упрощаться для конечного пользователя. Есть идея сделать удобный самодельный наборчик программ для всего цикла создания DjVu-книги (вместо разношёрстной кутерьмы как сейчас). Вот лучше помогите нам такой робосканер придумать. :)

Re: Разработка робота - полного автомата для сканирования книг

frig » 05 дек 2008, 15:14

Дай то бог. Но пока что вот такие штуки слабоваты: http://doc.the-ebook.org/lBookeReaderV3/print


это на арме-то с 200Мгц и 64 метрами Озу?? хм. сомневаюсь я чего-то в этом...

Не понял это.


смотрите приведенный образцовый документ.

В том-то и дело, что никаких "нажал 2 кнопки и готово" не может быть и с PDF.


все зависит от качества сканирования. если это нормальная книга, а не древний папирус, то ровень распознания будет более чем высокий. Да и пара букв на 10 страниц - не критично.


Но как известно, технческие книги не поддаются распознаванию (схемы, таблицы, формулы мешают).


не знаю, кому как известно, а таблицы finereader жрет аж визжит, а формулы просто рисует картинками.

Если говорить о чисто векторном PDF - то никто не будет спорить, что это лучше, чем DjVu. Но Вы попробуйте сначала его сверстать из сырых сканов - и во что это Вам обойдётся. :) Быстрее и проще загнать в DjVu.


я про векторный и говорю. сырые сканы тоже бывают разные. а распознавать, так народ и посложнее вещи распознает... чертежи, например. с синьки. с пятнами. так что все возможно. и даже если не сейчас, то с каждой новой версией качество распознавания только растет.

Вот лучше помогите нам такой робосканер придумать. :)


придумать... чего придумывать-то? странички перелистывать все равно будет либо сложно, либо не надежно. уж больно хрупкая инстанция эти странички...

вариант предложенный моим отцом (все никак не уговорю его здесь зарегаться) пускай и сложный, но вариант. берем вакуум, поднимаем страницу вертикально а потом второй присоской с обратной стороны пытаемся оттащить прилипшую страницу. попыток отлепить страницу должно быть "количество отлепленный страниц+1" т.е. работать будет даже если страниц слеплено больше одной и есть защита от ошибок.

Re: Разработка робота - полного автомата для сканирования книг

m2 » 05 дек 2008, 16:28

это на арме-то с 200Мгц и 64 метрами Озу?? хм. сомневаюсь я чего-то в этом...

Так что, как видите, не так уж и растёт крутизна оргтехники... :) А по идее - именно на таких устройствах (и ни на чём более) и следует читать DjVu.
а таблицы finereader жрет аж визжит,

Да уж знаю я, как он там таблицы распознаёт. :) Ни одной без ошибок не распознает. По крайней мере, это касается перемычек.
так народ и посложнее вещи распознает... чертежи, например. с синьки. с пятнами. так что все возможно

Да, но какой ценой? Трудозатраты на DjVu гораздо меньше, чем на вёрстку с распознаванием. И это при том, что ещё всё-таки нет путевой программы для подготовки сырых сканов для DjVu - а появится она - всё ещё упростится. Да одна только необходимость вычитать текст на предмет буквенных ошибок - это очень трудозатратно. А формулы - разве мыслимо их все вручную в ФР в зону-рисунок выделять? Ну на 1-2 книги Вас хватит. А если надо пару десятков научных монографий сделать? :)
и даже если не сейчас, то с каждой новой версией качество распознавания только растет.

Здорово, конечно, но нам ведь надо СЕЙЧАС.

Распознавание ещё слишком убого, чтобы заменить DjVu. В DjVu я могу без лишних хлопот загнать ЛЮБУЮ книгу - что уж никак не скажешь о распознавании. Тем более - если представить, что такой робосканер создан - то он будет делать минимум 1 книгу в день - предлагаете их все распознавать - верстать в векторный PDF? Да быстрее ножки протянуть... :)

Однако, наш диалог весьма полезен - он показывает, насколько ещё народ суеверно воспринимает DjVu. :( Точно так же при Петре I крестяне не хотели сажать картошку. :) Здесь можно одно посоветовать: пробуйте самостоятельно сделать DjVu-книгу - и сами убедитесь, что к чему. У DjVu соотношение "цена услилий - качество результата" на порядок выше, чем у OCR-вёрстка.
Последний раз редактировалось m2 05 дек 2008, 16:39, всего редактировалось 2 раз(а).

Re: Разработка робота - полного автомата для сканирования книг

blindman » 05 дек 2008, 16:35

Интересно, а OCR справится с туркмено-монгольским словарем?

Re: Разработка робота - полного автомата для сканирования книг

m2 » 05 дек 2008, 16:45

странички перелистывать все равно будет либо сложно, либо не надежно. уж больно хрупкая инстанция эти
странички...

Да, в этом вся и сложность... Я думаю - книгу надо будет перед робо-сканированием как-либо "распушивать" руками, пролистывать листы, чтобы они "поотклеивались" друг от друга, чтобы не такие уж сильно слипшиеся были.

Я обновил страницу http://www.djvu-soft.narod.ru/scan/roboscanner.htm - добавил туда свежие итоги обсуждений.

Re: Разработка робота - полного автомата для сканирования книг

Myp » 05 дек 2008, 16:50

древний боян гдето слышал

на кафедре препод потребовал диплом в электронном виде предоставить
наверно хотел както его потом использовать

так автор не поленился и распечатанный диплом по листику отсканировал и эти рисунки отдал преподу)

Re: Разработка робота - полного автомата для сканирования книг

frig » 05 дек 2008, 16:52

Да одна только необходимость вычитать текст на предмет буквенных ошибок - это очень трудозатратно.


да и совершенно не обязательно к тому же...

А формулы - разве мыслимо их все вручную в ФР в зону-рисунок выделять?


не мыслимо. и именно по этому ФР все это делает сам. и формулы и рисунки и номера страниц "кушает" исправно.

Распознавание ещё слишком убого, чтобы заменить DjVu.


это ваше предвзятое мнение. DjVu убог так как выглядит уродливо. :D тоже заявление что надо...

насколько ещё народ суеверно воспринимает DjVu.


увы, популярность djvu будет только падать. вычислительные мощности растут, алгоритмы распознавания совершенствуются, недостатки распознавания тают на глазах. с каждым годом. так что ждать улучшений для djvu не приходится. ни экономия ресурсов, ни экономия места (или при террабайтном винте важно сколько весят книжки?) уже никому не интересны.

так что как не крути, а если не завтра, так послезавтра djvu помрет. я уже сейчас всерьез подумываю о том, чтобы перегнать из djvu в pdf тот материал, что у меня есть. ибо pdf красив и удобен.

Re: Разработка робота - полного автомата для сканирования книг

Digit » 05 дек 2008, 17:05

frig писал(а):ибо pdf красив и удобен.

:D Frig, ты случаем не у адоба на содержании?

Re: Разработка робота - полного автомата для сканирования книг

frig » 05 дек 2008, 17:25

:D Frig, ты случаем не у адоба на содержании?


эх... кто бы меня на содержание взял... рад был бы безмерно! :cry:


Добавлено спустя 15 минут 42 секунды:
смеха ради только что взял поставил ФР и тупо загнал туда картинку. распознало :D. да, есть очепятки, но совершенно не смертельно! во вложении исходник и полученный pdf. все что я сделал - перетащил в окно ФР картинку и потом сделал "сохранить как PDF". ничего не правил. ФР 9-й.
Вложения
test.pdf
(76.19 КиБ) Скачиваний: 20
8000185F.jpg


Rambler\'s Top100 Mail.ru counter