roboforum.ru

Технический форум по робототехнике.
Текущее время: 02 дек 2024, 19:02

Часовой пояс: UTC + 4 часа




Начать новую тему Ответить на тему  [ Сообщений: 30 ]  На страницу 1, 2  След.
Автор Сообщение
 Заголовок сообщения: PDF vs DJVU
СообщениеДобавлено: 04 дек 2008, 19:25 
Не в сети
скрытый хозяин вселенной :)
Аватара пользователя

Зарегистрирован: 18 сен 2006, 12:26
Сообщения: 18018
Откуда: Тверь по прозвищу Дверь
прог. языки: псевдокод =) сила в алгоритме!
ФИО: глубокоуважаемый Фёдор Анатольевич
frig писал(а):
хотя я бы уходил в сторону более вменяемых форматов djvu не люблю.


это какие такие более вменяемые форматы? я тока чтото pdf могу припомнить

Модератор "Digit":тема выросла из этого

_________________
<telepathmode>На вопросы отвечает Бригадир Телепатов!</telepathmode>
Всё уже придумано до нас!


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 10:07 
Не в сети

Зарегистрирован: 12 фев 2007, 12:25
Сообщения: 1640
Откуда: Днепр
Цитата:
я тока чтото pdf могу припомнить


мало?


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 10:11 
Не в сети
скрытый хозяин вселенной :)
Аватара пользователя

Зарегистрирован: 18 сен 2006, 12:26
Сообщения: 18018
Откуда: Тверь по прозвищу Дверь
прог. языки: псевдокод =) сила в алгоритме!
ФИО: глубокоуважаемый Фёдор Анатольевич
ну если в природе всего 1 вменяемый формат существует...
то джа конечно этого мало

дэжавю нормальный формат имхо.

_________________
<telepathmode>На вопросы отвечает Бригадир Телепатов!</telepathmode>
Всё уже придумано до нас!


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 10:33 
Не в сети

Зарегистрирован: 12 фев 2007, 12:25
Сообщения: 1640
Откуда: Днепр
Цитата:
дэжавю нормальный формат имхо.


только читать эти кривые буквы не особо приятно... не говоря уже о поиске, о том, что иногда страницы перекошены... а так нормальный.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 11:06 
Не в сети

Зарегистрирован: 27 сен 2006, 12:50
Сообщения: 41
Откуда: Ростов-на-Дону
Кто-нибудь смотрел мои новые идеи по перелистыванию - вот тут: http://natahaus.info/forums/showpost.ph ... stcount=66 ?

Надеюсь услышать оценку по ним.
frig
Цитата:
только читать эти кривые буквы не особо приятно... не говоря уже о поиске, о том, что иногда страницы перекошены... а так нормальный.

Это вовсе не есть недостатки формата DjVu - а лишь банальное неумение народа сделать DjVu-книгу как положено. Вот посмотрите для примера образец качественного DjVu:

http://www.djvu-soft.narod.ru/scan/djvu_example.rar (554 КБ) (Для просмотра необходима программа WinDjView).
Поиск там работает, буквы и читать приятно, и не перекошены.
Инструкция как правильно делать DjVu-книги есть - вот она: http://www.djvu-soft.narod.ru/scan/123.htm
Причём эта технология постоянно прогрессирует.
По сравнению с Pdf, DjVu значительно менее требователен к памяти - что позволяет легко просматривать его на всяких слабых покетах.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 11:34 
Не в сети

Зарегистрирован: 12 фев 2007, 12:25
Сообщения: 1640
Откуда: Днепр
Цитата:
Это вовсе не есть недостатки формата DjVu - а лишь банальное неумение народа сделать DjVu-книгу как положено. Вот посмотрите для примера образец качественного DjVu:


посмотрел. точно тоже о чем я говорю. шрифты плывут, на странице 3 бока в середине страницы, на странице 6 в конце, что-то с точками... в общем тоже что и обычно.

я не против djvu и пользуюсь им, когда нет альтернативы, но pdf предпочитаю больше.

Цитата:
По сравнению с Pdf, DjVu значительно менее требователен к памяти - что позволяет легко просматривать его на всяких слабых покетах.


увы наблюдается процесс увеличения мощностей ВСЕХ вычислительных устройств и экономия ресурсов уже мало кого интересует. а на всяких слабых покетах можно смотреть просто чистый текст, если уж больно нужно.

Добавлено спустя 3 минуты 43 секунды:
перелистывать, имхо, вакуумом, либо вообще руками-полуавтоматом-автоматом вставить между страницами леску. да, их будет много, но зато гарантировано :D

сама по себе процедура перелистывания сложна и не всегда удается людям. что про машины говорить. странички нежные, слепленные, еще и сжатые во время сканирования. и страничку надо отделить, одну, не помять... а как контролировать, что отделена одна страница? ну распознав текст можно считать номера страниц и кое чего понять... но тоже, имхо, приятного в такой затее мало.

Добавлено спустя 4 минуты 14 секунд:
заглянул по ссылкам и аж проникся... это ж сколько всего надо прочитать, чтобы сделать нормальный djvu! :shock: прямо шаманом надо стать.

а pdf.. поставил finereader, нажал 2 кнопки и готово. надо будет пофоткать книжки, пораспознавать... посмотреть чего из этого выйдет.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 13:14 
Не в сети

Зарегистрирован: 27 сен 2006, 12:50
Сообщения: 41
Откуда: Ростов-на-Дону
frig
Цитата:
процесс увеличения мощностей ВСЕХ вычислительных устройств и экономия ресурсов уже мало кого интересует

Дай то бог. Но пока что вот такие штуки слабоваты: http://doc.the-ebook.org/lBookeReaderV3/print
Цитата:
шрифты плывут, на странице 3 бока в середине страницы, на странице 6 в конце, что-то с точками...

Не понял это.
Цитата:
а pdf.. поставил finereader, нажал 2 кнопки и готово. надо будет пофоткать книжки, пораспознавать... посмотреть чего из этого выйдет.

В том-то и дело, что никаких "нажал 2 кнопки и готово" не может быть и с PDF. Если распознавать - то мудохаться вручную вычитывать. Но как известно, технческие книги не поддаются распознаванию (схемы, таблицы, формулы мешают).
Цитата:
заглянул по ссылкам и аж проникся... это ж сколько всего надо прочитать, чтобы сделать нормальный djvu! прямо шаманом надо стать.

Ну так чтобы сделать нормальный растровый PDF - надо проделать ровно всё то же самое. Самое сложное - обработать сырые сканы - которые потом конвертируются либо в растровый PDF, либо в DjVu.
Цитата:
я не против djvu и пользуюсь им, когда нет альтернативы, но pdf предпочитаю больше.

Если говорить о чисто векторном PDF - то никто не будет спорить, что это лучше, чем DjVu. Но Вы попробуйте сначала его сверстать из сырых сканов - и во что это Вам обойдётся. :) Быстрее и проще загнать в DjVu.

Технология DjVu не стоит на месте - она ещё будет развиваться и упрощаться для конечного пользователя. Есть идея сделать удобный самодельный наборчик программ для всего цикла создания DjVu-книги (вместо разношёрстной кутерьмы как сейчас). Вот лучше помогите нам такой робосканер придумать. :)


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 15:14 
Не в сети

Зарегистрирован: 12 фев 2007, 12:25
Сообщения: 1640
Откуда: Днепр
Цитата:
Дай то бог. Но пока что вот такие штуки слабоваты: http://doc.the-ebook.org/lBookeReaderV3/print


это на арме-то с 200Мгц и 64 метрами Озу?? хм. сомневаюсь я чего-то в этом...

Цитата:
Не понял это.


смотрите приведенный образцовый документ.

Цитата:
В том-то и дело, что никаких "нажал 2 кнопки и готово" не может быть и с PDF.


все зависит от качества сканирования. если это нормальная книга, а не древний папирус, то ровень распознания будет более чем высокий. Да и пара букв на 10 страниц - не критично.


Цитата:
Но как известно, технческие книги не поддаются распознаванию (схемы, таблицы, формулы мешают).


не знаю, кому как известно, а таблицы finereader жрет аж визжит, а формулы просто рисует картинками.

Цитата:
Если говорить о чисто векторном PDF - то никто не будет спорить, что это лучше, чем DjVu. Но Вы попробуйте сначала его сверстать из сырых сканов - и во что это Вам обойдётся. :) Быстрее и проще загнать в DjVu.


я про векторный и говорю. сырые сканы тоже бывают разные. а распознавать, так народ и посложнее вещи распознает... чертежи, например. с синьки. с пятнами. так что все возможно. и даже если не сейчас, то с каждой новой версией качество распознавания только растет.

Цитата:
Вот лучше помогите нам такой робосканер придумать. :)


придумать... чего придумывать-то? странички перелистывать все равно будет либо сложно, либо не надежно. уж больно хрупкая инстанция эти странички...

вариант предложенный моим отцом (все никак не уговорю его здесь зарегаться) пускай и сложный, но вариант. берем вакуум, поднимаем страницу вертикально а потом второй присоской с обратной стороны пытаемся оттащить прилипшую страницу. попыток отлепить страницу должно быть "количество отлепленный страниц+1" т.е. работать будет даже если страниц слеплено больше одной и есть защита от ошибок.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 16:28 
Не в сети

Зарегистрирован: 27 сен 2006, 12:50
Сообщения: 41
Откуда: Ростов-на-Дону
Цитата:
это на арме-то с 200Мгц и 64 метрами Озу?? хм. сомневаюсь я чего-то в этом...

Так что, как видите, не так уж и растёт крутизна оргтехники... :) А по идее - именно на таких устройствах (и ни на чём более) и следует читать DjVu.
Цитата:
а таблицы finereader жрет аж визжит,

Да уж знаю я, как он там таблицы распознаёт. :) Ни одной без ошибок не распознает. По крайней мере, это касается перемычек.
Цитата:
так народ и посложнее вещи распознает... чертежи, например. с синьки. с пятнами. так что все возможно

Да, но какой ценой? Трудозатраты на DjVu гораздо меньше, чем на вёрстку с распознаванием. И это при том, что ещё всё-таки нет путевой программы для подготовки сырых сканов для DjVu - а появится она - всё ещё упростится. Да одна только необходимость вычитать текст на предмет буквенных ошибок - это очень трудозатратно. А формулы - разве мыслимо их все вручную в ФР в зону-рисунок выделять? Ну на 1-2 книги Вас хватит. А если надо пару десятков научных монографий сделать? :)
Цитата:
и даже если не сейчас, то с каждой новой версией качество распознавания только растет.

Здорово, конечно, но нам ведь надо СЕЙЧАС.

Распознавание ещё слишком убого, чтобы заменить DjVu. В DjVu я могу без лишних хлопот загнать ЛЮБУЮ книгу - что уж никак не скажешь о распознавании. Тем более - если представить, что такой робосканер создан - то он будет делать минимум 1 книгу в день - предлагаете их все распознавать - верстать в векторный PDF? Да быстрее ножки протянуть... :)

Однако, наш диалог весьма полезен - он показывает, насколько ещё народ суеверно воспринимает DjVu. :( Точно так же при Петре I крестяне не хотели сажать картошку. :) Здесь можно одно посоветовать: пробуйте самостоятельно сделать DjVu-книгу - и сами убедитесь, что к чему. У DjVu соотношение "цена услилий - качество результата" на порядок выше, чем у OCR-вёрстка.


Последний раз редактировалось m2 05 дек 2008, 16:39, всего редактировалось 2 раз(а).

Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 16:35 
Не в сети
Аватара пользователя

Зарегистрирован: 29 апр 2008, 21:15
Сообщения: 4130
Откуда: Хабаровск
прог. языки: C,C++,Assembler,PHP,Javascript,Ruby, SPIN,Java(?)
ФИО: Андрей Юрьевич
Интересно, а OCR справится с туркмено-монгольским словарем?

_________________
Проект [[Open Robotics]] - универсальные модули для построения роботов
Модули Open Robotics можно приобрести в магазине shop.roboforum.ru

Day OFF? You must be pulling my leg! Stop making humor before someone sees you, fool!



Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 16:45 
Не в сети

Зарегистрирован: 27 сен 2006, 12:50
Сообщения: 41
Откуда: Ростов-на-Дону
Цитата:
странички перелистывать все равно будет либо сложно, либо не надежно. уж больно хрупкая инстанция эти
странички...

Да, в этом вся и сложность... Я думаю - книгу надо будет перед робо-сканированием как-либо "распушивать" руками, пролистывать листы, чтобы они "поотклеивались" друг от друга, чтобы не такие уж сильно слипшиеся были.

Я обновил страницу http://www.djvu-soft.narod.ru/scan/roboscanner.htm - добавил туда свежие итоги обсуждений.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 16:50 
Не в сети
скрытый хозяин вселенной :)
Аватара пользователя

Зарегистрирован: 18 сен 2006, 12:26
Сообщения: 18018
Откуда: Тверь по прозвищу Дверь
прог. языки: псевдокод =) сила в алгоритме!
ФИО: глубокоуважаемый Фёдор Анатольевич
древний боян гдето слышал

на кафедре препод потребовал диплом в электронном виде предоставить
наверно хотел както его потом использовать

так автор не поленился и распечатанный диплом по листику отсканировал и эти рисунки отдал преподу)

_________________
<telepathmode>На вопросы отвечает Бригадир Телепатов!</telepathmode>
Всё уже придумано до нас!


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 16:52 
Не в сети

Зарегистрирован: 12 фев 2007, 12:25
Сообщения: 1640
Откуда: Днепр
Цитата:
Да одна только необходимость вычитать текст на предмет буквенных ошибок - это очень трудозатратно.


да и совершенно не обязательно к тому же...

Цитата:
А формулы - разве мыслимо их все вручную в ФР в зону-рисунок выделять?


не мыслимо. и именно по этому ФР все это делает сам. и формулы и рисунки и номера страниц "кушает" исправно.

Цитата:
Распознавание ещё слишком убого, чтобы заменить DjVu.


это ваше предвзятое мнение. DjVu убог так как выглядит уродливо. :D тоже заявление что надо...

Цитата:
насколько ещё народ суеверно воспринимает DjVu.


увы, популярность djvu будет только падать. вычислительные мощности растут, алгоритмы распознавания совершенствуются, недостатки распознавания тают на глазах. с каждым годом. так что ждать улучшений для djvu не приходится. ни экономия ресурсов, ни экономия места (или при террабайтном винте важно сколько весят книжки?) уже никому не интересны.

так что как не крути, а если не завтра, так послезавтра djvu помрет. я уже сейчас всерьез подумываю о том, чтобы перегнать из djvu в pdf тот материал, что у меня есть. ибо pdf красив и удобен.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 17:05 
Не в сети
Аватара пользователя

Зарегистрирован: 27 ноя 2004, 00:42
Сообщения: 3339
Откуда: совсем Москва
ФИО: Григорий
frig писал(а):
ибо pdf красив и удобен.

:D Frig, ты случаем не у адоба на содержании?

_________________
злой полицейский


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Разработка робота - полного автомата для сканирования книг
СообщениеДобавлено: 05 дек 2008, 17:25 
Не в сети

Зарегистрирован: 12 фев 2007, 12:25
Сообщения: 1640
Откуда: Днепр
Цитата:
:D Frig, ты случаем не у адоба на содержании?


эх... кто бы меня на содержание взял... рад был бы безмерно! :cry:


Добавлено спустя 15 минут 42 секунды:
смеха ради только что взял поставил ФР и тупо загнал туда картинку. распознало :D. да, есть очепятки, но совершенно не смертельно! во вложении исходник и полученный pdf. все что я сделал - перетащил в окно ФР картинку и потом сделал "сохранить как PDF". ничего не правил. ФР 9-й.


Вложения:
test.pdf [76.19 КиБ]
Скачиваний: 20
8000185F.jpg
8000185F.jpg [ 1006.99 КиБ | Просмотров: 1680 ]
Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 30 ]  На страницу 1, 2  След.

Часовой пояс: UTC + 4 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 20


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB
phpBB SEO