Finereader 9 и 21 век на дворе

Зацепила меня http://lib.rus.ec/node/103490#comment-37245 дискуссия. Почитал и лишний раз убедился, что многие тут часами готовы обсуждать недостаток времени вместо того чтобы отсканить хотя бы одну книгу за свою жизнь :) Теперь по делу. По работе мне часто приходиться ОЦРить все подряд. С выходом 9 файнридера я отказался от своего не самого медленого сканера эпсон. Перешел на 10 мегапиксельные камеры. Одинаково хорошо с этим справляется и зеркальный Никон 80 и мыльница Сони Т700. Пришлось, конечно, немного поэкспериментировать вначале, купить тройку штативов (камера, свет), подобрать безбликовый свет и режимы сьемки. И все. Сейчас я просто листаю книгу, которая лежит между воткнутыми в стол пинами-ограничителями (под каждую книгу - ее надо "обтыкать" чтобы из кадра не убегала. В руке ремотная кнопка от камеры и полетели :) Диафрагму для глубины резкости и минимума аберраций на макс. закрытие, света много-много, камеру подальше и зумом (оптическим только) подкадрировать (это "подушку" убирает, хотя 9 ридер и с подушкой легко) и полетели. Пару книг за час легко. "Книжные", хорошо известные ридеру шрифты практически без ошибок влет идут. Хотя была серия книг буржуйских, где пришлось файнридер полчасика обучить нестандартному шрифту, ну а потом жсе так же полетели :) Это я так, пищу для экспериментаторов подкинул. А еще часто с мыльницей прямо в библиотеке с рук деру как мама не горюй. Ну тут нужна камера с опт. стабилизацией типа сони т700 (в ней кстати есть и очень удобный для ОЦР режим черно-белой сьемки, которым отличаеются соньковские приемники, которые при малом свете очень неплохи). Ну и все. А сканеры уже вчерашний день - вы на гугл посмотрите и его отснятыее камерами в индии книги. Камера и еще раз камера! Возражения не принимаются потому как мои обьемы возражающий со сканером не осилит...

keywords: ОЦР, фото, камера, Файнридер, OCR, camera, Finereader

Комментарии

Для ОЦР - может быть, для факсимильных книг фотоаппарат - зло.

equinox написал:
Диафрагму для глубины резкости и минимума аберраций на макс. закрытие

Величина ГРИП для случая плоского объекта и достаточно точной фокусировки не критична.
Абберации же минимальны не на крайних (что наибОльшая, что наименьшая) диафрагмах.

equinox написал:
света много-много

Цифра длинных выдержек не любит.
Да и время...

equinox написал:
камеру подальше и зумом (оптическим только)

Макро и зум - сущности условно совместимые.

Anarchist написал:
Величина ГРИП для случая плоского объекта и достаточно точной фокусировки не критична.
это книга-то "плоская"? особливо на тех дистанциях...

Anarchist написал:
Абберации же минимальны не на крайних (что наибОльшая, что наименьшая) диафрагмах.
зависит от конструкции объектива, ьОльшей частью.
Обычно - на минимальной дыре они всё же меньше, чем на максимальной.

Anarchist написал:
Макро и зум - сущности условно совместимые.
а точнее - одно и то же.
А ещё точнее - "макро реализуется 'зумом'". Если, конечно, "зум" понимать, как трансфокатор, а не "телеположение объектива".

Впрочем, меня на банальности что-то пробило...

jno написал:
Anarchist написал:
Величина ГРИП для случая плоского объекта и достаточно точной фокусировки не критична.
это книга-то "плоская"? особливо на тех дистанциях...

Зачем книга?
Страница - в достаточной степени плоская.

jno написал:
Anarchist написал:
Абберации же минимальны не на крайних (что наибОльшая, что наименьшая) диафрагмах.
зависит от конструкции объектива, ьОльшей частью.
Обычно - на минимальной дыре они всё же меньше, чем на максимальной.

Не зависит.
Если нужно наилучшее оптическое качество, то для узкого формата оптимальны диафрагмы ~f/8-f/11, для половинного скорее f/11-f/16.

jno написал:
Anarchist написал:
Макро и зум - сущности условно совместимые.
а точнее - одно и то же.
А ещё точнее - "макро реализуется 'зумом'". Если, конечно, "зум" понимать, как трансфокатор, а не "телеположение объектива".

Ключевой термин "макро" традиционно "забыт"...
Впрочем, цЫфра (с точки зрения размера кадра) и книга (диапазон размеров страницы) - это никоим боком не макро.

Anarchist написал:
jno написал:
Anarchist написал:
Величина ГРИП для случая плоского объекта и достаточно точной фокусировки не критична.
это книга-то "плоская"? особливо на тех дистанциях...

Зачем книга?
Страница - в достаточной степени плоская.

Это если книгу расшить...
А так - какая угодно она, но не плоская.
Даже если стеклом прижимать (и с бликами бороться).

Anarchist написал:
jno написал:
Anarchist написал:
Абберации же минимальны не на крайних (что наибОльшая, что наименьшая) диафрагмах.
зависит от конструкции объектива, ьОльшей частью.
Обычно - на минимальной дыре они всё же меньше, чем на максимальной.

Не зависит.
Если нужно наилучшее оптическое качество, то для узкого формата оптимальны диафрагмы ~f/8-f/11, для половинного скорее f/11-f/16.

Угу. Ну ка, ф-нумбер для матрицы 1/2.6" на вскидку? :)
Да и "физика процесса" говорит, что аберрации зависят от оптического тракта, а не только от размеров поля зрения...

Anarchist написал:
Впрочем, цЫфра (с точки зрения размера кадра) и книга (диапазон размеров страницы) - это никоим боком не макро.
Вполне можно и цифровую макро-камеру для книг сконструировать :)

jno написал:
Anarchist написал:
Страница - в достаточной степени плоская.

Это если книгу расшить...
А так - какая угодно она, но не плоская.

Дык поверхность фокуса тоже далеко не всегда аппроксимируется плоскостью.
Слава доктору Рудольфу!!!

jno написал:
Даже если стеклом прижимать (и с бликами бороться).

Поляризационный светофильтр спасёт вождя мирового пролетариата :)

jno написал:
Anarchist написал:
Если нужно наилучшее оптическое качество, то для узкого формата оптимальны диафрагмы ~f/8-f/11, для половинного скорее f/11-f/16.

Угу. Ну ка, ф-нумбер для матрицы 1/2.6" на вскидку? :)

Давайте и Вы ответите: не потому ли у цифромыльниц с таким размером кадра типовое значение наименьшей диафрагмы - f/8 (если не f/5.6), что чем меньше диафрагма (f/32 там, f/64, а лучше - f/128), тем меньше абберации? :)
Для указанного Вами формата оптимальны диафрагмы f/4-f/5.6.

jno написал:
Да и "физика процесса" говорит, что аберрации зависят от оптического тракта, а не только от размеров поля зрения...

А что ещё Вам говорит физика? :)
В контексте размера кадра.

jno написал:
Anarchist написал:
Впрочем, цЫфра (с точки зрения размера кадра) и книга (диапазон размеров страницы) - это никоим боком не макро.
Вполне можно и цифровую макро-камеру для книг сконструировать :)

Только бессмысленно.
Или уже создали матрицу, покрывающую без кропа хотя бы 6х4.5 и при этом умеющую режим реального времени (о стоимости решения разговор пока не ведётся)?

jno написал:
Впрочем, меня на банальности что-то пробило...

Не стоит бисер, того, перед - ну вы в курсе :)

Я вообще-то диплом по оптике имею :) А вообще, вы, Anarchist, душный...

equinox написал:
Я вообще-то диплом по оптике имею :)

Мой опыт говорит, что наличие диплома слабо коррелирует с пониманием (или хотя бы достаточно глубоким знанием) предметной области.
Диплом дипломом, а как у Вас с практикой? :)

equinox написал:
Не стоит бисер, того, перед - ну вы в курсе :)

Сам себя не похвалишь - никто не похвалит :)))

equinox написал:
Перешел на 10 мегапиксельные камеры.

Рассказываю - для одной уважаемой конторы поставляли роботизированный сканер (Kirtas PowerScan). И сделан он именно так - механический листатель и 2 Кэноновский стандартных фотоаппарата :)

у Гугла проще - роботизированный сканер заменен на индусско-китайскую (женскую?) руку в резиновом напальчнике - чтобы не слюнить палец :) кто в Гугл букз много работает - часто наверное видели страницы где в кадр попала рука - не успели убрать когда педальку спуска нажимали :)

equinox написал:
Перешел на 10 мегапиксельные камеры. Одинаково хорошо с этим справляется и зеркальный Никон 80 и мыльница Сони Т700.

только зеркалку жалко, механика имеет ресурс все таки... лучше мыльницей :)

я в штатах, имею весьма приятный опыт общения с никонами в плане ремонта-сервиса. достойная контора, достойный саппорт. да, мыльницы для этого самое оно, но на сложных шрифтах тот же никон дает более уверенное распознавание. на обычных книжных шрифтах - мыльница с рук делает свою работу на все 100%. особенно если надо гнать текст не весь подряд, а избирательно, отсеивая принципиально ненужные фрагменты.

equinox написал:
Камера и еще раз камера! Возражения не принимаются потому как мои обьемы возражающий со сканером не осилит...

Пасиб, пост зачОтный. Только вместо (или совместно с) лирики лучше-бы приложил конкретные рекомендации, вплоть до снимков (по катом) своего рабочего OCR места, ТТХ света и штативов, фокусное расстояние etc. Привел-бы пример снятых страниц и готовой заOCRеной книжки, сколько денег ушло на оборудование. Короче, больше конкретики.

а) берешь старый фотоувеличитель из кладовки
б) все из него выкидываешь, и укладываешь "в дырку" фотоаппарат.
в) по бокам крепишь 4-ре настольных лампы (вкручиваешь в них экономлампы)

как альтернатива --- находишь старую советскую репродукционную установку :)

SeNS написал:
Короче, больше конкретики.

Умному человеку достаточно показать направление, а дурак, - он и с компасом и подробной картой заблудится...

Пробывал делать - фигня получается. Для OCR (обязательно c последующей вычиткой!) пойдет. Для графических книг не идет. Формат А5, на крайний случай - А4. А3 - ФР уже берет с трудом.
Обсуждалось здесь: http://publ.lib.ru/cgi/forum/YaBB.pl?num=1125710318
Там есть файлы-примеры.

Lykas написал:
Пробывал делать - фигня получается. Для OCR (обязательно c последующей вычиткой!) пойдет. Для графических книг не идет. Формат А5, на крайний случай - А4. А3 - ФР уже берет с трудом.
Обсуждалось здесь: http://publ.lib.ru/cgi/forum/YaBB.pl?num=1125710318
Там есть файлы-примеры.

Согласен про графику. Иллюстрации, переснятые камерой проигрывают сканам - динамический диапазон камер маловат. Только текст, иллюстрации разве что для ознакомления. А то что обсуждалось на lib.ru - не по делу, ибо ни одной приличной 10мпс камеры у обсуждающих не было. А с 5мпс и я игрался давным-давно - не хватало.

Скажите пожалуйста. А чем лучше снимать книги, Никоном или Кэноном? Что купить? ;)

по моему опыты то что:

1) поддерживает ручную выставку выдержки и диафрагмы

2) поддерживает режим съёмки "в комп" (меньше операций копирования между фотоаппаратом и компом)

О как, и впрямь 21 век... Спасибо большое, даже не задумывался что так можно, возьму на заметку!

equinox написал:
С выходом 9 файнридера я отказался от своего не самого медленого сканера эпсон. Перешел на 10 мегапиксельные камеры.

Хм. 8"х11" это 88 кв.дюймов. 300 dpi *300 = 90000 -> 88*90000~8 мегапикселей..
Девввствительно, 10 МП принципиальны.
Из плюсов - свободный размер книжки (в сканер далеко не все удобно пихать) и большая глубина резкости.
Из минусов - (пусть не интересует, но все же скажу) - если не сканировать книжки почти непрерывно (или просто часто), то с камерой гораздо больше времени уйдет на настройку нужного качества сканирования. А скорость сканирования на сканере вряд ли принципиально меньше - 5-6 стр.\мин не вопрос, если надо.
С рук снимать под FR - это нужно быть снайпером, для обычных людей не годится.

А ваши объемы - это все-таки частный случай.

oldvagrant написал:
Хм. 8"х11" это 88 кв.дюймов. 300 dpi *300 = 90000 -> 88*90000~8 мегапикселей..
Девввствительно, 10 МП принципиальны.

Только 8 - это полноцветных мегапикселей. Т.е., цифромыло должно быть 8х4=32 мегапиксела.

А так - ну чёта я в ваш базар не въезжаю... Если речь шла о сканировании книг "по настоящему", то для раритетов применяются проекционные сканеры (а вовсе не обычные фотоаппараты), а для всякой фигни - двухсторонние потоковые с автоподачей. Планшетные тоже, в общем применяются, но иногда и не ширпотреб.

oldvagrant написал:

С рук снимать под FR - это нужно быть снайпером, для обычных людей не годится.

Тут мысль нарисовалась... Если снимать фотиком для распознавания, вдвоем. То можно и без штатива, наверное.
Книжку вертикально, снизу какой-то упор, или вообще подставку потяжелее под всю книгу, чтобы не убегала из фокуса, фотик напротив на стопку книг и погнали...
Свет, конечно, надо ставить все равно.

TaKir написал:
Тут мысль нарисовалась... Если снимать фотиком для распознавания, вдвоем. То можно и без штатива, наверное.

Но тогда нужно много пива...

Я для съемок использую штатив от фотоувеличителя "Дон-103" (тяжелая основа и реечный механизм обеспечивает устойчивое положение фотоаппарата); комплект листового поролона для выравнивания разворота книги и накрываю стеклом. А под весь "бутерброд" кладется синтетическая тряпочка, чтобы было легче подставлять страницы.

_taras_ написал:
Я для съемок использую штатив от фотоувеличителя "Дон-103" (тяжелая основа и реечный механизм обеспечивает устойчивое положение фотоаппарата); комплект листового поролона для выравнивания разворота книги и накрываю стеклом.

До этого места все понятно.
_taras_ написал:

А под весь "бутерброд" кладется синтетическая тряпочка, чтобы было легче подставлять страницы.

А эту фразу "перевести" не могу.

Господа фото-сканировщики, прилагайте фотографии ваших "рабочих мест", "на пальцах" не всегда можно понять о чем спич.

По-моему здесь изобретают велосипед. Умные люди уже давно придумали использовать цифровик для сканирования книг, и заработывают на этом неплохие деньги. Посмотрите книжные сканеры ATIZ.

ну я фотик для этой цели за использовал как только получил 3 мегапиксельное что то в руки, 4 года чай прошло :)

Atiz... Ага, от 16+ штук грин всего-то за аппарат. Бюджетненько так...

Чтобы совсем не голословно - взял сейчас с полки Неукротимую Планету Гаррисона и под одной 120-ваттной галогенной лампой ,типа flood light , с рук снял Sony Cybershot T700. В аттаче кому интересно. Условия специально плохие сделал, библиотечные. Камера на автомате, 100 ISO, 1/100 выдержка получилась, диафрагма 4 - тоесть света очень мало. Гарнитура не самая легкая - книжка 1968 года издания, буквы прыгают, клубный тираж в общем ;) Ошибки ищите, я не нашел:

------- Файнридер 9, дефолтные настройки
4
DEATHWORLD
he wanted nothing to do with either. He had to know a lot more before he became involved in any deals.
"Sorry, friend," Jason smiled. "But you have the wrong party. Like to oblige, but my gambling always seems to help the casinos more than myself. So you see. . ."
"Let's not play games with each other," Kerk broke in with a chesty rumble. "You're dinAlt and you're Bohel as well. If you want more names, I'll mention Mahaut's Planet, the Nebula Casino and plenty more. I have a proposition that will benefit both of us, and you had better listen to it,"
None of the names caused the slightest change in Jason's half-smile. But his body was tensely alert. This musclebound stranger knew things he had no right to know. It was time to change the subject
"That's quite a gun you have there," Jason said. "But guns make me nervous. I'd appreciate it if you took it off."
Kerk scowled down at the gun, as if he were seeing it for the first time. "No, I never take it off." He seemed mildly annoyed by the suggestion.
The testing period was over. Jason needed the upper hand if he was to get out of this one alive. As he leaned forward to put his drink on the table, his other hand fell naturally behind the pillow. He was touching the gun butt when he said, "I'm afraid I'll have to insist I always feel a little uncomfortable around people who are armed." He kept talking to distract attention while he pulled out his gun. Fast and smooth.
He could have been moving in slow motion for all the difference it made. Kerk Pyrrus stood dead still while the gun came out, while it swung in his direction. Not until the very last instant did he act When he did, the motion wasn't visible. First his gun was in the arm-holster—then it was aimed between Jason's eyes. It was an ugly, heavy weapon with a pitted front orifice that showed plenty of use.
Jason knew if he swung his own weapon up a fraction of an inch more he would be dead. He dropped his arm carefully, angry at himself for trying to substitute violence for thought. Kerk flipped his own gun back into the holster with the same ease he had drawn it.
"Enough of that now," Kerk said. "Let's get down to business."
Jason reached out and downed a large mouthful from his glass, bridling his temper. He was fast with a gun—his life had depended on it more than once—and this was the first time he had ever been outdrawn. It was the offhand, unimportant manner it had been done that irritated him.
"I'm not prepared to do business," he said acidly. "I've come to Cas-sylia for a vacation, get away from work."
------

ПС: не получается приаттачить, 2 мб максимум на сайте лимит, картинка 3 с лишним. Аттачу одну страницу, вторую отрезал фотошопом (снимал две страницы сразу - разворот). EXIF сохранил.

Да, важный момент еще: Finereader 9 не всегда правильно определяет DPI фотографий, а это ОЧЕНЬ важно. Он занижает DPI и от этого много ошибок. Достаточно для книги снять линейку, посчитать один раз и ввести в поле DPI полученное число.

X