как распечатать pdf, djvu без картинок?
Нужно распечатать отсканеную книгу. Там очень много картинок, которые никакой смысловой нагрузки не несут (учебник по англ.языку). И в целом это часто встречаемая проблема. Казалось бы положение безвыходное, но ведь уже 21-ый век, неужели наука до сих пор ничего не придумала?
|
spyphy, сканировать можно по-разному.
1. Страница книги сканируется в виде одной картинки. Способ менее трудоёмкий, но уже ни текст не отредактировать, ни картинки не вырезать (как картинку вырезать из картинки и кто должен отличить картинки от текста?).
Лечится вторым способом.
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными.
Вопрос: каким способом отсканирована книга? Есть ли в ваших pdf-ах текстовый слой (проверяется возможностью выделения)?

|
El Scorpio |
13-10-2011 10:16 1772286 |
Цитата:
Цитата spyphy
Нужно распечатать отсканеную книгу. Там очень много картинок, которые никакой смысловой нагрузки не несут (учебник по англ.языку) »
|
Там вся страница представляет собой одну картинку (набор точек разного цвета), которую для получения текста (набора символов) нужно обработать программой распознавания текста (FineReader или аналогичной)
|
Цитата:
Цитата El Scorpio
Там вся страница представляет собой одну картинку »
|
это я в курсе.
распознавание и копирование текста - вряд ли лучший способ.
Там некоторые картинки занимают по пол страницы (с 90% заполнением). Неплохо было бы иметь ПО, каторое бы распознавало именно эти картинки и удаляла их хотя бы частично. В крайнем случае сгодился бы ручной инструмент для выделения таких картинок (но только чтобы быстро и удобно было, так как много страниц обрабатывать надо).
может под линуксом какие то утилиты существуют, способные совершать подобную обработку изображений, а там глядишь и автоматизировать можно будет?...
Еще здесь имеется вторая проблема - это когда текст на тёмном фоне. Ксерокс как-то умеет рапознавать это дело и печатает без фона. А вот можно ли так настроить принтер или акробат-ридер, чтобы он автоматически менял контрастность?...
|
Цитата:
Цитата spyphy
В крайнем случае сгодился бы ручной инструмент для выделения таких картинок »
|
тот же finereader определяет картинки
|
FineReader - штука хорошая, но не панацея - после него необходимо вычитывать текст, т.к. распознаётся не всегда верно.
|
Мне вот интересно, любая тема, если она находится в ХВЗ, должна наполниться флеймом?
|
Morpheus, где флейм? Вроде нету. Рассуждения, как можно добиться желаемого автором результата.
|
Iska, пока нету. Но и идей, кроме второй раз предложенного файнридера тоже нету. Слишком много в последнее время развелось пустых и дублирующих сообщений, которые кроме шума в эфире ничего не создают.
|
придётся значит в Adobe Acrobat Professional в ручную выделять - не панацея но хоть что-то. 21 век блин называется
|
Grabber2006 |
16-10-2011 19:54 1774778 |
Мне всегда казалось, что купить книгу будет дешевле, чем её распечатать.
|
Конечно не FineReader'ом единым живет человечество ( раз), но это первое, что приходит в голову.
Завтра постараюсь уточнить еще одно название программы распознавания страниц. Приобрели ген. директору лазерный МФУ от HP, там в комплекте ПО распознавания шло. Вполне успешно распознала тестовую страницу. Насколько сопоставимы продукты по цене/качеству сказать не могу, но как альтернатива мне понравилась.
|
если есть текстовый слой, то можно и так
если нет то можно как то так
|
Цитата:
Цитата cher
если нет то можно как то так »
|
Гениально! Каждой строчке текста свой лист! :)
Мож тогда графический редактор ещё подключить и собирать из кусочков страничку? :)
|
Morpheus, с тем же файнридером выйдет не быстрее. :)
или еще так
|
А вот так? http://www.pdftoword.com/ ( convert all your files free for 14 days)
Затем элементарно убрать картинки. (Правда сам никогда не юзал :)

|
yurfed, юзал, но с djvu не работает.
|
Цитата:
Цитата cher
с тем же файнридером выйдет не быстрее. »
|
Побыстрее. Можно настроить чтобы только текст вставлялся.
А если потом понадобится размер шрифта увеличить? Засада. Страницы уже собраны.
Дык, это ж очередная поделка для недоразвитых, которые не умеют Ctrl+A, Ctrl+C, Ctrl+V.
Если в PDF нет текстового слоя, а только картинка (содержащая текст и картинки), то в виде картинки оно в ворд и передастся.
Совершенно очевидно, что у ТС нет текстового слоя.
Тогда уж Программа для PDF-файлов ABBYY PDF Transformer. Но это подходит под
Цитата:
Цитата Morpheus
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными. »
|
|
Morpheus, В принципе да.
Сейчас проверил- 418 страничный djvu файл finereader отсканировал/распознал/передал в word за 15 минут.
|
Вложений: 1
Цитата:
Цитата yurfed
Morpheus, дай, если есть какой нибудь PDF без текстового слоя. »
|
Файл 71460
с ним справляется. Да и другие программы оптического распознавания тоже худо-бедно справятся.
А вот поделкам для выкачивания денег он окажется не по зубам.
Но это всё
Цитата:
Цитата Morpheus
1. Страница книги сканируется в виде одной картинки. Способ менее трудоёмкий, но уже ни текст не отредактировать, ни картинки не вырезать (как картинку вырезать из картинки и кто должен отличить картинки от текста?).
Лечится вторым способом.
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными. »
|
|
Про pdf могу подсказать. Бесплатная программа Foxit Reader, там можно активировать панельку с инстурментом карандаш и прямоугольник. Взять этот прямоугольник нарисовать поверх рисунка который не нужен на печати, затем выделить нарисованный прямоугольник (он по умолчанию рисуется красным цветом), нажать правой кнопкой мыши затем выбрать "свойства" и там поставить цвет прямоугольника белый и цвет заливки белый. так Рисунок затирается. Либо еще можно вставлять свой рисунок, а его заранее подготовить и нарисовать полностью белым к примеру.
|
Время: 14:48.
© OSzone.net 2001-