Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Хочу все знать (http://forum.oszone.net/forumdisplay.php?f=23)
-   -   как распечатать pdf, djvu без картинок? (http://forum.oszone.net/showthread.php?t=217751)

spyphy 12-10-2011 10:48 1771618

как распечатать pdf, djvu без картинок?
 
Нужно распечатать отсканеную книгу. Там очень много картинок, которые никакой смысловой нагрузки не несут (учебник по англ.языку). И в целом это часто встречаемая проблема. Казалось бы положение безвыходное, но ведь уже 21-ый век, неужели наука до сих пор ничего не придумала?

Morpheus 12-10-2011 11:42 1771653

spyphy, сканировать можно по-разному.
1. Страница книги сканируется в виде одной картинки. Способ менее трудоёмкий, но уже ни текст не отредактировать, ни картинки не вырезать (как картинку вырезать из картинки и кто должен отличить картинки от текста?).
Лечится вторым способом.
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными.

Вопрос: каким способом отсканирована книга? Есть ли в ваших pdf-ах текстовый слой (проверяется возможностью выделения)?

El Scorpio 13-10-2011 10:16 1772286

Цитата:

Цитата spyphy
Нужно распечатать отсканеную книгу. Там очень много картинок, которые никакой смысловой нагрузки не несут (учебник по англ.языку) »

Там вся страница представляет собой одну картинку (набор точек разного цвета), которую для получения текста (набора символов) нужно обработать программой распознавания текста (FineReader или аналогичной)

spyphy 13-10-2011 14:38 1772479

Цитата:

Цитата El Scorpio
Там вся страница представляет собой одну картинку »

это я в курсе.
распознавание и копирование текста - вряд ли лучший способ.
Там некоторые картинки занимают по пол страницы (с 90% заполнением). Неплохо было бы иметь ПО, каторое бы распознавало именно эти картинки и удаляла их хотя бы частично. В крайнем случае сгодился бы ручной инструмент для выделения таких картинок (но только чтобы быстро и удобно было, так как много страниц обрабатывать надо).

может под линуксом какие то утилиты существуют, способные совершать подобную обработку изображений, а там глядишь и автоматизировать можно будет?...

Еще здесь имеется вторая проблема - это когда текст на тёмном фоне. Ксерокс как-то умеет рапознавать это дело и печатает без фона. А вот можно ли так настроить принтер или акробат-ридер, чтобы он автоматически менял контрастность?...

freese 13-10-2011 15:11 1772495

Цитата:

Цитата spyphy
В крайнем случае сгодился бы ручной инструмент для выделения таких картинок »

тот же finereader определяет картинки

Busla 14-10-2011 09:49 1773001

FineReader - штука хорошая, но не панацея - после него необходимо вычитывать текст, т.к. распознаётся не всегда верно.

Iska 14-10-2011 10:17 1773023

Busla, предложения?

Morpheus 14-10-2011 11:14 1773052

Мне вот интересно, любая тема, если она находится в ХВЗ, должна наполниться флеймом?

Iska 14-10-2011 12:34 1773115

Morpheus, где флейм? Вроде нету. Рассуждения, как можно добиться желаемого автором результата.

Morpheus 14-10-2011 13:59 1773169

Iska, пока нету. Но и идей, кроме второй раз предложенного файнридера тоже нету. Слишком много в последнее время развелось пустых и дублирующих сообщений, которые кроме шума в эфире ничего не создают.

spyphy 16-10-2011 19:34 1774763

придётся значит в Adobe Acrobat Professional в ручную выделять - не панацея но хоть что-то. 21 век блин называется

Grabber2006 16-10-2011 19:54 1774778

Мне всегда казалось, что купить книгу будет дешевле, чем её распечатать.

lxa85 17-10-2011 01:32 1774983

Конечно не FineReader'ом единым живет человечество (раз), но это первое, что приходит в голову.
Завтра постараюсь уточнить еще одно название программы распознавания страниц. Приобрели ген. директору лазерный МФУ от HP, там в комплекте ПО распознавания шло. Вполне успешно распознала тестовую страницу. Насколько сопоставимы продукты по цене/качеству сказать не могу, но как альтернатива мне понравилась.

lxa85 22-10-2011 09:52 1779164

Вспомнил! READIris

cher 22-10-2011 10:17 1779170

если есть текстовый слой, то можно и так
если нет то можно как то так

Morpheus 22-10-2011 10:21 1779172

Цитата:

Цитата cher
если нет то можно как то так »

Гениально! Каждой строчке текста свой лист! :)
Мож тогда графический редактор ещё подключить и собирать из кусочков страничку? :)

cher 22-10-2011 10:26 1779175

Morpheus, с тем же файнридером выйдет не быстрее. :)
или еще так

yurfed 22-10-2011 10:34 1779180

А вот так? http://www.pdftoword.com/ (convert all your files free for 14 days)
Затем элементарно убрать картинки. (Правда сам никогда не юзал :)

cher 22-10-2011 10:56 1779183

yurfed, юзал, но с djvu не работает.

Morpheus 22-10-2011 11:10 1779189

Цитата:

Цитата cher
с тем же файнридером выйдет не быстрее. »

Побыстрее. Можно настроить чтобы только текст вставлялся.
А если потом понадобится размер шрифта увеличить? Засада. Страницы уже собраны.
Цитата:

Цитата yurfed
А вот так? http://www.pdftoword.com/ (convert all your files free for 14 days) »

Дык, это ж очередная поделка для недоразвитых, которые не умеют Ctrl+A, Ctrl+C, Ctrl+V.
Если в PDF нет текстового слоя, а только картинка (содержащая текст и картинки), то в виде картинки оно в ворд и передастся.
Совершенно очевидно, что у ТС нет текстового слоя.

Тогда уж Программа для PDF-файлов ABBYY PDF Transformer. Но это подходит под
Цитата:

Цитата Morpheus
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными. »


yurfed 22-10-2011 11:18 1779190

Цитата:

Цитата cher
но с djvu не работает. »

Как вариант - использовать PDF как промежуточный формат или
djvu to word convert online
есть ещё
PDF to Word Online — 100% Free PDF Converter to Word Format

Цитата:

Цитата Morpheus
Дык, это ж очередная поделка для недоразвитых, которые не умеют Ctrl+A, Ctrl+C, Ctrl+V. »

Вообще то интеллекта много не надо чтобы заниматься копипастом по фрагментам всей книги.
Morpheus, дай, если есть какой нибудь PDF без текстового слоя.

Программы для конвертации DjVu в PDF и PDF в Doc

cher 22-10-2011 11:29 1779195

Morpheus, В принципе да.
Сейчас проверил- 418 страничный djvu файл finereader отсканировал/распознал/передал в word за 15 минут.

Morpheus 22-10-2011 11:32 1779199

Вложений: 1
Цитата:

Цитата yurfed
Morpheus, дай, если есть какой нибудь PDF без текстового слоя. »

Файл 71460
Цитата:

Цитата Morpheus
ABBYY PDF Transformer »

с ним справляется. Да и другие программы оптического распознавания тоже худо-бедно справятся.
А вот поделкам для выкачивания денег он окажется не по зубам.
Но это всё
Цитата:

Цитата Morpheus
1. Страница книги сканируется в виде одной картинки. Способ менее трудоёмкий, но уже ни текст не отредактировать, ни картинки не вырезать (как картинку вырезать из картинки и кто должен отличить картинки от текста?).
Лечится вторым способом.
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными. »


bratmena 24-02-2015 00:08 2475063

Про pdf могу подсказать. Бесплатная программа Foxit Reader, там можно активировать панельку с инстурментом карандаш и прямоугольник. Взять этот прямоугольник нарисовать поверх рисунка который не нужен на печати, затем выделить нарисованный прямоугольник (он по умолчанию рисуется красным цветом), нажать правой кнопкой мыши затем выбрать "свойства" и там поставить цвет прямоугольника белый и цвет заливки белый. так Рисунок затирается. Либо еще можно вставлять свой рисунок, а его заранее подготовить и нарисовать полностью белым к примеру.


Время: 14:48.

Время: 14:48.
© OSzone.net 2001-