Цитата El Scorpio:
Там вся страница представляет собой одну картинку »
|
это я в курсе.
распознавание и копирование текста - вряд ли лучший способ.
Там некоторые картинки занимают по пол страницы (с 90% заполнением). Неплохо было бы иметь ПО, каторое бы распознавало именно эти картинки и удаляла их хотя бы частично. В крайнем случае сгодился бы ручной инструмент для выделения таких картинок (но только чтобы быстро и удобно было, так как много страниц обрабатывать надо).
может под линуксом какие то утилиты существуют, способные совершать подобную обработку изображений, а там глядишь и автоматизировать можно будет?...
Еще здесь имеется вторая проблема - это когда текст на тёмном фоне. Ксерокс как-то умеет рапознавать это дело и печатает без фона. А вот можно ли так настроить принтер или акробат-ридер, чтобы он автоматически менял контрастность?...