Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Скриптовые языки администрирования Windows (http://forum.oszone.net/forumdisplay.php?f=102)
-   -   [решено] Разобрать большой PDF-файл на отдельные статьи по списку страниц (http://forum.oszone.net/showthread.php?t=267942)

Luzuk 12-09-2013 08:45 2216497

Разобрать большой PDF-файл на отдельные статьи по списку страниц
 
Всем доброго времени суток!

Мне нужно разбить pdf файл на несколько кусков. Это нужно будет делать не однократно, поэтому задачу нужна автоматизировать.
Есть очень удобная программа pdftk, она может работать из консоли и с ее помощью можно делать множество разных операций с pdf файлами.

У меня есть 2 файла в pdf: большой текст, состоящий из отдельных статей и его содержание.
Содержание выглядит следующим образом:
Цитата:

СОДЕРЖАНИЕ
РУБРИКА 1
8 Д.В. Агеев Методы снижения вредного воздействия автомобильного транспорта на окружающую среду
10 А.В. Безымянных Разработка web-представительства для компании ОАО «Ель»
13 Р.И. Белогуб Основы теплового расчета камер испарения гигроскопических опреснителей
15 А.С. Богатырев Разработка интерфейса для программы «распределение товара по филиалам» в
системе «1С:Предприятие 8.2»
РУБРИКА 2
17 Е.Г. Болдескул Сравнительный анализ сред имитационного моделирования для описания
экономических процессов
19 В.О. Брагинец Разработка алгоритма работы программы временной передачи доступа к учётным
записям в интернет
22 А.Ю. Бурцев Анализ качества при разработке программного продукта
и т.д.
Из этого файла нужно выдернуть страницы статей и сделать из них текст: текущая страница-следующая страница. Т.е.: 8-10 10-13 13-15 17-19 19-22 22-end

Затем этот текст нужно вставить в атрибуты команды pdftk, в виде:
Код:

pdftk text.pdf cat 8-10 output 8-10.pdf
pdftk text.pdf cat 10-13 output 10-13.pdf
pdftk text.pdf cat 13-15 output 13-15.pdf

В результате из единого файла со сборником статей получим, набор отдельных файлов с этими статьями.

Можно ли это сделать в винде стандартными консольными командами? Или не мучиться и на С (php) написать скрипт, который все это будет делать?

PS.
После, мне еще список нужно будет преобразовать в html и в нем сделать ссылки на эти файлы, но это уже другая задача.

Luzuk 15-09-2013 10:58 2218124

В виндовой консоли, как я понял, это проблемотично сделать, т.к. без регулярных выражений здесь не обойтись.

Сделал все на PHP

Iska 15-09-2013 16:42 2218294

Цитата:

Цитата Luzuk
В виндовой консоли, как я понял, это проблемотично сделать, т.к. без регулярных выражений здесь не обойтись. »

Не проблематично: Windows PowerShell. Это тоже «консоль».


Время: 12:36.

Время: 12:36.
© OSzone.net 2001-