wkhtmltopdf сохранение только нескольких страниц HTML to PDF

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)

- Хочу все знать (http://forum.oszone.net/forumdisplay.php?f=23)

wkhtmltopdf сохранение только нескольких страниц HTML to PDF

Попробовав несколько инструментов сохранения страничек в PDF остановился на wkhtmltopdf. Единственный момент, есть допустим статья, материал на 2 страницы, а ниже комментарии на страниц 50.
Задача сохранить статью только 2 страницы самого материала без этих комментариев.
Как-то средствами параметров wkhtmltopdf возможно ли указать сколько страниц прочитать?

Я бы следом применил pdftk и выкинул ненужные страницы.

Yewgeniy, проблема именно в определении места ненужности. а не в инструментах.

Проблема в отсутствии у wkhtmltopdf параметров, позволяющих ограничить кол-во страниц.

А оно нам заранее известно? Нет.

Можно найти место, посчитать страницу и использовать в качестве параметра pdftk.

Да наверное тогда и в самом деле только вариант вручную удалять страницы с готового PDF.

Просто там есть очень интересная функция TOCок (table of content) wkhtmltopdf --dump-outline toc.xml http://tst.html tst.pdf
которая в тех случаях, которые я пробовал очень четко разграничивает содержимое документа, т.е. отдельно статья, отдельно какая-то другая информация, отдельно комментарии. Думал может с ее помощью как-то можно

Ну, так я про то ж, что главное — определить место.

Я так понимаю, что быстрее и проще будет «ручками» отрезать лишнее, например, те же комментарии (скажем, в Scrapbook), сохранить полученное локально, а затем уже «натравить» на него утилиту. Если задача глобальнее — загрузить сайт и сделать с него книгу — то какой-нибудь паук WinHTTrack с последующей обработкой от мусора скриптами WSH, PoSH, Python.

Цитата:

Цитата AlexeyRS

вручную удалять страницы с готового PDF. »

Да почему вручную-то???
pdftk тем и хорош, что работает с командной строкой и параметрами.

Может проще определить какое-нибудь стоп-слово?
Например на Хабре это Автор, Схожие публикации. И только после этого развернутые комментарии.
Если перечень ресурсов ограничен, то под них тоже можно поискать некоторые слова, отделяющие основную часть от обсуждения.

Iska Там больше отдельные страницы. Просто задался вопросом сохранения страниц без потери "вида отображения" и одинакового вида на любом ПК/устройстве на котором будут открывать, и пришел к PDF сохранению. Сохранение страниц полностью браузером, что-то вообще коверкает их, и еще сильнее если в другом броузере открыть.

Yewgeniy Ну в любом случае готовые PDFки в полуручном режиме. Зашел на сайт pdftk (pdflabs.com) функции доступны только в платной ПРО версии. Пока попробовал Adobe Acrobat DC и Foxit PhantomPDF нормально удаляют лишние страницы, но конечно вариант такая махина для таких целей :)

pdftk - это даже слишком сложно.

Пару лет назад у меня случилась проблема, что ну никак не мог печатать на принтере, подключенном к другому компу в сети. А надо было. Дело было давно, многое забыл. Решил так. На том компе расшарил папку и поставил командный файл, запускающийся при загрузке компа. Командный файл циклически проверял содержание расшаренной папки и командной строкой отправлял обнаруженный файл на печать, после чего удалял файл. Т.е. мне достаточно было кинуть файл в расшаренну папку и идти за распечатанным доком.

Ключевой момент в том, что использовалась командная строка то ли акробата ридера толи чегото похожего, не помню. Т.е. я кидал пдф файл, а не какой нить другой. Так что можно копать в этом направлении. Определить начало комментов и отправить на печать (в пдф) только нужные страницы. И разумеется не вручную. Собственно, тут сойдёт наверно даже какнибуть привычный пдф-принтер.

AlexeyRS, в таком случае проще будет завести себе какой-нибудь виртуальный PDF-принтер и печатать на него выбранные страницы или выделенный фрагмент:

Скрытый текст

Из спортивного интереса pdf принтер пропустил. Разные принтеры немного по разному ведут себя на сложной верстке Word страниц.
Из программ "резки" pdf предложу pdfsam
Проект развивается. Несколько лет назад это была довольно страшная (но надо отдать должная рабочая программа), теперь вон бантиков прикрутили, сайт сделали.

Ок. Огромное спасибо всем за наводки и советы. буду пробовать :)