Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Хочу все знать (http://forum.oszone.net/forumdisplay.php?f=23)
-   -   wkhtmltopdf сохранение только нескольких страниц HTML to PDF (http://forum.oszone.net/showthread.php?t=317503)

AlexeyRS 04-08-2016 17:03 2656905

wkhtmltopdf сохранение только нескольких страниц HTML to PDF
 
Попробовав несколько инструментов сохранения страничек в PDF остановился на wkhtmltopdf. Единственный момент, есть допустим статья, материал на 2 страницы, а ниже комментарии на страниц 50.
Задача сохранить статью только 2 страницы самого материала без этих комментариев.
Как-то средствами параметров wkhtmltopdf возможно ли указать сколько страниц прочитать?

Yewgeniy 04-08-2016 18:16 2656927

Я бы следом применил pdftk и выкинул ненужные страницы.

Iska 04-08-2016 18:49 2656933

Yewgeniy, проблема именно в определении места ненужности. а не в инструментах.

Yewgeniy 04-08-2016 18:56 2656939

Проблема в отсутствии у wkhtmltopdf параметров, позволяющих ограничить кол-во страниц.

Iska 04-08-2016 19:36 2656948

А оно нам заранее известно? Нет.

Yewgeniy 04-08-2016 20:29 2656957

Можно найти место, посчитать страницу и использовать в качестве параметра pdftk.

AlexeyRS 04-08-2016 20:50 2656959

Да наверное тогда и в самом деле только вариант вручную удалять страницы с готового PDF.

Просто там есть очень интересная функция TOCок (table of content) wkhtmltopdf --dump-outline toc.xml http://tst.html tst.pdf
которая в тех случаях, которые я пробовал очень четко разграничивает содержимое документа, т.е. отдельно статья, отдельно какая-то другая информация, отдельно комментарии. Думал может с ее помощью как-то можно

Iska 04-08-2016 20:55 2656960

Ну, так я про то ж, что главное — определить место.

Я так понимаю, что быстрее и проще будет «ручками» отрезать лишнее, например, те же комментарии (скажем, в Scrapbook), сохранить полученное локально, а затем уже «натравить» на него утилиту. Если задача глобальнее — загрузить сайт и сделать с него книгу — то какой-нибудь паук WinHTTrack с последующей обработкой от мусора скриптами WSH, PoSH, Python.

Yewgeniy 04-08-2016 21:33 2656967

Цитата:

Цитата AlexeyRS
вручную удалять страницы с готового PDF. »

Да почему вручную-то???
pdftk тем и хорош, что работает с командной строкой и параметрами.

lxa85 04-08-2016 21:51 2656969

Может проще определить какое-нибудь стоп-слово?
Например на Хабре это Автор, Схожие публикации. И только после этого развернутые комментарии.
Если перечень ресурсов ограничен, то под них тоже можно поискать некоторые слова, отделяющие основную часть от обсуждения.

AlexeyRS 04-08-2016 22:22 2656975

Iska Там больше отдельные страницы. Просто задался вопросом сохранения страниц без потери "вида отображения" и одинакового вида на любом ПК/устройстве на котором будут открывать, и пришел к PDF сохранению. Сохранение страниц полностью браузером, что-то вообще коверкает их, и еще сильнее если в другом броузере открыть.

Yewgeniy Ну в любом случае готовые PDFки в полуручном режиме. Зашел на сайт pdftk (pdflabs.com) функции доступны только в платной ПРО версии. Пока попробовал Adobe Acrobat DC и Foxit PhantomPDF нормально удаляют лишние страницы, но конечно вариант такая махина для таких целей :)

Yewgeniy 04-08-2016 22:43 2656978

pdftk - это даже слишком сложно.

Пару лет назад у меня случилась проблема, что ну никак не мог печатать на принтере, подключенном к другому компу в сети. А надо было. Дело было давно, многое забыл. Решил так. На том компе расшарил папку и поставил командный файл, запускающийся при загрузке компа. Командный файл циклически проверял содержание расшаренной папки и командной строкой отправлял обнаруженный файл на печать, после чего удалял файл. Т.е. мне достаточно было кинуть файл в расшаренну папку и идти за распечатанным доком.

Ключевой момент в том, что использовалась командная строка то ли акробата ридера толи чегото похожего, не помню. Т.е. я кидал пдф файл, а не какой нить другой. Так что можно копать в этом направлении. Определить начало комментов и отправить на печать (в пдф) только нужные страницы. И разумеется не вручную. Собственно, тут сойдёт наверно даже какнибуть привычный пдф-принтер.

Iska 05-08-2016 05:17 2657008

AlexeyRS, в таком случае проще будет завести себе какой-нибудь виртуальный PDF-принтер и печатать на него выбранные страницы или выделенный фрагмент:
Скрытый текст

lxa85 05-08-2016 06:43 2657016

Из спортивного интереса pdf принтер пропустил. Разные принтеры немного по разному ведут себя на сложной верстке Word страниц.
Из программ "резки" pdf предложу pdfsam
Проект развивается. Несколько лет назад это была довольно страшная (но надо отдать должная рабочая программа), теперь вон бантиков прикрутили, сайт сделали.

AlexeyRS 07-08-2016 22:31 2657693

Ок. Огромное спасибо всем за наводки и советы. буду пробовать :)


Время: 14:18.

Время: 14:18.
© OSzone.net 2001-