Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Компьютеры + Интернет » Хочу все знать » wkhtmltopdf сохранение только нескольких страниц HTML to PDF

Ответить
Настройки темы
wkhtmltopdf сохранение только нескольких страниц HTML to PDF

Новый участник


Сообщения: 22
Благодарности: 1

Профиль | Отправить PM | Цитировать


Попробовав несколько инструментов сохранения страничек в PDF остановился на wkhtmltopdf. Единственный момент, есть допустим статья, материал на 2 страницы, а ниже комментарии на страниц 50.
Задача сохранить статью только 2 страницы самого материала без этих комментариев.
Как-то средствами параметров wkhtmltopdf возможно ли указать сколько страниц прочитать?
Это сообщение посчитали полезным следующие участники:

Отправлено: 17:03, 04-08-2016

 

Ветеран


Сообщения: 1011
Благодарности: 47

Профиль | Отправить PM | Цитировать


Я бы следом применил pdftk и выкинул ненужные страницы.

Отправлено: 18:16, 04-08-2016 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


Yewgeniy, проблема именно в определении места ненужности. а не в инструментах.

Отправлено: 18:49, 04-08-2016 | #3


Ветеран


Сообщения: 1011
Благодарности: 47

Профиль | Отправить PM | Цитировать


Проблема в отсутствии у wkhtmltopdf параметров, позволяющих ограничить кол-во страниц.
Это сообщение посчитали полезным следующие участники:

Отправлено: 18:56, 04-08-2016 | #4


Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


А оно нам заранее известно? Нет.

Отправлено: 19:36, 04-08-2016 | #5


Ветеран


Сообщения: 1011
Благодарности: 47

Профиль | Отправить PM | Цитировать


Можно найти место, посчитать страницу и использовать в качестве параметра pdftk.
Это сообщение посчитали полезным следующие участники:

Отправлено: 20:29, 04-08-2016 | #6


Новый участник


Сообщения: 22
Благодарности: 1

Профиль | Отправить PM | Цитировать


Да наверное тогда и в самом деле только вариант вручную удалять страницы с готового PDF.

Просто там есть очень интересная функция TOCок (table of content) wkhtmltopdf --dump-outline toc.xml http://tst.html tst.pdf
которая в тех случаях, которые я пробовал очень четко разграничивает содержимое документа, т.е. отдельно статья, отдельно какая-то другая информация, отдельно комментарии. Думал может с ее помощью как-то можно

Отправлено: 20:50, 04-08-2016 | #7


Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


Ну, так я про то ж, что главное — определить место.

Я так понимаю, что быстрее и проще будет «ручками» отрезать лишнее, например, те же комментарии (скажем, в Scrapbook), сохранить полученное локально, а затем уже «натравить» на него утилиту. Если задача глобальнее — загрузить сайт и сделать с него книгу — то какой-нибудь паук WinHTTrack с последующей обработкой от мусора скриптами WSH, PoSH, Python.

Отправлено: 20:55, 04-08-2016 | #8


Ветеран


Сообщения: 1011
Благодарности: 47

Профиль | Отправить PM | Цитировать


Цитата AlexeyRS:
вручную удалять страницы с готового PDF. »
Да почему вручную-то???
pdftk тем и хорош, что работает с командной строкой и параметрами.

Отправлено: 21:33, 04-08-2016 | #9


Аватара для lxa85

Необычный


Contributor


Сообщения: 4463
Благодарности: 994

Профиль | Сайт | Отправить PM | Цитировать


Может проще определить какое-нибудь стоп-слово?
Например на Хабре это Автор, Схожие публикации. И только после этого развернутые комментарии.
Если перечень ресурсов ограничен, то под них тоже можно поискать некоторые слова, отделяющие основную часть от обсуждения.

-------
- Я не разрешаю тебе быть плохой! Потому что плохие люди совершают плохие поступки. А это нехорошо!
(Из наставлений 5 летней девочки своей младшей сестре)


Отправлено: 21:51, 04-08-2016 | #10



Компьютерный форум OSzone.net » Компьютеры + Интернет » Хочу все знать » wkhtmltopdf сохранение только нескольких страниц HTML to PDF

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
pdf в html Rubichek Вебмастеру 4 07-08-2011 21:21
Сохранение нескольких изображений Qwe1 Вебмастеру 3 29-09-2007 13:29
Сохранение страниц в IE7 Commandos Microsoft Windows 2000/XP 4 13-03-2007 13:48
Сохранение заполненного бланка .pdf Chingachguk Хочу все знать 2 11-12-2002 20:00
Сохранение Web-страниц schwu1 Microsoft Windows 95/98/Me (архив) 7 07-09-2002 14:33




 
Переход