|
Компьютерный форум OSzone.net » Компьютеры + Интернет » Хочу все знать » wkhtmltopdf сохранение только нескольких страниц HTML to PDF |
|
|
wkhtmltopdf сохранение только нескольких страниц HTML to PDF
|
Новый участник Сообщения: 22 |
Попробовав несколько инструментов сохранения страничек в PDF остановился на wkhtmltopdf. Единственный момент, есть допустим статья, материал на 2 страницы, а ниже комментарии на страниц 50.
Задача сохранить статью только 2 страницы самого материала без этих комментариев. Как-то средствами параметров wkhtmltopdf возможно ли указать сколько страниц прочитать? |
|
Отправлено: 17:03, 04-08-2016 |
Ветеран Сообщения: 1011
|
Профиль | Отправить PM | Цитировать Я бы следом применил pdftk и выкинул ненужные страницы.
|
Отправлено: 18:16, 04-08-2016 | #2 |
Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети. Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля. |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать Yewgeniy, проблема именно в определении места ненужности. а не в инструментах.
|
Отправлено: 18:49, 04-08-2016 | #3 |
Ветеран Сообщения: 1011
|
Профиль | Отправить PM | Цитировать Проблема в отсутствии у wkhtmltopdf параметров, позволяющих ограничить кол-во страниц.
|
Отправлено: 18:56, 04-08-2016 | #4 |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать А оно нам заранее известно? Нет.
|
|
Отправлено: 19:36, 04-08-2016 | #5 |
Ветеран Сообщения: 1011
|
Профиль | Отправить PM | Цитировать Можно найти место, посчитать страницу и использовать в качестве параметра pdftk.
|
Отправлено: 20:29, 04-08-2016 | #6 |
Новый участник Сообщения: 22
|
Профиль | Отправить PM | Цитировать Да наверное тогда и в самом деле только вариант вручную удалять страницы с готового PDF.
Просто там есть очень интересная функция TOCок (table of content) wkhtmltopdf --dump-outline toc.xml http://tst.html tst.pdf которая в тех случаях, которые я пробовал очень четко разграничивает содержимое документа, т.е. отдельно статья, отдельно какая-то другая информация, отдельно комментарии. Думал может с ее помощью как-то можно |
Отправлено: 20:50, 04-08-2016 | #7 |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать Ну, так я про то ж, что главное — определить место.
Я так понимаю, что быстрее и проще будет «ручками» отрезать лишнее, например, те же комментарии (скажем, в Scrapbook), сохранить полученное локально, а затем уже «натравить» на него утилиту. Если задача глобальнее — загрузить сайт и сделать с него книгу — то какой-нибудь паук WinHTTrack с последующей обработкой от мусора скриптами WSH, PoSH, Python. |
Отправлено: 20:55, 04-08-2016 | #8 |
Ветеран Сообщения: 1011
|
Профиль | Отправить PM | Цитировать Цитата AlexeyRS:
pdftk тем и хорош, что работает с командной строкой и параметрами. |
|
Отправлено: 21:33, 04-08-2016 | #9 |
Необычный Сообщения: 4463
|
Профиль | Сайт | Отправить PM | Цитировать Может проще определить какое-нибудь стоп-слово?
Например на Хабре это Автор, Схожие публикации. И только после этого развернутые комментарии. Если перечень ресурсов ограничен, то под них тоже можно поискать некоторые слова, отделяющие основную часть от обсуждения. |
------- Отправлено: 21:51, 04-08-2016 | #10 |
|
![]() |
Участник сейчас на форуме |
![]() |
Участник вне форума |
![]() |
Автор темы |
![]() |
Сообщение прикреплено |
| |||||
Название темы | Автор | Информация о форуме | Ответов | Последнее сообщение | |
pdf в html | Rubichek | Вебмастеру | 4 | 07-08-2011 21:21 | |
Сохранение нескольких изображений | Qwe1 | Вебмастеру | 3 | 29-09-2007 13:29 | |
Сохранение страниц в IE7 | Commandos | Microsoft Windows 2000/XP | 4 | 13-03-2007 13:48 | |
Сохранение заполненного бланка .pdf | Chingachguk | Хочу все знать | 2 | 11-12-2002 20:00 | |
Сохранение Web-страниц | schwu1 | Microsoft Windows 95/98/Me (архив) | 7 | 07-09-2002 14:33 |
|