Чем делать PDF-таблицы?

lexa - 01/Мар/2010 18:41

Разное

Вот есть задача: сделать довольно сложную табличку в PDF (~1000 чисел на половинке А4).

Понятно, что просто 12-м кеглем оно не влезет, плюс там нужны выделения (шрифтом, подчеркиваниями, фоном).

Пока тестируюсь - выгоняю все в HTML, а в PDF превращаю Word-2007 (отлично работает, кстати), но хочется этот генератор в онлайне (и результат - в PDF, ибо под распечатку).

Пробовал LaTeX, но тамошний табличный процессор меня не удовлетворил, слишком много места хочет и нужную мне таблицу даже на целую А4 размещает с трудом (а на половинку - никак не лезет).

Куды крестьянину податься? PDF::Table какая-то невозможно скучная штука.....

Есть ли коммандлайновый (и юниксный) софт, который может срендерить HTML в PDF ?

Update:

wkhtmltopdf - очень похож на работающий, хотя и потребовал себе Xvfb (м.б. Qt так собран, надо разбираться). ~~Единственная пока проблема - греческий шрифт, у меня в табличках Φ и μ~~ После подсовывания Windows-шрифтов в fontpath - все полностью как надо.
htmldoc, наоборот, для моих задач не подходит т.к. стили документа полностью игнорирует.
Firefox игнорирует фон у табличек (а у меня выделение ячеек сделано зеброй), что неприятно, остальное работает.

Comments

может проще латех подточить? наверняка там просто по умолчан

_slw (not verified) - 01/Мар/2010 18:55

может проще латех подточить?
наверняка там просто по умолчанию пробелы больше, а тебя и меньшие устраивают.

Это по трудоемкости не лучше (а скорее сильно хуже), чем PDF

lexa - 01/Мар/2010 19:05

Это по трудоемкости не лучше (а скорее сильно хуже), чем PDF::Table насиловать.

Т.е. я так попробовал и меня стошнило :)

ну а plain TeX? LaTeX используя только для русификации.

_slw (not verified) - 01/Мар/2010 19:13

ну а plain TeX?
LaTeX используя только для русификации.

Для plain tex я буду вынужден сам таблицы срендерить. Ну то

lexa - 01/Мар/2010 19:32

Для plain tex я буду вынужден сам таблицы срендерить. Ну то есть определить ширину столбцов (высота, по счастью, фиксирована) и в них нагадить.

А я сломался даже без вложенных таблиц (отчего таблица получается не 9x10 в каждой ячейке вложено еще 3x6 а сразу 27x60) - это я про PDF::Table

[бегло проглядев главу из все про тех] определять не надо. т

_slw (not verified) - 01/Мар/2010 19:43

[бегло проглядев главу из все про тех]
определять не надо. тех сам.

Ну я посмотрел в какие-то примеры, там везде попадаются разм

lexa - 01/Мар/2010 20:07

Ну я посмотрел в какие-то примеры, там везде попадаются размеры. Не разбирался, размеры чего это были :)

я посмотрел последний рпимер в главе 22 -- никаких размеров,

_slw (not verified) - 01/Мар/2010 20:13

я посмотрел последний рпимер в главе 22 -- никаких размеров, кроме общей ширины таблицы

ReportLab --- library to create PDF documents using Python (

avnik (not verified) - 01/Мар/2010 18:58

ReportLab --- library to create PDF documents using Python (в дебиане -- python-reportlab)
Правда непонятно -- как оно с таблицами дружит.

Гы. Добро пожаловать в волшебный мир PDF-а Коротко: _норма

david_m (not verified) - 01/Мар/2010 19:00

Гы. Добро пожаловать в волшебный мир PDF-а

Коротко: _нормального_ ничего нет, разве что в XSL-FO верстать. Но можно поизвращаться с http://code.google.com/p/wkhtmltopdf/. В действии на него можно посмотреть тут: http://www.pdfmyurl.com/.

А вебкит должен рулить. Буду смотреть, спасибо. Ресурсы мен

lexa - 01/Мар/2010 19:11

А вебкит должен рулить. Буду смотреть, спасибо.

Ресурсы меня мало парят, вряд ли больше сотни в день таких фигень будет делаться.....

Да ни фига он не рулит. Он умеет, например, разрывать страни

david_m (not verified) - 01/Мар/2010 20:02

Да ни фига он не рулит. Он умеет, например, разрывать страницу посередине строки (верхняя половина букв на одной стр., нижняя на другой). И print-правила CSS-а плохо понимает. Но попробовать можно.

Ещё FF можно приспособить: http://jkroon.blogs.uls.co.za/it/scriptingprogramming/using-firefox-35-t...

Xvb очень не хочется :) Но да, решение, конечно.

lexa - 01/Мар/2010 20:09

Xvb очень не хочется :)

Но да, решение, конечно.

Докладываю 1) FF и под юниксом тоже - не печатает серый фон

lexa - 02/Мар/2010 17:56

Докладываю

1) FF и под юниксом тоже - не печатает серый фон в ячейках. Это типа фича такая.
2) wkhtmltopdf - полностью меня удовлетворяет (из принт-правил CSS мне нужен только перевод страницы :)
3) Проблема со шрифтами пропала подсовыванием виндовых через xset +fp, результат почти полностью устраивает (вот еще битмепы плохо масштабируются, некрасиво)

4) Разбиение страниц по полстроки - "известная фича вебкита" если в двух колонках таблицы строки не выровнены.

wkhtmltopdf очень похож на работающий солюшн, осталось тольк

lexa - 02/Мар/2010 10:17

wkhtmltopdf очень похож на работающий солюшн, осталось только найти греческие шрифты и научиться их ему подсунуть (на удаленной машине без X11 немножко сложно оказалось посмотреть....)

Спасибо!

XSL-FO - это для сильных духом. Хотя если табличка простая -

strvt (not verified) - 01/Мар/2010 21:51

XSL-FO - это для сильных духом. Хотя если табличка простая - то может быть вполне ничего.
Ребята из дружественного подразделения, которое на этом своё решение построили, жаловались только, что open source библиотека для этого дела хреново работает под нагрузкой.

а pdf-принтеров под линукс разве нету?

diesell (not verified) - 01/Мар/2010 19:07

а pdf-принтеров под линукс разве нету?

Ну есть CUPS (-PDF), но как бы это не было сохранение битмеп

lexa - 01/Мар/2010 19:12

Ну есть CUPS (-PDF), но как бы это не было сохранение битмепа в PDF.

Не, по-моему там честный дистиллер на базе ghostscript-а.

vitus_wagner (not verified) - 01/Мар/2010 19:18

Не, по-моему там честный дистиллер на базе ghostscript-а.

Под Linux нет GDI - т.е. стандартного набора графических при

vitus_wagner (not verified) - 01/Мар/2010 19:18

Под Linux нет GDI - т.е. стандартного набора графических примитивов, которые можно подать на вход pdf-принтера.
Соответственно, остается задача что подать на вход. Стандартным языком описания страниц в мире *nix является Postscript. Но если мы умудрились каким-то способом получить нужный Postscript, вопрос "а как из этого сделать pdf" уже не стоит. Ибо это и ежу понятно.

Есть, правда, еще Xprint - некая аналогичная GDI попытка сделать из набора вызовов API для рисования на экране набор примитивов для передачи принтеру. Но на сервере обычно нет X.

Не, ну действительно можно слепить самому из вебкита и просл

lexa - 01/Мар/2010 19:29

Не, ну действительно можно слепить самому из вебкита и прославиться в веках.

Но то что Давид посоветовал - пока выглядит наименее геморойно. Вот будут длинные выходные - буду пробовать.

<A HRef='http://jasperforge.org/projects/ireport'>iReport</A

norrittmobile (not verified) - 01/Мар/2010 19:11

iReport?

можно еще на PS сделать... [убегает]

_slw (not verified) - 01/Мар/2010 19:14

можно еще на PS сделать...
[убегает]

Помнится я когда-то давно генерировал pdf-ы из html-я, получ

vitus_wagner (not verified) - 01/Мар/2010 19:15

Помнится я когда-то давно генерировал pdf-ы из html-я, получая сначала postscript с помощью html2ps (скрипт такой перловый), а потом его в pdf ghostcript-ом. У html2ps было то ограничение, что он не умел резать таблицы на страницы (привет табличной верстке) но с настоящими таблицами, которые для табличного представления данных, справлялся неплохо.

Еще помнится, попадался мне TeX-овский формат, понимающий в качестве входного языка HTML. Вот что там было со сложными таблицами - не помню.

Еще есть вариант - openoffice.org умеет работать в headless режиме, и задачи типа "взять сто текстовых файлов и сохранить их в формате .doc" в этом режиме решает замечательно. По-моему задачу "взять файл в любом понимаемом формате и экспортировать в pdf" - тоже.

<q>Еще есть вариант - openoffice.org умеет работать в headle

_slw (not verified) - 01/Мар/2010 19:29

Еще есть вариант - openoffice.org умеет работать в headless режиме
а это конкретно как?
и умеет ли он в этом режиме заменять catdoc?

Re: openoffice.org умеет работать в headless режиме

mpd (not verified) - 01/Мар/2010 20:05

http://mpd.livejournal.com/35634.html

Re: openoffice.org умеет работать в headless режиме

_slw (not verified) - 01/Мар/2010 20:11

если там есть ответ на мой вопрос, то он какой-то черезчур неочевидный

Re: openoffice.org умеет работать в headless режиме

mpd (not verified) - 01/Мар/2010 20:43

В моём посте, конечно, более сложный вопрос обсуждается, но на ту же тему ("...в каждом из которых последовательно много раз конвертируется свой уникальный документ...").
Смотрим man catdoc:

catdoc - reads MS-Word file and puts its content as plain text on standard output

Ваш вопрос был:

и умеет ли он [openoffice.org] в этом режиме заменять catdoc?

В моём посте есть ссылка на скрипт под названием unoconv, с сайта производителя:

unoconv converts between any document format that OpenOffice understands.

Как вы понимаете, "MS-Word" и "plain text" - подпадают под определение "document format that OpenOffice understands".
Вот вам и замена catdoc в виде джаггернаута под названием OpenOffice+unoconv.
Ума не приложу, чего производители OpenOffice не суют что-либо подобное этому скрипту (тыщи их) в коробку... :-(

"Отвечаю ли я вам на ваш ответ"? :-)

P.S.: По-моему, PDF - это one-way фрмат, т.е. в него можно всё, что угодно, но вот из него - не всегда; это больше - векторная графика, эдакий SVG.

Re: openoffice.org умеет работать в headless режиме

_slw (not verified) - 01/Мар/2010 20:47

на сарае тоже много что написанно, однако там дрова лежат.

формально такой путь прописан, а реально что получается, особенно с таблицами и внедренным екселем каким?

мой вопрос подразумевал, не "прописанна ли такая возможность", а "можно ли этим реально пользоваться и не блевать"

Re: можно ли этим реально пользоваться и не блевать

mpd (not verified) - 01/Мар/2010 20:56

С внедренным экселем - не скажу, а с табличками в текстовых документах - очень даже приличный pdf делается.
Ещё читайте ниже комментарий.

Re: можно ли этим реально пользоваться и не блевать

_slw (not verified) - 01/Мар/2010 20:59

причем тут пилять пдф?!
я хочу в почте, читаемой в mutt по ssh прочитать вордовый аттач.
мне нах pdf, svg и прочая ересь.

Re: хочу в почте, читаемой в mutt по ssh прочитать вордовый а

mpd (not verified) - 01/Мар/2010 21:06

Ой-ой-ой!!!

Теперь моя очередь не понимать; я думал, что вы в тему поста, а там именно про PDF.

С "plain-text" - это уже не ко мне, но на моём дистрибутиве уж очень богатые фильтры для less (lesspipe.sh), может там чего можно найти, не знаю...

Извините, ради бога!

а тебе именно html? я вот выгонял достаточно сложные таблич

dimas (not verified) - 01/Мар/2010 19:15

а тебе именно html?

я вот выгонял достаточно сложные таблички (детализации и счета операторские) через XML+XSLT:FO с помощью fop(http://xmlgraphics.apache.org/fop/). оно, правда, явовское ...

HTML у меня уже готовый и даже в нужный размер попал (было н

lexa - 01/Мар/2010 19:26

HTML у меня уже готовый и даже в нужный размер попал (было непросто :) и выглядит разумно.

Я, конечно, могу сгенерировать на каком-то другом маркап-языке, но не хотелось бы вляпаться как с latex, вчера на него полдня потерял (нужные мне 1000 элементов на А5 - влезают).

нуу ... боюсь что таки да, несколько часов уйдет ... зато та

dimas (not verified) - 01/Мар/2010 19:30

нуу ... боюсь что таки да, несколько часов уйдет ... зато там в разЫ проще будет в размеры попадать, чем в html-е .... я как раз на него перешел, когда надоело с простым XSLT шаманить с выводом в html ...

Ну Х-З, если ничего не выйдет с вебкитом, туда тоже посмотрю

lexa - 01/Мар/2010 19:41

Ну Х-З, если ничего не выйдет с вебкитом, туда тоже посмотрю, не догоню, так хоть согреюсь.

они влезают не в html, а в рендеринге MSOffice и в тех фонта

_slw (not verified) - 01/Мар/2010 19:31

они влезают не в html, а в рендеринге MSOffice и в тех фонтах, что ты выбрал.
а в латехе поди и фонт был другой, например менее плотный.

Они и в рендеренге Firefox влезают, MSOffice я только как PD

lexa - 01/Мар/2010 19:35

Они и в рендеренге Firefox влезают, MSOffice я только как PDF-генератор использовал.

а что не так в рендеринге FF?

_slw (not verified) - 01/Мар/2010 19:47

а что не так в рендеринге FF?

Я хочу чтобы йузер на вебе вбивал десяток цифирок и получал

lexa - 01/Мар/2010 20:03

Я хочу чтобы йузер на вебе вбивал десяток цифирок и получал две пол-странички "отчета".
И не очень хочу давать эту табличку в HTML, хочу в PDF.

я про генерацию pdf, почему офис, почему не ff

_slw (not verified) - 01/Мар/2010 20:12

я про генерацию pdf, почему офис, почему не ff

X-сервер на сервере не хочу поднимать, но это единственная п

lexa - 01/Мар/2010 20:47

X-сервер на сервере не хочу поднимать, но это единственная причина.

причем тут сервер? ты посмотрел на html FF. почему ты им же

_slw (not verified) - 01/Мар/2010 20:49

причем тут сервер?
ты посмотрел на html FF. почему ты им же не генерил PDF, а запускал для этого ворд, затаскивал туда HTML и только после этого генерил PDF?

Потому что туп, необразован и возможности "печатать PDF" в ф

lexa - 01/Мар/2010 21:03

Потому что туп, необразован и возможности "печатать PDF" в файрфоксных менюшках не нашел.

странно <img src='http://zxy.spb.ru/print.png'>

_slw (not verified) - 01/Мар/2010 21:05

странно

Под виндой такой красоты не видать.

lexa - 01/Мар/2010 21:08

Под виндой такой красоты не видать.

А что, напечатать на принтер

AlexeyE (not verified) - 01/Мар/2010 22:05

А что, напечатать на принтер Adobe PDF не судьба (или Acrobat не установлен)?

Так это же Windows/Mac

lexa - 01/Мар/2010 22:22

Так это же Windows/Mac only?

Мне на сервер, на сервере FreeBSD.

Пожалуй, буду более конкретен еще
1) есть личное применение - пяток табличек А5, в кофр положить, тут и офисом можно и чем угодно
2) но сама по себе штука мне кажется полезной (ждите анонса :), а значит нужен веб-сервис.

Ну вот, начали про офис,

AlexeyE (not verified) - 01/Мар/2010 23:00

Ну вот, начали про офис, кончили про FreeBSD (с этой дамой незнаком). Посмотрите в сторону ОпенОфис, может оттуда можно что прикрутить (под Win точно есть встроенная конверсия в PDF).

Вопрос задан в последней

lexa - 01/Мар/2010 23:28

Вопрос задан в последней строчке поста:
Есть ли коммандлайновый (и юниксный) софт, который может срендерить HTML в PDF ?

И на самом деле мне посоветовали аж три: OpenOffice, Firefox и приладу на WebKit. Которую приладу мой сервер сейчас и компилирует....

Хм, а задача _так_ стояла? Тогда http://www.pdfforge.org/pdf

david_m (not verified) - 01/Мар/2010 23:52

Хм, а задача _так_ стояла? Тогда http://www.pdfforge.org/pdfcreator

Не, это Слава меня спросил, отчего я то что тестироал (3-я с

lexa - 02/Мар/2010 00:11

Не, это Слава меня спросил, отчего я то что тестироал (3-я строчка поста) не выгонял в PDF прямо Firefox-ом.

И продолжаю ее там не видеть

lexa - 01/Мар/2010 21:06

И продолжаю ее там не видеть

тьфу в генерации

_slw (not verified) - 01/Мар/2010 19:47

тьфу в генерации

Значительное количество тяжелых решений (типа напечатать сче

kika (not verified) - 01/Мар/2010 20:15

Значительное количество тяжелых решений (типа напечатать счетов абонентам опсоса) делаются через XSL:FO и какой-нибудь процессор. Я бы взял XEP, конечно, хотя бы за название (ну и за то что я там немного поработал). Можно взять fo2pdf, но он посасывал там и тут, зато совсем бесплатный.

Flying Saucer

Denis Shaposhnikov (not verified) - 01/Мар/2010 20:40

Я использую https://xhtmlrenderer.dev.java.net/ для конвертирования xhtml в pdf. У них в примерах есть java скрипт, который работает с командной строкой.

Кто о чём, а...

mpd (not verified) - 01/Мар/2010 20:53

К комментарию выше могу лишь добавить, что славная библиотека wv сейчас всем советует переходить на AbiWord:

wvPDF: converts word to Adobe PDF. Use "AbiWord --to=pdf" or "AbiWord --print=file.ps && ps2pdf file.ps" instead.

Ну, а так как AbiWord понимает html, то можно прямо сразу html -> pdf.