PDF to HTML mit PHP

Hi,
der Betreff sagt eigentlich schon alles. Ich würde gerne eine gegebene PDF-Datei in eine Webseite als HTML-Text einbinden und das Ganze am besten serverseitig mit php.
Da ich unter phpinfo@bplaced nichts zu PDF Dateien gefunden hab, frage ich mich, ob das auf bplaced überhaupt mit vertretbarem Aufwand zu machen ist.

Ich weiß, dass ich das auch clientseitig mit pdf.js von Mozilla lösen könnte. Aber mir läuft das Skript irgendwie zu langsam und ruckelt.

Und wenn ich das ganze über ein iframe von beispielsweise Google Docs einbinde, habe ich zu wenig Einfluss auf das Layout. Außerdem finde ich diese die Lösung nicht besonders “schön”.

Danke im Vorraus :wink:
LG

Hi,

verstehe ich das richtig? Du möchtest eine PDF-Datei mittels PHP auslesen und den Inhalt via HTML darstellen?

[quote]Hi,

verstehe ich das richtig? Du möchtest eine PDF-Datei mittels PHP auslesen und den Inhalt via HTML darstellen?[/quote]

Ja, ganz genau.

Wird das PDF-Dokument denn dynamisch erzeugt oder von anderen Leuten auf den server
geladen, die es nicht selbst vorher konvertieren können?
Nur dann würde es sich ja lohnen, entweder nach dem Hochladen einmal zu konvertieren oder
eben nach jeder Änderung der Datei.

Wenn es immer dieselbe Datei ist, solltest du die einfach einmal auf deinem eigenen Rechner
konvertieren. Das Ergebnis bearbeitest du dann mit einem normalen Editor, bis es semantisch
und strukturell einen Sinn ergibt und das veröffentlichst du denn.
Für solche Rohergebnisse für die Konversion gibt es ja sowas wie pdftohtml.
Das funktioniert natürlich unabhängig von PHP, auf deinem eigenen Rechner kannst du das
PHP aber natürlich so konfigurieren, daß es auch solche Programme ausführen lassen darf.

Ok, ich erkläre mal ganz genau, was ich machen will.
Unabhängig davon würde es mich aber auch ganz einfach interessieren, ob das mit PHP auf bplaced möglich ist. Egal ob es noch andere Möglichkeiten gibt.

Nun zu meinem Problem:
Ich habe eine Reihe von OpenDucument-Dateien, die ich gerne anderen Personen zur Verfügung stellen möchte. Diese Dateien ändern sich täglich und nicht jeder hat LibreOffice/ApacheOpenOffice (o. ä.). Außerdem will ich mich nicht jeden Tag damit rumärgern. Bisher hab ich es so umgesetzt:
Ich hab mir ein Shell-Skript geschrieben, das einmal täglich die ODT-Dateien zum einen in PDF’s und zum anderen in Bilder (ein Bild pro Seite) umwandelt. Die Bilder werden dann auf den Server hochgeladen. Auf meiner Webseite kann man sich dann eine Vorschau des Dokuments anschauen (die Bilder) und auf zwei Links für die PDF und und die ODF klicken, die auf meinen U1-Cloudspeicher weiterleiten.
Soweit funktioniert das auch prima. Allerdings möchte ich das so erweitern, dass auch ein paar meiner Kollegen (die nicht so technisch versiert sind wie ich) auch Dateien hochladen können. Bzw. soll man in der Vorschau auch Text markieren können, bzw. danach suchen lassen. Um kein “Versionschaos” zu bekommen, hab ich mich darauf geeinigt, nur PDF-Dateien für den Upload zu verwenden.
Deßhalb bleibt mir nicht viel Auswahl: Entweder ich konvertiere das ganze mit PHP oder ich verwende Mozilla’s javascript, was allerdings ziemlich langsam läuft, wie ich finde.

LG

Was ist denn der Inhalt der PDF-dokumente? Je nach Komplexität kannst du das denke ich schon umwandlen.
Der Google-Viewer im embedded-Modus ist aber auch sehr kompakt, da sehe ich keine Probleme wenn du die AGB akzeptieren kannst.

Bei Google Docs hab ich aber keinen Einfluss auf das Layout und Design.
(Das würde ich gerne selbst gestalten)
Ich hab es jetzt allerdings mit pdf.js gelöst.

Ich weiß nicht, wie man diesen Thread schließen, bzw. als gelöst markieren kann.
Zumindestens ist mein Problem jetzt beseitigt.

LG und danke für die Hilfe

Dann hast du es also doch so gemacht :wink:

Falls du dich noch mal am konvertieren versuchen willst, ist eventuell das folgende praktisch:

code.google.com/p/pdf2json/
github.com/modesty/pdf2json
Damit kannst du dann per nodejs das PDF auslesen und das ganze in HTML/CSS ausgeben.