Content: Von .doc nach HTML

Hallo zusammen!

Ich werde wohl in Kürze einer Schulhomepage zuarbeiten, die bislang kein CMS einsetzt. Neuer Content wird händisch eingepflegt.

Der Content kommt von diversen Schülergruppen und Lehrern aus dem Kollegium und ist naturgemäß noch nicht hübsch HTML-formatiert und fertig zum Einbau. In der Regel dürfte er in Form von PDFs, DOC- oder sonstigen Office-Formaten kommen. Meine Frage ist daher: Welche Möglichkeiten habe ich, wenn ich nicht sämtliche eingehenden Dokumente von Hand nach HTML formatieren möchte? Ich bin doch sicher nicht der erste, der vor diesem Problem steht. :wink:

Drei Anmerkungen noch:
[ul][li] Nehmen wir an, die Schule möchte auch weiterhin kein CMS-System, keine Blogging-Software oder ähnliches verwenden, die dieses Problem für mich erledigen würde.[/li]
[li] Konverter wie diesen hier habe ich bereits gefunden; ich suche noch nach weiteren Ideen[/li]
[li] Noch ein Klassiker: “Du kannst doch .doc-Dateien auch als .html abspeichern!”

[/li][/ul]

Mit Gruß und Dank im Voraus,
odd one in.

Schonmal über eine Eingabemaske mit wysiwyg Editor nachgedacht? Was ich so gesehen habe unterstützt z.B. ckeditor auch schon Einfügen aus Office Dokumenten. Hab das noch nie ausprobiert, hört sich aber interessant an. Vielleicht produziert der ja halbwegs annehmbares HTML, und er sollte auch für nicht so erfahrene Benutzer geeignet sein.

Mfg

Programme, die Formatkonversionen vornehmen oder Office-Programme, die eine (X)HTML-Ausgabe vorsehen, erzeugen oft suboptimale Markierungssuppe.

Daher solltest du deinen Mitstreitern folgende Alternativen je nach Kenntnisstand vorschlagen:
a) Reine Textdatei ohne Formatierung bei dir abgeben, du ergänzt dann das (X)HTML zur semantischen Auszeichnung selbst
b) Sauber mit einem Texteditor erstelltes XHTML-strict als Rohmaterial bei der abgeben, vor allem ohne Präsentationsschnickschnack drin, keine style-Attribute, keine veralteten Präsentationsattribute oder -elemente.

Damit solltest du dann in beiden Fällen zügig weiterkommen, um das in das Konzept eines bestehenden Projektes angemessen einzupflegen.

Ich würde dir vorschlagen, Texte bevorzugt im markdown Format zu akzeptieren. Das ist einfach zu schreiben und es git automatische HTML-Konverter. markdown.de/
Edit: Eventuell verwende ein erweitertes Format das auch Tabellen unterstützt, wie z.B. Github flavored markdown.
Ein Konverter ist z.B: github.com/chjj/marked
Andere Formate (z.B. reStructuredText) könnten dir besser gefallen, in meiner Erfahrung aber ein wenig schwerer zu erlernen.

progandy,

da müßten die Leute ja auch wieder eine Sprache lernen.
Das könnte sie vom ihrem eigentlichen Thema ablenken.
Wenn es nicht das Ziel der Aktion ist, (X)HTML etc zu lehren, sollte man auch ein möglichst dünnes Brett zum Bohren für alle Beteiligten anbieten.
Bei vielen Leuten an einer Schule wird es erstmal wichtig sein, daß die sich auf den Inhalt konzentrieren und damit vorankommen. Da kann man dann froh sein, wenn die einen anständigen Artikel in reiner Textform abliefern.
Aber klar, bei Tabellen oder Definitionslisten müßte man ihnen dann auf Nachfrage noch was zustecken, damit sie das einfach zum Ausdruck bringen können und man das nachher auch zügig als (X)HTML umsetzen kann.

[quote=“hoffmann”]progandy,

da müßten die Leute ja auch wieder eine Sprache lernen.
Das könnte sie vom ihrem eigentlichen Thema ablenken.[/quote]
Deshalb habe ich markdown vorgeschlagen. Das ist fast vollständig natürlicher Text mit Regeln für Überschrift, Absatz, Liste, Zitat, kursiv und fett. Natürlich gibt es auch regeln für Links und Bilder. Die Motivation von markdown ist es, bereits existierende informelle Formatierungsregeln eindetig zu definieren, sodass das Format maschinenlesbar ist.

Das wichtigste sind aber erst mal Überschriften und Absätze, den Rest kann man erst mal vergessen. Das erleichtert die Arbeit doch sehr, wenn man den Artikel in diesem Format zugeschickt bekommt:

[code]# Hauptzeile

Unterzeile

Autor

Vorspann: Eine kurze informative Einführung
zum Artikel

Der erste Paragraph des Artikels beginnt hier.
Diese Zeile gehört immer noch zum ersten Absatz.

Hier beginnen wir einen neuen Absatz.

  • Diese Liste enthält einfache Punkte
  • Ein weiterer Punkt
    • Ein Unterpunkt
  • Und ein letzter Punkt

Und weiter geht es mit einem neuen Absatz[/code]
Mehr würde ich jetzt auch nicht verlangen, aber da das gesamte Format bereits festgelegt ist können lernwillige Autoren das dann auch verwenden.

Aus einem sauber mit Word-Styles hergestellten Word-Dokument kannst du das HTML nehmen und den riesigen CSS-Block am Anfang wegschmeißen. Der Inhalt ist oft sauber als HTML mit entsprechenden class-Attributen versehen.

Word scheitert aber miserabel an Listen und das meiste was irgendwie positioniert ist: michi7x7.at/Test.htm

dachte dafür gibt es xml?!