Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Analyzed Layout and Text Object
Analyzed Layout and Text Object 👆 Click Here!
aus Wikipedia, der freien Enzyklopädie

ALTO (Analyzed Layout and Text Object) ist ein offenes XML Schema zur Beschreibung von Layoutinformationen digitalisierter Objekte.

Der Standard wurde ursprünglich für die Beschreibung von OCR-Erkennungsergebnissen Text und Layout auf Seitenebene von digitalisierten Materialien entwickelt. Ziel war es, den Text und das Layout so zu beschreiben, dass eine Rekonstruktion auf Basis digitalisierten Materials möglich wäre.

ALTO wird oft in Kombination mit Metadata Encoding and Transmission Standard (METS) für die Beschreibung des gesamten digitalisierten Objektes und die Erzeugung von Referenzen innerhalb der ALTO-Datei verwendet, zum Beispiel um die Lese-Abfolge festzulegen.

ALTO wurde in dem von der EU geförderten Projekt METAe entwickelt.[1] Seit 2010 wird der Standard durch die Library of Congress und ein Herausgeber-Team gepflegt.

Durch die Empfehlung der DFG-Praxisregeln Digitalisierung ist ALTO ein de facto-Standard für Text-Digitalisierungsprojekte in Deutschland[2] und wird beispielsweise vom DFG-Viewer unterstützt.

Versionen

[Bearbeiten | Quelltext bearbeiten]

Die aktuelle Schema-Version sowie eine Übersicht über die älteren Versionen finden sich auf GitHub.[3]

Aufbau einer ALTO-Datei

[Bearbeiten | Quelltext bearbeiten]

Eine ALTO-Datei besteht aus drei Haupt-Abschnitten, also Kindern des Wurzelelements <alto>:[4]

  • Der Abschnitt <Description> beinhaltet Metadaten zur ALTO-Datei selbst und Prozess-Informationen wie die Datei erzeugt wurde.
  • <Styles> beinhaltet den Text und Layout-Informationen in der jeweils individuellen Ausprägung:
    • <TextStyle> beschreibt Font- und Schrifttypen
    • <ParagraphStyle> beschreibt Eigenschaften eines Absatzes, z. B. dessen Ausrichtung
  • Der <Layout>-Abschnitt enthält den eigentlichen Inhalt, der durch <Page>-Elemente für einzelne Seiten untergliedert ist.
    <?xml version="1.0"?>
    <alto>
      <Description>
        <MeasurementUnit/>
        <sourceImageInformation/>
        <Processing/>
      </Description>
      <Styles>
        <TextStyle/>
        <ParagraphStyle/>
      </Styles>
      <Layout>
        <Page>
          <TopMargin/>
          <LeftMargin/>
          <RightMargin/>
          <BottomMargin/>
          <PrintSpace/>
        </Page>
      </Layout>
    </alto>

Unterstützende Software

[Bearbeiten | Quelltext bearbeiten]
  • ABBYY FineReader
  • CCS docWizz
  • eScriptorium
  • Goobi
  • Kitodo
  • hOCR to ALTO, XSLT-Transformationen von und nach ALTO
  • Tesseract OCR
  • Transkribus

Siehe auch

[Bearbeiten | Quelltext bearbeiten]
  • Metadata Encoding and Transmission Standard (METS)
  • Dublin Core, an ISO metadata standard
  • Preservation Metadata: Implementation Strategies (PREMIS)
  • Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)
  • Page Analysis and Ground truth Elements (PAGE)
  • hOCR

Weblinks

[Bearbeiten | Quelltext bearbeiten]
  • ALTO (Analyzed Layout and Text Object) standards auf der Webseite der Library of Congress
  • altoxml.github.io bzw. github.com ALTOxml auf GitHub
  • Mehr Informationen zu METS/ALTO von der CCS GmbH
  • Eine Einführung in METS ALTO von CCS GmbH

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. ↑ Birgit Stehno, Alexander Egger, Gregor Retti: METAe—Automated Encoding of Digitized Texts. In: Literary and Linguistic Computing. Band 18, Nr. 1, April 2003, S. 77–88, doi:10.1093/llc/18.1.77 (englisch). 
  2. ↑ DFG-Praxisregeln „Digitalisierung“. 2013, S. 37 (dfg.de (Memento vom 23. März 2015 im Internet Archive) [PDF; 881 kB]). 
  3. ↑ https://github.com/altoxml
  4. ↑ Structure of ALTO Files
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Analyzed_Layout_and_Text_Object&oldid=257608846“
Kategorien:
  • Offenes Format
  • Beschreibungssprache
  • XML
Versteckte Kategorie:
  • Wikipedia:Seite mit ungeprüften Übersetzungen

  • indonesia
  • Polski
  • العربية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصرى
  • Nederlands
  • 日本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українська
  • Tiếng Việt
  • Winaray
  • 中文
  • Русский
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id