Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
teknopedia

teknopedia

teknopedia

teknopedia

teknopedia
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Prediction by Partial Matching – Wikipedia
Prediction by Partial Matching – Wikipedia
aus Wikipedia, der freien Enzyklopädie

Prediction by Partial Matching (PPM, englisch) ist eine Familie anpassender statistischer Datenkompressionsalgorithmen, die auf Kontextmodellen und Prognosen aufbaut. PPM-Modelle benutzen einen Satz von Symbolen aus dem vorangegangenen Symbolstrom, um das nächste Symbol des Stromes vorherzusagen.

Voraussagen werden üblicherweise auf Wertungen der Symbole beschränkt. Die Zahl vorhergehender Symbole, n {\displaystyle n} {\displaystyle n}, legt die Ordnung des PPM-Modelles fest, das als PPM(n) festgehalten wird. Unbegrenzte Varianten ohne Beschränkungen der Länge des Kontextes existieren auch und werden mit PPM* bezeichnet. Wenn aufgrund aller n Kontextsymbole keine Vorhersage gemacht werden kann, so wird eine Prognose aufgrund von n − 1 {\displaystyle n-1} {\displaystyle n-1} versucht. Dieses Vorgehen wird wiederholt, bis ein Treffer gefunden wird oder keine Symbole im Kontext verbleiben. Zu diesem Zeitpunkt wird eine Vorhersage festgelegt. Dieser Prozess ist die Umkehrung dessen, gefolgt von dynamischen Markow-Vorhersagen, die von einem Modell der Ordnung 0 aufbauen.

Ein großer Teil der Arbeit an der Optimierung eines PPM-Modells betrifft den Umgang mit Eingaben, die im Eingabestrom noch nicht auftraten. Der offensichtliche Weg damit umzugehen besteht darin, ein „Unbekannt-Symbol“ zu erzeugen, das die Escape-Sequenz auslöst. Doch welche Wahrscheinlichkeit soll einem Symbol zugeordnet werden, das noch nie aufgetreten ist? Dies wird das Problem der 0-Häufigkeit genannt. Eine Vorgehensweise teilt dem „Unbekannt-Symbol“ einen festgelegten Pseudowert von 1 zu. Eine PPM-D genannte Variante erhöht den Pseudowert bei jedem Auftritt des „Unbekannt-Symbols“. (Anders ausgedrückt schätzt PPM-D also die Wahrscheinlichkeit eines neuen Symbols als das Verhältnis der Anzahl einzigartiger Symbole zur Anzahl aller Symbole insgesamt.)

Umsetzungen von Kompression mittels PPM sind in anderen Details sehr unterschiedlich. Die eigentliche Symbolauswahl wird üblicherweise arithmetisch kodiert, obwohl auch Huffman-Kodierung oder auch eine Art Wörterbuchkodierung möglich sind. Das zugrunde liegende Modell der meisten PPM-Algorithmen kann auch erweitert werden, um mehrere Symbole vorherzusagen. Es ist auch möglich, andere als die Markow-Modellerstellung zu verwenden, um diese entweder ganz zu ersetzen oder zu ergänzen. Die Symbolgröße ist für gewöhnlich statisch, typischerweise ein einzelnes Byte, was die generische Unterstützung jeglicher Dateiformate leicht macht.

Veröffentlichungen über Forschungen an dieser Algorithmusfamilie finden sich bis zurück in die Mitte der 1980er Jahre. Softwareumsetzungen erfreuten sich bis zu den frühen 1990er Jahren keiner Beliebtheit, da PPM-Algorithmen eine beachtliche Menge an Arbeitsspeicher benötigen. Neuere Umsetzungen von PPM finden sich unter den leistungsfähigsten verlustfreien Datenkompressionsverfahren für Text in natürlichen Sprachen.

Der Versuch, PPM-Algorithmen zu verbessern, führte zu den PAQ-Kompressionsalgorithmen.

Literatur

[Bearbeiten | Quelltext bearbeiten]
  • J. Cleary, I. Witten: Data Compression Using Adaptive Coding and Partial String Matching. In: Communications, IEEE Transactions on. Band 32, Nr. 4, 1984, S. 396–402, doi:10.1109/TCOM.1984.1096090. 
  • A. Moffat: Implementing the PPM data compression scheme. In: Communications, IEEE Transactions on. Band 38, Nr. 11, 1990, S. 1917–1921, doi:10.1109/26.61469. 
  • J. G. Cleary, W. J. Teahan, I. H. Witten: Unbounded length contexts for PPM. In: Proceedings DCC-95. IEEE Computer Society Press, 1995 (cs.waikato.ac.nz [PDF]).  Alternativ: J. G. Cleary, W. J. Teahan: Unbounded Length Contexts for PPM. In: The Computer Journal. Band 40, Nr. 2–3, 1997, S. 67–75, doi:10.1093/comjnl/40.2_and_3.67. 
  • C. Bloom, Solving the problems of context modeling (ZIP; 43 kB).
  • W. J Teahan: Probability estimation for PPM. In: Proceedings NZCSRSC'95. 1995 (cotty.16x16.com Original Source from archive.org [abgerufen am 31. Januar 2023]). 
  • Thomas Schürmann, Peter Grassberger: Entropy estimation of symbol sequences. In: Chaos: An Interdisciplinary Journal of Nonlinear Science. Band 6, Nr. 3, 1996, S. 414, doi:10.1063/1.166191, arxiv:cond-mat/0203436v1. 

Weblinks

[Bearbeiten | Quelltext bearbeiten]
  • Paket von PPM Kompressoren mit Benchmarks
  • BICOM, a bijective PPM compressor
  • "Arithmetic Coding + Statistical Modeling = Data Compression", Part 2
  • PPMd compressor von Dmitri Shkarin
Abgerufen von „https://de.teknopedia.teknokrat.ac.id/w/index.php?title=Prediction_by_Partial_Matching&oldid=230401140“
Kategorie:
  • Datenkompression

  • indonesia
  • Polski
  • العربية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصرى
  • Nederlands
  • 日本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українська
  • Tiếng Việt
  • Winaray
  • 中文
  • Русский
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id