Plagiatsdetektion und Google-Intelligenz

Inspiriert von der Titelgeschichte über Google im „Spiegel“, Heft 10/2014, denkt Ihr werter Plagiatsgutachter seit Tagen nach längerer Zeit mal wieder nur noch an das Tun und Lassen von „vielen der klügsten Menschen der Welt“ in den sogenannten „geheimen Labors“ in Mountain View. Was geschieht hier? Was kommt?

Klar, die kommende Suche wird fragenbasiert sein, auf Sprach- und/oder Stimmerkennung beruhen und wohl auch einen Blick in die Zukunft gestatten – oder zumindest wird die Google-Intelligenz Optionen, Varianten aufzeigen können. Heute in der Früh bemühte ich mich etwa vergeblich (mit den Mitteln des Eintippens von Schlüsselwörtern und des Durchforstens von Trefferlisten, die wohl schon in wenigen Jahren anachronistisch erscheinen werden), die folgenden Fragen im Suchschlitz zu beantworten: Welches Yogainstitut in Dresden bietet kompetentes Rücken- bzw. Wirbelsäulenyoga an? Und: Welche Restaurants in Dresden haben derzeit welche Bärlauchgerichte im Angebot? Beide Fragen kann ich mit den gegenwärtigen Suchtools nicht zufriedenstellend beantworten. Ich hätte nichts gegen eine Google-„Intelligenz“, die mir hier hilft, indem sie – so steht es im „Spiegel“ geschrieben – die „unsichtbaren Verbindungslinien der Welt“ aufzeigt. Ich hätte auch nichts gegen eine Google-Intelligenz (dann wohl zu Recht ohne Anführungszeichen) in Form eines Google-Orakels, dem ich Fragen zur Zukunft stellen kann: Wie wird diese oder jene juristische Auseinandersetzung ausgehen? Welche nächsten Schritte sind zu empfehlen? Und natürlich auch: Wie ist es um die Zukunft meiner Gesundheit, meiner Beziehung, meiner Kinder etc. bestellt? Das sind alles spannende Themen, wenn nicht sogar die spannendsten Themen, die die Menschheit im Moment beschäftigen. Demütig blicke ich vom Dresdner Weißen Hirsch nach Mountain View: An Googles künstlicher Intelligenz müsste man jetzt mitarbeiten! Da erscheint doch alles andere als Pipifax, oder?

Aber nun zum eigentlichen Thema: Die Google-Intelligenz wird, so meine Annahme, neun von zehn Schritten in der Plagiatsdetektion automatisiert erledigen können. Und das ist gut so! Ihr werter Plagiatsgutachter hat soeben mal wieder eine komplexere Überprüfung abgeschlossen. Auch in der Plagiatsdetektion geht es um nichts anderes als um die „unsichtbaren Verbindungslinien“ im Diskursuniversum. Mit den derzeitigen Werkzeugen sehen wir etwas, das wir vor zehn oder zwanzig Jahren noch nicht gesehen haben. Der Weg zur Enthüllung ist aber ein mühsamer (und deshalb hat er auch seinen Preis ;-)).

Anhand der soeben abgeschlossenen Überprüfung möchte ich das Verfahren rekonstruieren (ohne zu viele Details zu verraten): Eine in Druckfassung ca. 400 Seiten umfassende Dissertation soll überprüft werden. Alleine ca. 60 Seiten umfasst das Literaturverzeichnis. Einen solchen Literaturkorpus kann niemand einscannen. Vorausgesetzt, Google hätte alle Druckwerke der Welt (wirklich alle) bereits eingescannt, wäre das alles kein Problem. So aber sehen die nächsten Schritte wie folgt aus: Eine Stichprobe aus den Literaturtiteln muss gezogen werden (dafür gibt es Erfahrungswerte; aber auch hier könnten Algorithmen schon mitmischen: Häufigkeit der Zitierungen, Länge der Zitate im Verhältnis zum umgebenden Fließtext etc.). Diese Literaturtitel müssen (meist per Fernleihe) bestellt werden, da es sich oft um spezielle Fachliteratur handelt – Wartezeit bis zu zwei Wochen. Dann muss eingescannt werden, in diesem Fall waren es knapp zwei Dutzend Druckwerke, darunter einige ca. 600 Seiten umfassende Wälzer. Der ‚Spaß‘ am Scanner dauerte alleine mehr als drei Tage. Die eingescannten Druckwerke werden dann mit OCR-Software lesbar gemacht und die Titel mit der Dissertation abgeglichen, mittels Text-mit-Text-Vergleichssoftware. Alleine der Vergleich des Referenztextes von ca. 400 Seiten mit ca. 10.000 Seiten Vergleichsliteratur lässt die Augen müde und den Rücken krumm werden. Erst jetzt, nachdem die markierten Verdachtsstellen extrahiert wurden, beginnt die engere geistige Arbeit des Plagiatsdetektors: Handelt es sich um zulässiges, weil als indirektes Zitat ausgewiesenes ‚Umschreiben‘ oder um unzulässiges Abschreiben?

Eine Google-Intelligenz könnte alle mühsamen Arbeitsschritte für mich erledigen: Die Vergleichstitel wären bereits eingescannt und auch schon editierbar; ich müsste einfach das Referenzwerk auswählen und auf „Vergleiche!“ klicken. Das wär’s! Oder noch besser: Die Google Buchsuche hat schon in jedem Werk bereits Gesagtes und/oder Plagiatsverdächtiges markiert (freilich exklusive direkter Zitate). Damit hätten wir eine Messlatte für Redundanz in der Wissenschaft, und wirklich Neues wäre sichtbar. Ich fordere also eine „Google Text Intelligence„. Oder noch besser: Ich bewerbe mich hiermit bei Google ;-)! Und wenn Google nichts von sich hören lässt, dann möchte ich zumindest mit meinen bescheidenen Mitteln und hier vor Ort im Team einen Beitrag zu dem leisten, was die Zukunft bringen wird.

***

Mit den Gefahren dieser Entwicklung habe ich mich mit Kollegen schon 2007 auseinandergesetzt. Auch das Thema Blick in die Zukunft mit Google ist in diesem Bericht schon enthalten. Immer wieder lesenswert ist in diesem Zusammenhang auch das Buch „Die Google-Falle“ (2008) des Journalisten Gerald Reischl. Die grundlegende Befürchtung war ja immer, dass wir unseren Verstand sukzessive abgeben, umso mehr Dinge die Google-Intelligenz für uns erledigen kann (der „Navi-Effekt“). Das „Internet der Dinge“, die „mitdenkenden“ Kühlschränke und Fußbodenheizungen passten hier ins Bild.

Vor einigen Jahren war auch Ihr werter Plagiatsgutachter noch Techno-Pessimist, d. h. ein Vertreter der „Old-School-Printsuche“ und er stand Softwarelösungen wie auch Open Access ablehnend gegenüber. Doch die Situation hat sich geändert, eigentlich seit Guttenbergs Plagiat. Mit der zunehmenden Komplexität der Textmengen und Fragestellungen (siehe obiges Beispiel) sind Softwarelösungen unumgänglich geworden. Ich frage wieder mal öffentlich nach: Warum bieten Google Books und Google Scholar keine Plagiatsdetektion an? Warum fordert das die Wissenschaft nicht? Warum geben die großen Bibliotheken der Welt, die die Scans von Google erhalten haben, nicht ihre digitalen Archive für die Plagiatssuche frei?

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Die maximale Dateigröße für den Upload: 20 MB. Sie können hochladen: Bilddatei, Dokument, Spreadsheet, Textdatei. Links zu YouTube, Facebook, Twitter und anderen Dienstanbietern werden automatisch eingebunden. Dateien hierhin ziehen