Nächste Revolution nach Plagiatswikis: Deep-Web-Plagiatssuchmaschine kommt

„‚Wir wenden zurzeit ein Verfahren an, das alle Dissertationen einer Hochschule miteinander vergleicht‘, sagt Plagiatsexpertin Debora Weber-Wulff, Professorin für Informatik an der Hochschule für Technik und Wissenschaft Berlin. 4000 Charité-Promotionen hat das Netzwerk laut Weber-Wulff auf seinen Rechnern gespeichert, die nun erst digital, dann händisch abgeglichen werden sollen. Eine weitere Dissertation, ebenfalls an der Charité mit dem Dr. gekrönt, enthalte auf mehr als der Hälfte der Seiten nicht kenntlich gemachtes fremdes Gedankengut. ‚Wir haben einige Arbeiten an der Charité als verdächtig eingestuft, nun werden sie von unserem Team in ehrenamtlicher Tätigkeit manuell überprüft‘, sagt Weber-Wulff.“

Quelle: Spiegel Online

Es kündigt sich eine technologische Revolution an, die für eine neue Dimension der Transparenz sorgen und Plagiarismus zukünftig erschweren wird: Der erste Schritt war die Erfindung des Plagiatswikis und des Barcodes zur Visualisierung von Plagiatsintensität. Nur noch Ewiggestrige nennen das „Pranger“. Immer deutlicher zeigt sich der immense Wert dieser Rekonstruktionen und Veröffentlichungen für die Wissenschaft.

Nun kündigt sich der zweite Schritt an: Längst liegen tausende Volltexte von Dissertationen auf Hochschulservern brach und werden nicht intrinsisch miteinander verglichen – ein unhaltbarer Zustand. Keine Web-Suchmaschine und auch derzeit keine Plagiatssoftware kommen verlässlich an alle PDF-Files ran. Nun zeigen Debora Weber-Wulff & Co., dass es einer intrinsischen Textkorpus-Suchmaschine bedarf, um Plagiarismus in Hochschulschriften untereinander aufzudecken, aber auch, um intrinsische Plagiatsfragmente zu identifizieren, die auf extrinsische Quellen hinweisen. Die Fragestellung und Arbeitslogik dieser Suchmaschine ist eine andere als die bei der Google Websuche – mit Glück könnte hier also etwas ganz Neues geboren werden.

Bleibt das Problem zu lösen, wie man die Google Buchsuche systematisch auf Plagiatsquellen durchforsten kann. Ihr werter Plagiatsgutachter hat wiederholt hier im Blog darauf hingewiesen. Ein Suchexperte sagte mir: Hier muss man Google hacken. Na dann mal los! Google selbst ist offenbar an dem möglichen Geschäftsmodell Plagiatssuchmaschine nicht interessiert. Warum öffnet die Bayerische Staatsbibliothek nicht ihren digitalen Fundus für die Plagiatsdetektion?

Die Charité zeigt sich an der VroniPlag-Software indes bereits interessiert, berichtete der Spiegel gestern. Nun müssen auch die großen Bibliotheken und vor allem die DNB für diese Innovation gewonnen werden. Zu verdanken haben wir das softwaretechnisch übrigens alles dem Holländer Dick Grune und seinem SIM_Text Similarity Tester. Er hat im Jahr 1989 wohl kaum abschätzen können, dass er mit seinem Paper „Het detecteren van kopieën bij informatica-practica“ einmal zum Vater der Plagiatssuchmaschinen wird. – Nebenbemerkung: Auch die Software Ihres werten Plagiatsgutachters basiert auf SIM_Text.

5 Kommentare zu “Nächste Revolution nach Plagiatswikis: Deep-Web-Plagiatssuchmaschine kommt”

UN 2. Juni 2014 um 11:13

„Galton vertrat hauptsächlich die sog. positive Eugenik“ – Dass das nicht gefunden wird, liegt am Zeilenumbruch in der Quelle zwischen „positive“ und „Eugenik“!

Sucht man den kürzeren String „Galton vertrat hauptsächlich die sog. positive“, findet Google den einzigen Treffer, und in der Vorschau sieht man nach „positive“ einen kleinen Punkt, der offenbar vom Zeilenumbruch im PDF-Dokument stammt (bzw. der dortige Zeichencode wird von Google so interpretiert).

Anstatt eines langen Suchstrings also besser mehrere kürzere systematisch durchprobieren und die Schnittmenge der Trefferlisten analysieren. Ist natürlich ein erheblicher Mehraufwand 🙁

Antworten ↓

admin 2. Juni 2014 um 11:18

Habe ich gestern auch gesehen. Der Teufel steckt im Detail. Dieser Mehraufwand ist manuell m. E. bei einer 400 Seiten umfassenden Dissertation nicht zu leisten. Dafür bedarf es einer maschinellen Lösung.

Unibär 1. Juni 2014 um 17:16

„Immer deutlicher zeigt sich der immense Wert dieser Rekonstruktionen und Veröffentlichungen für die Wissenschaft.“

Das halte ich für stark übertrieben bzw überhaupt nicht belegt. Die bis dato aufgedeckten Plagiatswerke waren bereits vor ihrer Entdeckung mit der Höchststrafe belegt: Wissenschaftlicher Irrelevanz. Inwiefern verbessert das Aufspüren von in Universitätsbibliotheken ungelesen versauernden Plagiaten die Wissenschaft?

Antworten ↓

SFK 1. Juni 2014 um 12:57

Mit Verlaub, was ist das für ein wirrer Text? Mir erschließt sich nur unvollständig, worauf der Autor hinaus will, dabei hat er vielleicht ein berechtigtes Anliegen.
Die Publikationen auf den Dokumentenservern stehen den Crawlern von Suchmaschinen jedenfalls schon heute zur Verfügung. Daneben gibt es noch OAI und spezielle Suchmaschinen wie BASE, …
Das müsste dem Autor alles bekannt sein und vielleicht geht es hier um etwas anderes?

Antworten ↓

admin 1. Juni 2014 um 21:05

An SFK:

Nein, mir geht es darum, aufzuzeigen, dass die derzeitigen Lösungen weniger als „suboptimal“ sind…

Ein Beispiel aus aktueller Gutachtertätigkeit (ich könnte dutzende, wenn nicht hunderte weitere dieser Art anführen):
Gesucht wird die Quelle des Fragments: „Galton vertrat hauptsächlich die sog. positive Eugenik“ […].
– Google.de Websuche mit Anführungszeichen: „Galton vertrat hauptsächlich die sog. positive Eugenik“ -> Keine Übereinstimmungen
– Google.de Websuche ohne Anführungszeichen: Galton vertrat hauptsächlich die sog. positive Eugenik -> Google korrigiert automatisch auf „vertritt“, der eigentliche Treffer kommt auf Platz 15 erst auf der zweiten Ergebnisseite
– PlagScan (arbeitet mit dem yahoo-Index) findet die Quelle überhaupt nicht, obwohl in der überprüften Dissertation absatzweise aus dieser Quelle abgeschrieben wurde.
Die Quelle ist hier: http://edoc.ub.uni-muenchen.de/4459/1/Wiedemann_Ute.pdf

Und inwiefern hilt mir denn BASE bei der Plagiatssuche?
„In BASE indexiert (und damit suchbar) sind in aller Regel nur die Metadaten der Dokumente, nicht die kompletten Volltexte. Daher ist eine Suche im gesamten Text der indexierten Dokumente nicht möglich. Sie sollten Ihre Suchanfrage daher eher allgemein halten und 2-3 Suchbegriffe eingeben.“ Quelle: http://www.base-search.net/about/de/help.php

Ich träume von einer funktionierenden Plagiatssuchmaschine, die etwa auch ältere Wikipedia-Versionen oder das Internet-Archiv umfasst. Es wird doch im Moment ungemein viel Geld in die Digitalisierung, in Open-Access-Projekte etc. hineingepumpt. Warum leistet sich die Gesellschaft nicht auch das?

Schreiben Sie einen Kommentar Antworten abbrechen

▼ Neuen Kommentar verfassen

UN 2. Juni 2014 um 11:13

„Galton vertrat hauptsächlich die sog. positive Eugenik“ – Dass das nicht gefunden wird, liegt am Zeilenumbruch in der Quelle zwischen „positive“ und „Eugenik“!

Sucht man den kürzeren String „Galton vertrat hauptsächlich die sog. positive“, findet Google den einzigen Treffer, und in der Vorschau sieht man nach „positive“ einen kleinen Punkt, der offenbar vom Zeilenumbruch im PDF-Dokument stammt (bzw. der dortige Zeichencode wird von Google so interpretiert).

Anstatt eines langen Suchstrings also besser mehrere kürzere systematisch durchprobieren und die Schnittmenge der Trefferlisten analysieren. Ist natürlich ein erheblicher Mehraufwand 🙁

Antworten ↓
1. admin 2. Juni 2014 um 11:18
  
  Habe ich gestern auch gesehen. Der Teufel steckt im Detail. Dieser Mehraufwand ist manuell m. E. bei einer 400 Seiten umfassenden Dissertation nicht zu leisten. Dafür bedarf es einer maschinellen Lösung.
Unibär 1. Juni 2014 um 17:16

„Immer deutlicher zeigt sich der immense Wert dieser Rekonstruktionen und Veröffentlichungen für die Wissenschaft.“

Das halte ich für stark übertrieben bzw überhaupt nicht belegt. Die bis dato aufgedeckten Plagiatswerke waren bereits vor ihrer Entdeckung mit der Höchststrafe belegt: Wissenschaftlicher Irrelevanz. Inwiefern verbessert das Aufspüren von in Universitätsbibliotheken ungelesen versauernden Plagiaten die Wissenschaft?

Antworten ↓
SFK 1. Juni 2014 um 12:57

Mit Verlaub, was ist das für ein wirrer Text? Mir erschließt sich nur unvollständig, worauf der Autor hinaus will, dabei hat er vielleicht ein berechtigtes Anliegen.
Die Publikationen auf den Dokumentenservern stehen den Crawlern von Suchmaschinen jedenfalls schon heute zur Verfügung. Daneben gibt es noch OAI und spezielle Suchmaschinen wie BASE, …
Das müsste dem Autor alles bekannt sein und vielleicht geht es hier um etwas anderes?

Antworten ↓
1. admin 1. Juni 2014 um 21:05
  
  An SFK:
  
  Nein, mir geht es darum, aufzuzeigen, dass die derzeitigen Lösungen weniger als „suboptimal“ sind…
  
  Ein Beispiel aus aktueller Gutachtertätigkeit (ich könnte dutzende, wenn nicht hunderte weitere dieser Art anführen):
  Gesucht wird die Quelle des Fragments: „Galton vertrat hauptsächlich die sog. positive Eugenik“ […].
  – Google.de Websuche mit Anführungszeichen: „Galton vertrat hauptsächlich die sog. positive Eugenik“ -> Keine Übereinstimmungen
  – Google.de Websuche ohne Anführungszeichen: Galton vertrat hauptsächlich die sog. positive Eugenik -> Google korrigiert automatisch auf „vertritt“, der eigentliche Treffer kommt auf Platz 15 erst auf der zweiten Ergebnisseite
  – PlagScan (arbeitet mit dem yahoo-Index) findet die Quelle überhaupt nicht, obwohl in der überprüften Dissertation absatzweise aus dieser Quelle abgeschrieben wurde.
  Die Quelle ist hier: http://edoc.ub.uni-muenchen.de/4459/1/Wiedemann_Ute.pdf
  
  Und inwiefern hilt mir denn BASE bei der Plagiatssuche?
  „In BASE indexiert (und damit suchbar) sind in aller Regel nur die Metadaten der Dokumente, nicht die kompletten Volltexte. Daher ist eine Suche im gesamten Text der indexierten Dokumente nicht möglich. Sie sollten Ihre Suchanfrage daher eher allgemein halten und 2-3 Suchbegriffe eingeben.“ Quelle: http://www.base-search.net/about/de/help.php
  
  Ich träume von einer funktionierenden Plagiatssuchmaschine, die etwa auch ältere Wikipedia-Versionen oder das Internet-Archiv umfasst. Es wird doch im Moment ungemein viel Geld in die Digitalisierung, in Open-Access-Projekte etc. hineingepumpt. Warum leistet sich die Gesellschaft nicht auch das?