NAS aufräumen: doppelte Dateien finden

Ein NAS als Fileserver ist schon eine praktische Sache, aber da Daten von vielen Quellen (PC, Smartphone usw.) und mehreren Personen auf das NAS kopiert werden, wächst die Anzahl der Dateien stark an und man verliert schnell den Überblick. Vor allem das Thema Dupletten ist nervig. Die ambitionierten Hobbyfotografen unter uns kennen das Problem, dass Bilder, Fotos und Videos doppelt vorhanden sind.

Abhilfe schafft der Synology Storage Analyzer:

Synology Storage Analyzer

Diese Erweiterung durchsucht den gesamten Datenbestand und ermöglicht u.a. folgende Analysen:

  • Doppelte Dateien
  • Große Dateien
  • Häufig benutzte Dateien
  • Wenig benutzte Dateien
  • Dateien nach Gruppe

Die Analysen erfolgen durch so genannte Report Tasks. Wir erstellen in diesem Beispiel einen Report namens "Duplicate Files", der uns alle doppelten Dateien (Dupletten) anzeigen wird.

Report für doppelte Dateien erstellen
Beim Erstellen eines Reports sind diese Einstellungen zu empfehlen

Uns interessieren also die "Potential Duplicate Files". Optional lassen wir uns auch die großen Dateien anzeigen. Vielleicht findet man nicht mehr benötigte Dateien, die viel Platz auf der Festplatte verbrauchen.

Report Einstellungen: Große Dateien, potentiell doppelte Dateien, häufig/wenig benutzte Dateien usw.
Report Einstellungen: Große Dateien, potentiell doppelte Dateien, häufig/wenig benutzte Dateien usw.

Wir starten nun einen Report:

Synology Storage Analyzer: Report ausführen
Der Report kann zeitgesteuert, aber auch manuell gestartet werden

Jetzt eine wichtige Sache:

der Synology Storage Analyzer sucht nach Dateien, die einen identischen Dateinamen und eine identische Dateigröße besitzen. Das entspricht lediglich einer Schnellsuche. Man sollte sich nicht darauf verlassen, dass es sich um Dupletten handelt. Theoretisch ist es möglich, dass eine Datei gleich heißt und dieselbe Dateigröße besitzt, aber der Inhalt sich unterscheidet.

Synology Storage Analyzer: Dupletten anhand Dateigröße und Dateiname gefunden
Im ersten Schritt findet Synology Storage Analyzer Dupletten anhand Dateigröße und Dateiname gefunde

In unserem Beispiel hat jedes Foto und jedes Video einen eindeutigen Namen, der das Aufnahmedatum enthält. Beispiel: 20211901_122153.jpg, was JJJJMMTT_HHMMSS entspricht. Das erleichtert die Duplettensuche.

Wer aber seine Fotos von der Digitalkamera beim Import nicht umbenennt, dessen Dateinamen folgen immer einem solchem Muster: DCIM_0001.jpg, DCIM_0002.jpg, DCIM_0003.jpg, DCIM_0004.jpg, DCIM_0005.jpg usw. Die Wahrscheinlichkeit, dass ein Foto als Duplette anhand des Dateinamens und der Dateigröße erkannt wird, ist demzufolge deutlich höher.

Wichtig ist, dass im weiteren Schritt der Datei-Inhalt geprüft wird, ob es sich wirklich um eine Duplette handelt. Hierfür bietet Synology die Möglichkeit eines MD5-Prüfsummen-Checks an. Das bedeutet: die Datei wird eingelesen und eine Prüfsumme erzeugt. Ist diese unterschiedlich, so ist der Inhalt auch unterschiedlich.

Genaue Prüfung mittels MD5 Hash
Genaue Prüfung mittels MD5 Hash

Das erneute Ergebnis hat nun grüne Farben in der Liste, was uns signalisiert, dass die Dateien auch inhaltlich identisch sind.

Ergebnis: nicht nur Dateiname/-größe, sondern auch der Inhalt sind identisch
Ergebnis: nicht nur Dateiname/-größe, sondern auch der Inhalt sind identisch

Der Grund, warum man die MD5-Prüfung nicht standardmäßig durchführt ist die Dauer, die sich extrem verlängert. Schließlich wird jede Datei vollständig eingelesen, um daraus eine Prüfsumme zu erzeugen. Deswegen ist das Prinzip Schnellsuche + MD5-Prüfsumme in der Praxis am besten.

Viel Spaß beim Aufräumen!

Alle Artikel zur Serie Synology NAS DS720+