Bash-Script: Encoding/Zeichensatz in UTF-8 ändern

Ein Relikt aus alten Zeiten ist, dass man anstatt UTF-8 einen platzsparenden Zeichensatz wie ISO-8859-15 aka Latin1 eingesetzt hat. Heute ist oftmals UTF-8 die Anforderung, so dass man die Dateien nach UTF-8 konvertieren muss.

Das Problem ist, dass die Dateien oftmals unterschiedliche Zeichensätze besitzen. Siehe in folgendem Beispiel ISO-8859 text und Non-ISO extended-ASCII text:

# for file in *.html ; do file $file; done

 2003April.html: HTML document, ISO-8859 text, with very long lines
 2003August.html: HTML document, ISO-8859 text, with very long lines
 2003Juli.html: HTML document, ISO-8859 text, with very long lines
 2003Juni.html: HTML document, ISO-8859 text, with very long lines
 2003Maerz.html: HTML document, Non-ISO extended-ASCII text, with very long lines

Das oftmals vorgeschlagene Linux Tool iconv hat hiermit Probleme, da man explizit den Ausgangszeichensatz angeben muss. Stimmt dieser nicht überein, gibt es folgende Fehler:

# for file in *.html; do iconv -t ISO-8859-15 -t UTF-8 $file -o $file; done; iconv: illegal input sequence at position 278
 iconv: illegal input sequence at position 287
 iconv: illegal input sequence at position 279
 iconv: illegal input sequence at position 269
 iconv: illegal input sequence at position 269
 iconv: illegal input sequence at position 276
 iconv: illegal input sequence at position 288
 iconv: illegal input sequence at position 290

Eine bessere alternative ist vim, da hier nur das Zielformat angegeben werden muss. Der Trick ist, dass man vim in den "Bash-Modus" versetzen muss:

for file in *.html; do vim +"set nobomb | set fenc=utf8 | x" $file ; done;

+: Vim führt beim Öffnen automatisch Befehle aus.
|: Trenner, um mehrere Befehle auszuführen.
set nobomb: Wir wollen kein UTF-8 BOM
set fenc=utf8: Ziel Encoding ist UTF-8
x: Speichern und Schließen

12.02	Laserdrucker statt Tintenstrahl
26.01	Wie optimiert man Gaming-PCs effizi...
16.04	Die evolutionäre Entwicklung von P...
31.03	Wie sicher ist Cloud-Hosting
30.08	Datenrettung unter Linux
15.06	Vom Entwurf bis zum CMS:
20.04	Gebrauchte Software-Lizenzen
10.04	chatGPT
05.02	Nintendo Wii im Jahr 2023

08.11	Bill Gates erklärt das Scheitern von Windows Mobile
09.04	Der Google-App Friedhof - Auflistung eingestellter Google-Dienste
08.04	History Nvidia 1999-2017 inkl. Tech-Demos
08.04	16x Nvidia Geforce GTX 1080 Ti
02.04	Neue Diesel: Fast kein NOx mehr
25.03	Oslo - Norwegens Hauptstadt bietet induktives Laden für Taxis an
25.03	Quake 2 mit Raytracing

30.04	PCE-Forum Downtime
29.01	Bios Update auf Asus Prime X470 Pro
02.09	Workstation
13.04	20 Jahre PC-Erfahrung.de
21.08	PC Selbst zusammenbauen
03.08	Neue DSLM im Jahr 2021
15.07	Mein Pc hat sich deaktiviert.
15.07	nvcontainer nerft...
27.05	Desktop-PC Studium

Grafikchiprangliste Desktop

Jubiläum

Prozessorliste - neu hinzugefügte Modelle

Menü

Neue Seiten @ PCE

Externe News

Neues aus dem Forum

Linkwolke

Artikel-Info

Bash-Script: Encoding/Zeichensatz in UTF-8 ändern