Unix & Shell-Programmierung: Reguläre Ausdrücke

Textmuster	mit regulären Ausdrücken beschreibbar

	viele syntaktische Varianten

	Ausdruckskraft und Mächtigkeit der Muster unterschiedlich

sh, csh, bash	nur eingeschränkte Suchmuster: wildcards

grep, sed	einfache Suchmuster

grep -E egrep	Standardsuchmuster

perl, tcl, python, ruby	alles, was mit regulären Ausdrücken möglich ist

cat	kopieren (neutrales Element bezüglich \| )
sort	zeilenweise sortieren
grep	suchen Global Regular Expression Print
tr	zeichenweises Übersetzen
uniq	doppelte aufeinanderfolgende Zeilen löschen
pr	Druckaufbereitung: Zeilennummern, Seiteneinteilung
wc	Zeichen, Wörter und Zeilen zählen
cut	Spalten selektieren

sed	stream editor
awk	text editor
sh, csh, bash, tcl, perl	Skriptsprachen für komplexe eigene Filter

lex, flex	Scanner Generatoren

	in vielen dieser Filter werden reguläre Ausdrücke an zentraler Stelle eingesetzt

Definition	einer regulären Sprache (regulären Menge) über einem Alphabet A

.1	mit einer rechtslinearen Grammatik

.2	mit einem endlichen Automaten (Akzeptor)

.3	mit einem regulären Ausdruck

Reguläre Mengen	über einem Alphabet A

Bildungsgesetze

{ }	leere Menge ist eine reguläre Menge

{ε}	Menge mit dem leeren Wort

{a}	alle einelementigen Mengen mit Elementen aus dem Alphabet A

N ∪ M	Vereinigung zweier regulärer Mengen

N · M	Konkatenation

M^*	beliebig oft wiederholte Konkatenation

Bildungsgesetzte	dürfen nur endlich oft angewendet werden

	alle so gebildeten Mengen sind reguläre Mengen (reguläre Sprachen)

	kein Mengendurchschnitt keine Mengensubtraktion

Reguläre Ausdrücke

Notation zur Beschreibung von
 regulären Mengen

Korrespondenz

reg. Ausdruck	reg. Menge
Ø	{}
	{ε}
a	{a}
n \| m	N ∪ M
nm	N · M
m^*	M^*
(n)	N

minimale Menge von Operatoren zur Beschreibung aller
 regulären Mengen

in Filtern Erweiterungen, Abkürzungen, Einschränkungen,
 Syntaxunterschiede

Binärzahlen	ohne führende 0-en A = {0,1} L(A) = {0, 1, 10, 11, 100, 101, 110, ...}

reg. Ausdruck	0\|(1(0\|1)*)

Dezimalzahlen	A = ASCII-Zeichensatz

reg. Ausdruck	(0\|1\|2\|3\|4\|5\|6\|7\|8\|9)(0\|1\|2\|3\|4\|5\|6\|7\|8\|9)*

	abkürzende Schreibweise sinnvoll

[abc]	(a\|b\|c)

[0-9]	(0\|1\|2\|3\|4\|5\|6\|7\|8\|9)

Beispiele	[0123456789] [0-9] [0-9A-Za-z] [-+0-9.] [.]

[^abc]	ein beliebiges Zeichen außer a,b und c

[^0-9]	ein beliebiges Zeichen nicht aus dem Intervall 0 bis 9

Beispiele	[^^] [^.] [^0-9] [^0-9A-Za-z]

	keine Mengensubtraktion eingeführt
	[^5] entspricht (...\|1\|2\|3\|4\|6\|7\|8\|9\|...)

.	ein Punkt: ein beliebiges Zeichen

	manchmal auch ein beliebiges Zeichen außer Zeilenumbruch (\n)

Beispiele	a.c ...

\`z`	Maskieren von Metazeichen (quoting) Verhinderung der Interpretation als regexp-Operator

\.	ein Punkt
\\	ein \
\[	eine [
\]	eine ]
\*	ein *
\\|	ein \|
\(	eine (
\)	eine )
\n	ein Zeilevorschub
\t	ein Tabulatorzeichen

	Maskieren (quoting) nur außerhalb von [ und ] notwendig

e?	(e\|)

e+	(e)(e)*

e{n}	n=0: () n>0: (e)(e{n-1})
e{n,}	n=0: (e)* n>0: (e)(e{n-1,})
e{n,m}	n <=m n=0, m=0: () n=0, m>0: (e?)(e{0,m-1}) n>0, m>0: (e)(e{n-1,m-1})
Beispiele	ab?c (ab)?c ..? [0-9][0-9]?

Beispiele	mit + und *
	a* .* [ ]* .*a a+ [ ]+

Beispiele	mit {n}, {n,} und {n,m}
	a{5} a{5,} a{5,7} .{5,7} (a\|b{2}){1,2}

Übungen
Zeitangaben
	Stundenangabe in einem Text erkennen: Alle ein- oder zweistelligen Zahlen zwischen 0 und 23 mit optional einer führenden 0

HTML tags
	<H1> tags finden
	<H1> tags ohne Groß- und Kleinschreibung
	<H1> tags mit Zwischenräumen
	<H1> tags mit whitespace
	alle H-tags

Zeilenanfang

^

Zeilenende

$

Wortanfang

\<

Wortende

\>

Beispiele

^Date:
//.*$
\<ding
\<ding\>

grep -E
egrep

suchen

extended grep

Syntax

grep -E [option...] muster [datei...]

oder

egrep [option...] muster [datei...]

 Vorsicht: grep verlangt \( anstatt (
für Prioritätenklammern,

 bei grep -E oder egrep ist ( Prioritätenklammer und  \( das Zeichen (

Optionen

-i

ignoriere Groß- und Kleinschreibung

-n

Ausgabe von Dateiname und Zeilennummer

Beispiele

egrep -i '<H1' `find . -name '*.html'`
egrep -i '\<UNIX\>' ...

Hochkommata

syntaktische Varianten

sh, bash	grep, sed	egrep, tcl, perl
[abc]	[abc]	[abc]
[0-9]	[0-9]	[0-9]
	[^abc]	[^abc]
?	.	.
*	.*	.*
		(...\|...)
		\< ... \>
		(...)?
		(...)+

 weitere Varianten:
 sed und emacs \( anstatt (
       

sed	stream editor

Syntax	sed -e Kommando [-e Kommando ...] [datei...]

Substitution	's\|suchmuster\|ersetzung\|modifier'

Beispiel	sed -e 's\|r\|l\|g' -e 's\|R\|L\|g'
	oder
	sed -e 's\|r\|l\|g' \| sed -e 's\|R\|L\|g'

Referenzieren	von Teilzeichenreihen
	(...(...)...(...))
	Klammerpaare durchnummeriert mit
	\i
	Zeichenreihe, die auf das i-te Klammerpaar passt, referenzieren

Beispiel	ersetzen von //... Kommentar durch /.../ Kommentar
	sed -e 's\|//$.$$\|/\1*/\|'
Beispiel	//... Kommentare löschen
	sed -e 's\|//.*$\|\|'

perl	als sed Ersatz
	perl -p -e Kommando
	mit allen Möglichkeiten der regulären Ausdrücke in perl

Beispiel	ersetzen von //... Kommentar durch /.../ Kommentar
	perl -p -e 's\|//(.)$\|/\1*/\|'

grep	# alle symbolic links suchen ls -l /usr/bin \| grep '^l' # alle allg. lesbare und schreibbare Geraete ls -l /dev \| grep '^.......rw' # Dateien nach Laenge sortiert listen ls -l \| sort -k 5 -n

	alles kleine Programme

tr	zeichenweise übersetzen

Syntax	tr tabelle1 tabelle2

Beispiele	# alles gross tr a-z A-Z # alles klein tr A-Z a-z # alle Rs raus tr rR lL # alle Namen klein for i in [A-Z] do mv $i `echo $i \| tr A-Z a-z` done # alle Woerter eines Textes tr -sc A-Za-z '\012' # "chinesisches" Handbuch (Plattwitz) man tr \| tr rR lL # Handbuch nach Ernst Jandl man tr \| tr rRlL lLrR # Geheimschrift tr a-z b-za # kodieren tr b-za a-z # dekodieren # Raeubersprache rev # Zeichen einer Zeile umdrehen tac # reverse cat

rot13	#!/bin/bash cat "$@" \| tr 'A-Za-z' 'N-ZA-Mn-za-m'
jandln	#!/bin/bash # alle Texte nach Jandl uebersetzen cat "$@" \| tr rRlL lLrR
Ausprobieren	mit
	lichtung manche meinen lechts und rinks kann man nicht velwechsern werch ein illtum!

	Hochkommata

rev	Zeichen einer Zeile umdrehen

tac	Zeilen eines Textes umdrehen reverse cat

cut	Spalten aus einem Text selektieren

Syntax	cut -d delimiter -f field

Beispiel	echo abc def ghi \| cut -d ' ' -f 2
	cut -d : -f 5 /etc/passwd

Filter und pipes
	kurze Entwicklungszeit schrittweise Verfeinerung
	lange Laufzeit

Aufgabe	crossreference list für die Identifikatoren in einem C-Programm

.1	alle Identifkatoren finden
.2	alle Zeilennummern zu einem Identifikator finden
.3	formatieren

.1.1	alle Wörter finden, Sonderzeichen löschen
.1.2	Zahlen löschen
.1.3	Schlüsselwörter löschen

.2.1	Identifikatoren suchen: egrep
.2.2	aus egrep-Ausgabe Zeilennummern extrahieren

.1.3.1	ckeywords erzeugt Liste aller C-Schlüsselwörter
.1.3.2	Mengenoperationen mit sort und uniq simulieren

Lösung

woerter	#!/bin/bash cat "$@" \ \| tr -sc A-Za-z '\012'

identifier0	#!/bin/bash # alle Identifier aus einem C Programm cat "$@" \ \| tr -sc A-Za-z_0-9 '\012' \ \| sort -u

identifier1	#!/bin/bash # alle Identifier aus einem C Programm cat "$@" \ \| tr -sc A-Za-z_0-9 '\012' \ \| sed 's\|^[0-9].*$\|\|' \ \| sort -u

identifier	#!/bin/bash # alle Identifier aus einem C Programm # ohne Schluesselwoerter { cat "$@" \ \| tr -sc A-Za-z_0-9 '\012' \ \| sed 's\|^[0-9].*$\|\|' \ \| sort -u ckeywords ckeywords } \| sort \ \| uniq -u

	Dieses Skript funktioniert nur wenn ckeywords ein gültiges Kommando ist, also wenn ckeywords über PATH erreichbar ist
	Momentanes Arbeitsverzeichnis im Pfad?
identifier2	#!/bin/bash # alle Identifier aus einem C Programm ohne Schluesselwoerter which ckeywords 2>/dev/null \|\| \ { echo "$0: program ckeywords not found" 1>&2 exit 1 } { cat "$@" \ \| tr -sc A-Za-z_0-9 '\012' \ \| sed 's\|^[0-9].*$\|\|' \ \| sort -u ckeywords ckeywords } \ \| sort \ \| uniq -u

	Defensive Programmierung Test, ob ckeywords zur Verfügung steht.
ckeywords	#!/bin/bash # alle C Schluesselwoerter function ckeywords () { cat << 'ende keywords' auto break case char const continue default do double else enum extern float for goto if int long register return short signed sizeof static struct switch typedef union unsigned void volatile while ende keywords } ckeywords

zeilennummern	#!/bin/bash ident=$1 shift cat "$@" \ \| grep -n -E "\<$ident\>" \ \| sed 's\|:.*$\|\|'

crossref	#!/bin/bash file="$1" for id in $(identifier "$file") do echo "$id" zeilennummern "$id" "$file" \ \| pr -8 -b -t echo "" done

	Skript ist verteilt auf mehrere kleine Dateien

	Funktionen ausnutzen

cross	#!/bin/bash # Kreuzreferenz-Liste fuer Bezeichner in C-Programmen # $1 : C Datei # ------------------------------ # alle C Schluesselwoerter function ckeywords () { cat << 'ende keywords' auto break case char const continue default do double else enum extern float for goto if int long register return short signed sizeof static struct switch typedef union unsigned void volatile while ende keywords } # ------------------------------ # alle Bezeichner aus einem C Programm # ohne Schluesselwoerter function identifier () { ( cat "$1" \ \| tr -sc A-Za-z_0-9 '\012' \ \| sed 's\|^[0-9].$\|\|' \ \| sort -u ckeywords ckeywords ) \ \| sort \ \| uniq -u } # ------------------------------ function zeilennummern () { local ident ident=$1 shift cat "$@" \ \| grep -n "\<$ident\>" \ \| sed 's\|:.$\|\|' } # ------------------------------ # das "Hauptprogramm" file="$1" for id in $(identifier "$file") do echo $id zeilennummern $id "$file" \ \| pr -8 -b -t echo "" done # ------------------------------

Reguläre Ausdrücke

Suchen und Ersetzen in Texten

einfache Filter für automatische Textverarbeitung

Grundlagen: Reguläre Ausdrücke

Reguläre Mengen

Notation

Beispiele

Abkürzungen

Kontextbeschreibungen

Suchen und Ersetzen

Beispiel mit bash, grep, sort, tr, ...

weitere Filter

Beispiel: cross reference list