Benutzer:Andreas Plank/Hilfreiche Kommandos für Text-Suche oder Text-Prozessierung (Linux)

Aus Open Source Ecology - Germany
< Benutzer:Andreas Plank
Version vom 19. Dezember 2024, 13:52 Uhr von Andreas Plank (Diskussion | Beiträge) (→‎Telegram-Plausch Such-Marker)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Nur die ersten 3 Textfunde ausgeben und mehr nicht (hier XML-Beispiel):

cat Eine-RDF-oder-XML-Datei.rdf | awk '/<\?xml/ {zaehlefund++; if(zaehlefund>3){auszugeben=0}else{auszugeben=1}}; auszugeben {print};'
 # Such-Übereinstimmung abgezählt ausgeben (bis zum 3. Mal)
 cat A-RDF-or-XML-file.rdf | awk '/<\?xml/ {countxml++; if(countxml>3){printing=0}else{printing=1}}; printing {print};'
 # count search match and print it until the 3rd time

Telegram-Plausch Such-Marker

Suchmarker eines Telegram-Kanals herauslesen (und durchzählen):

  1. mit Telegram-Desktop-Programm ein „Chatexport“ ausführen lassen (über das Gruppen-Menü ⋮, nur das HTML zu entnehmen ist hinreichend genug)
  2. Speicherpfad ggf. im Skript anpassen (hier liegt aller Plausch/Geschreibe (Chat) im persönlichen Verzeichnis ~/Heruntergeladen/Telegram\ Desktop/ChatExport_2022-05-26 vor jeweils die messages*.html)
# sed -nr ist Kurzbefehl für sed --silent --regexp-extended 
sed --regexp-extended --silent '# stillschweigend suchen
  s@>(#[^<> -]+)</a>@\nThema, Such-Marker: \1\n@gp; 
  # suche <a>#…</a> 
  # → ersetze: \nSuch-Marker: #gefundenerSuchmarker\n
  # gp → g=globales Suchen, p=print, Ersetzung ausgeben
' ~/Heruntergeladen/Telegram\ Desktop/ChatExport_2022-05-26/messages*.html \
  | grep --ignore-case 'Thema, Such-Marker: #' \
  | sort | uniq --count --ignore-case | sort -k4 \
  > Kanal-xy-Themen-und-Suchmarker_$(date '+%Y%m%d-%H%M').txt
  # grep         → nur die Zeilen mit „Such-Marker“ herausfischen
  # sort         → vorsortieren
  # uniq --count → Wörter als eineinzige zusammenzählen
  # uniq --ignore-case → gleichgültig GROß-klein-Schreibung
  # sort -k4     → zusammengezählte Such-Marker nach 4. (Leerzeichen)Spalte (das sollte die Suchmarker-Spalte sein) sortieren
  # sort -k4 --debug  → kann zum Überprüfen der Sortierung verwendet werden, welche Spalte er tatsächlich sortiert
  # Beispiel-Ergebnis:
  # …
  # 1   Thema, Such-Marker: #wohlhäblich
  # 14  Thema, Such-Marker: #Wortbedeutung
  # 5   Thema, Such-Marker: #Wortbedeutungen
  # 18  Thema, Such-Marker: #Wörterbuch
  # …
  # 14  Thema, Such-Marker: #zum_Nachdenken
  # 27  Thema, Such-Marker: #zum_Nachsinnen
  # 4   Thema, Such-Marker: #Zusammenfassung