Benutzer:Andreas Plank/Abfragen woerterbuchnetz-de

Aus Open Source Ecology - Germany
< Benutzer:Andreas Plank
Version vom 8. April 2022, 16:22 Uhr von Andreas Plank (Diskussion | Beiträge) (+https://html-cleaner.com; +Abhängigkeiten)
Zur Navigation springen Zur Suche springen

Kommandozeile

Programm-Abhängigkeiten (nur für Linux/Unix/?Mac):

  • wget, cat, sed, jq, bash
Text der Überschrift
Abfrage lemmata Abfrage lemmata-select
datei="ziem…lemmata-DWB-$(date +%Y%m%d).json";
wget --show-progress --quiet \
  "https://api.woerterbuchnetz.de/open-api/dictionaries/DWB/lemmata/*ziem*" \
  --output-document="${datei}" \
  && cat "${datei}"

ergibt JSON

datei="ziem…lemmata-select-DWB-$(date +%Y%m%d).json";
wget --show-progress --quiet \
  "https://api.woerterbuchnetz.de/dictionaries/DWB/lemmata/select/*ziem*/0/json" \
  --output-document="${datei}" \
  && cat "${datei}"

ergibt JSON

{
  "result_type": "lemmata_list",
  "query": "/open-api/dictionaries/DWB/lemmata/*ziem*",
  "result_set": [
  {
    "sigle": "DWB",
    "lemma": "anziemen",
    "gram": "",
    "wbnetzid": "A05305",
    "bookref": "1,530,9",
    "wbnetzlink": "https://woerterbuchnetz.de//?sigle=DWB&lemid=A05305"
  },{}
  ]
}
[
  {
    "value": "A05305",
    "label": "anziemen",
    "gram": ""
  },
  {
    "value": "B06642",
    "label": "beziemen",
    "gram": ""
  },
  {}
]
# als reine Textausgabe (sortiert nach Grammatik, Wort (=label))
cat "${datei}" | jq ' sort_by(.gram,.label)[] |  if .gram == null or .gram == ""
  then "\(.label)"
  else "\(.label) (\(.gram))"
  end
  ' | sed -r 's@"@@g; ' | uniq

# als HTML Ausgabe (sortiert nach Grammatik, Wort (=label))
cat "${datei}" | jq ' sort_by(.gram,.label)[] |  if .gram == null or .gram == ""
  then "\(.label) → <a href=“https://www.woerterbuchnetz.de/DWB/\(.label)”>www.woerterbuchnetz.de/DWB/\(.label)</a><br/>"
  else "\(.label) (\(.gram)) → <a href=“https://www.woerterbuchnetz.de/DWB/\(.label)”>www.woerterbuchnetz.de/DWB/\(.label)</a><br/>"
  end
  ' | sed -r 's@"@@g; s@“([^“”]+)”@"\1"@g' | uniq
Nachbereitung und Formgebung der Ausgabetexte kann man im Netzgewerk auch gut vermittels https://html-cleaner.com vornehmen, gerade für die HTML Ausgabe