Benutzer:Andreas Plank/Abfragen woerterbuchnetz-de
< Benutzer:Andreas Plank
Zur Navigation springen
Zur Suche springen
Version vom 8. April 2022, 16:22 Uhr von Andreas Plank (Diskussion | Beiträge) (+https://html-cleaner.com; +Abhängigkeiten)
Kommandozeile
Programm-Abhängigkeiten (nur für Linux/Unix/?Mac):
- wget, cat, sed, jq, bash
Abfrage lemmata
|
Abfrage lemmata-select
|
---|---|
datei="ziem…lemmata-DWB-$(date +%Y%m%d).json";
wget --show-progress --quiet \
"https://api.woerterbuchnetz.de/open-api/dictionaries/DWB/lemmata/*ziem*" \
--output-document="${datei}" \
&& cat "${datei}"
ergibt JSON |
datei="ziem…lemmata-select-DWB-$(date +%Y%m%d).json";
wget --show-progress --quiet \
"https://api.woerterbuchnetz.de/dictionaries/DWB/lemmata/select/*ziem*/0/json" \
--output-document="${datei}" \
&& cat "${datei}"
ergibt JSON |
{
"result_type": "lemmata_list",
"query": "/open-api/dictionaries/DWB/lemmata/*ziem*",
"result_set": [
{
"sigle": "DWB",
"lemma": "anziemen",
"gram": "",
"wbnetzid": "A05305",
"bookref": "1,530,9",
"wbnetzlink": "https://woerterbuchnetz.de//?sigle=DWB&lemid=A05305"
},{…}
]
}
|
[
{
"value": "A05305",
"label": "anziemen",
"gram": ""
},
{
"value": "B06642",
"label": "beziemen",
"gram": ""
},
{…}
]
|
# als reine Textausgabe (sortiert nach Grammatik, Wort (=label))
cat "${datei}" | jq ' sort_by(.gram,.label)[] | if .gram == null or .gram == ""
then "\(.label)"
else "\(.label) (\(.gram))"
end
' | sed -r 's@"@@g; ' | uniq
# als HTML Ausgabe (sortiert nach Grammatik, Wort (=label))
cat "${datei}" | jq ' sort_by(.gram,.label)[] | if .gram == null or .gram == ""
then "\(.label) → <a href=“https://www.woerterbuchnetz.de/DWB/\(.label)”>www.woerterbuchnetz.de/DWB/\(.label)</a><br/>"
else "\(.label) (\(.gram)) → <a href=“https://www.woerterbuchnetz.de/DWB/\(.label)”>www.woerterbuchnetz.de/DWB/\(.label)</a><br/>"
end
' | sed -r 's@"@@g; s@“([^“”]+)”@"\1"@g' | uniq
| |
Nachbereitung und Formgebung der Ausgabetexte kann man im Netzgewerk auch gut vermittels https://html-cleaner.com vornehmen, gerade für die HTML Ausgabe |