Wiktionary data extraction errors and warnings

Inflection check

List of different kinds of inflection tables. When wiktextract parses word heads and tables, it assigns the forms it encounters with tags that describe grammatical or contextual information. The tags and forms that are found in head sections and tables are kept separate from other head section and table tags, and later they are merged with other heads and tables into table types that all contain the same number of word forms with the same tags for those forms.

The information presented here is mostly for debugging, but it can also be used to find interesting word paradigms and to hunt down mistakes, typoes and badly formated Wiktionary entries. A table type that has only a few unique instances is quite likely to contain some kind of minor error in the original data.

Language ⏶ Table forms Errors (% affected words) Language Table forms ⏷ Errors (% affected words)
esperanto 9 0 (0.00%) język polski 465 124 (13.52%)
inuktitut 1 0 (0.00%) język czeski 79 0 (0.00%)
język adygejski 1 0 (0.00%) esperanto 9 0 (0.00%)
język akadyjski 1 0 (0.00%) język słowacki 2 0 (0.00%)
język amharski 1 0 (0.00%) język łaciński 1 0 (0.00%)
język arabski 1 0 (0.00%) język chiński standardowy 1 0 (0.00%)
język arczyński 1 0 (0.00%) język japoński 1 0 (0.00%)
język baszkirski 1 0 (0.00%) język koreański 1 0 (0.00%)
język beludżi 1 0 (0.00%) język macedoński 1 0 (0.00%)
język bengalski 1 0 (0.00%) język słoweński 1 0 (0.00%)
język bhodźpuri 1 0 (0.00%) język malajski 1 0 (0.00%)
język bugijski 1 0 (0.00%) język staroegipski 1 0 (0.00%)
język buriacki 1 0 (0.00%) język staro-cerkiewno-słowiański 1 0 (0.00%)
język chiński standardowy 1 0 (0.00%) język baszkirski 1 0 (0.00%)
język czeski 79 0 (0.00%) język karaimski 1 0 (0.00%)
język czirokeski 1 0 (0.00%) język bugijski 1 0 (0.00%)
język ewenkijski 1 0 (0.00%) język nowogrecki 1 0 (0.00%)
język fenicki 1 0 (0.00%) język starogrecki 1 0 (0.00%)
język giliański 1 0 (0.00%) język tuwiński 1 0 (0.00%)
język gruziński 1 0 (0.00%) język kabardyjski 1 0 (0.00%)
język gyyz 1 0 (0.00%) język adygejski 1 0 (0.00%)
język hakka 1 0 (0.00%) język buriacki 1 0 (0.00%)
język hebrajski 1 0 (0.00%) język mongolski 1 0 (0.00%)
język japoński 1 0 (0.00%) język ewenkijski 1 0 (0.00%)
język kabardyjski 1 0 (0.00%) język amharski 1 0 (0.00%)
język kannada 1 0 (0.00%) język hebrajski 1 0 (0.00%)
język karaczajsko-bałkarski 1 0 (0.00%) język karaczajsko-bałkarski 1 0 (0.00%)
język karaimski 1 0 (0.00%) język arabski 1 0 (0.00%)
język khmerski 1 0 (0.00%) język ormiański 1 0 (0.00%)
język koreański 1 0 (0.00%) język perski 1 0 (0.00%)
język laotański 1 0 (0.00%) język paszto 1 0 (0.00%)
język macedoński 1 0 (0.00%) język gruziński 1 0 (0.00%)
język malajalam 1 0 (0.00%) język urdu 1 0 (0.00%)
język malajski 1 0 (0.00%) język laotański 1 0 (0.00%)
język malediwski 1 0 (0.00%) język tamilski 1 0 (0.00%)
język mindong 1 0 (0.00%) język ujgurski 1 0 (0.00%)
język minnan 1 0 (0.00%) język khmerski 1 0 (0.00%)
język mongolski 1 0 (0.00%) język kannada 1 0 (0.00%)
język nowogrecki 1 0 (0.00%) język beludżi 1 0 (0.00%)
język orija 1 0 (0.00%) język czirokeski 1 0 (0.00%)
język ormiański 1 0 (0.00%) język minnan 1 0 (0.00%)
język osmański 1 0 (0.00%) język bhodźpuri 1 0 (0.00%)
język paszto 1 0 (0.00%) inuktitut 1 0 (0.00%)
język pendżabski 1 0 (0.00%) język pendżabski 1 0 (0.00%)
język perski 1 0 (0.00%) język osmański 1 0 (0.00%)
język polski 465 124 (13.52%) język bengalski 1 0 (0.00%)
język sindhi 1 0 (0.00%) język sindhi 1 0 (0.00%)
język staro-cerkiewno-słowiański 1 0 (0.00%) język akadyjski 1 0 (0.00%)
język staroegipski 1 0 (0.00%) język telugu 1 0 (0.00%)
język starogrecki 1 0 (0.00%) język giliański 1 0 (0.00%)
język staroperski 1 0 (0.00%) język malediwski 1 0 (0.00%)
język syngaleski 1 0 (0.00%) język malajalam 1 0 (0.00%)
język szerpa 1 0 (0.00%) język szerpa 1 0 (0.00%)
język słowacki 2 0 (0.00%) język gyyz 1 0 (0.00%)
język słoweński 1 0 (0.00%) język tigrinia 1 0 (0.00%)
język tamilski 1 0 (0.00%) język syngaleski 1 0 (0.00%)
język telugu 1 0 (0.00%) język orija 1 0 (0.00%)
język tigrinia 1 0 (0.00%) język fenicki 1 0 (0.00%)
język tuwiński 1 0 (0.00%) język arczyński 1 0 (0.00%)
język ujgurski 1 0 (0.00%) język staroperski 1 0 (0.00%)
język urdu 1 0 (0.00%) język wu 1 0 (0.00%)
język wu 1 0 (0.00%) język hakka 1 0 (0.00%)
język łaciński 1 0 (0.00%) język mindong 1 0 (0.00%)

This page is a part of the kaikki.org machine-readable dictionary. This dictionary is based on structured data extracted on 2024-12-21 from the plwiktionary dump dated 2024-12-20 using wiktextract (d8cb2f3 and 4e554ae). The data shown on this site has been post-processed and various details (e.g., extra categories) removed, some information disambiguated, and additional data merged from other sources. See the raw data download page for the unprocessed wiktextract data.

If you use this data in academic research, please cite Tatu Ylonen: Wiktextract: Wiktionary as Machine-Readable Structured Data, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC), pp. 1317-1325, Marseille, 20-25 June 2022. Linking to the relevant page(s) under https://kaikki.org would also be greatly appreciated.