Wiktionary data extraction errors and warnings

Inflection check

List of different kinds of inflection tables. When wiktextract parses word heads and tables, it assigns the forms it encounters with tags that describe grammatical or contextual information. The tags and forms that are found in head sections and tables are kept separate from other head section and table tags, and later they are merged with other heads and tables into table types that all contain the same number of word forms with the same tags for those forms.

The information presented here is mostly for debugging, but it can also be used to find interesting word paradigms and to hunt down mistakes, typoes and badly formated Wiktionary entries. A table type that has only a few unique instances is quite likely to contain some kind of minor error in the original data.

Language ⏶ Table forms Errors (% affected words) Language Table forms ⏷ Errors (% affected words)
Авис I 1 0 (0.00%) Русский 82 164 (15.37%)
Адыгейский 1 0 (0.00%) Украинский 27 150 (5.54%)
Азербайджанский 2 0 (0.00%) Белорусский 17 118 (0.75%)
Албанский 3 50 (99.46%) Немецкий 11 48 (10.51%)
Алтайский 1 0 (0.00%) Шведский 9 172 (99.97%)
Английский 7 20 (25.23%) Болгарский 8 0 (0.00%)
Английский (австралийский диалект) 2 10 (50.00%) Готский 8 100 (3.71%)
Английский (американский) 1 0 (0.00%) Английский 7 20 (25.23%)
Арабский 1 0 (0.00%) Чешский 7 0 (0.00%)
Арагонский 1 0 (0.00%) Нидерландский 7 6 (36.34%)
Астурийский 1 0 (0.00%) Греческий 7 64 (0.00%)
Африкаанс 3 8 (0.60%) Старославянский 6 282 (68.74%)
Баскский 2 44 (5.56%) Русский (дореформенная орфография) 6 24 (24.46%)
Башкирский 3 0 (0.00%) Латинский 5 0 (0.00%)
Беверли I 1 0 (0.00%) Итальянский 5 0 (0.00%)
Белорусский 17 118 (0.75%) Древневерхненемецкий 5 0 (0.00%)
Белорусский (тарашкевица) 1 44 (0.00%) Французский 4 0 (0.00%)
Болгарский 8 0 (0.00%) Польский 4 40 (55.56%)
Боснийский 1 0 (0.00%) Словенский 4 0 (0.00%)
Бретонский 1 0 (0.00%) Финский 4 160 (0.00%)
Валлийский 1 16 (100.00%) Португальский 4 0 (0.00%)
Валлонский 1 0 (0.00%) Церковнославянский 4 212 (5.26%)
Венгерский 2 0 (0.00%) Узбекский 4 398 (17.40%)
Венетский 1 0 (0.00%) Древнегреческий 4 220 (0.70%)
Вепсский 3 382 (51.86%) Албанский 3 50 (99.46%)
Верхнелужицкий 1 0 (0.00%) Африкаанс 3 8 (0.60%)
Волапюк 2 0 (0.00%) Датский 3 30 (6.46%)
Галисийский 3 0 (0.00%) Норвежский 3 10 (0.24%)
Готский 8 100 (3.71%) Галисийский 3 0 (0.00%)
Греческий 7 64 (0.00%) Эстонский 3 0 (0.00%)
Грузинский 1 2 (0.00%) Литовский 3 0 (0.00%)
Датский 3 30 (6.46%) Сербский 3 0 (0.00%)
Древнеанглийский 1 0 (0.00%) Башкирский 3 0 (0.00%)
Древневерхненемецкий 5 0 (0.00%) Фарерский 3 46 (100.00%)
Древнегреческий 4 220 (0.70%) Румынский 3 92 (37.28%)
Древнегреческий (аттический) 1 0 (0.00%) Латышский 3 0 (0.00%)
Древнегреческий (ионический) 1 0 (0.00%) Вепсский 3 382 (51.86%)
Древнерусский 1 0 (0.00%) Сербохорватский 3 0 (0.00%)
Идо 1 0 (0.00%) Цыганский 3 0 (0.00%)
Интерлингва 1 0 (0.00%) Хорватский 2 0 (0.00%)
Ирландский 1 2 (0.00%) Венгерский 2 0 (0.00%)
Исландский 2 30 (100.00%) Испанский 2 0 (0.00%)
Испанский 2 0 (0.00%) Эсперанто 2 0 (0.00%)
Итальянский 5 0 (0.00%) Казахский 2 0 (0.00%)
Кабардино-черкесский 1 0 (0.00%) Исландский 2 30 (100.00%)
Казахский 2 0 (0.00%) Волапюк 2 0 (0.00%)
Каталанский 1 0 (0.00%) Окситанский 2 0 (0.00%)
Кашубский 2 0 (0.00%) Баскский 2 44 (5.56%)
Квенья 1 20 (100.00%) Азербайджанский 2 0 (0.00%)
Киргизский 1 0 (0.00%) Татарский 2 0 (0.00%)
Коми-зырянский 1 0 (0.00%) Суахили 2 0 (0.00%)
Констанс I 1 0 (0.00%) Таджикский 2 48 (2.78%)
Кортни I 1 0 (0.00%) Монгольский 2 22 (50.00%)
Кристин I 1 0 (0.00%) Хинди 2 4 (28.57%)
Крымскотатарский 1 52 (100.00%) Сибирскотатарский 2 0 (0.00%)
Кумыкский 1 0 (0.00%) Кашубский 2 0 (0.00%)
Латинский 5 0 (0.00%) Немецкий (швейцарский) 2 0 (0.00%)
Латышский 3 0 (0.00%) Английский (австралийский диалект) 2 10 (50.00%)
Лиз III 1 0 (0.00%) Интерлингва 1 0 (0.00%)
Литовский 3 0 (0.00%) Древнеанглийский 1 0 (0.00%)
Лоранс I 1 0 (0.00%) Ирландский 1 2 (0.00%)
Люсьен I 1 0 (0.00%) Каталанский 1 0 (0.00%)
Мадж I 1 0 (0.00%) Японский 1 2 (100.00%)
Македонский 1 0 (0.00%) Малагасийский 1 6 (100.00%)
Малагасийский 1 6 (100.00%) Валлийский 1 16 (100.00%)
Мег I 1 0 (0.00%) Боснийский 1 0 (0.00%)
Мередит I 1 0 (0.00%) Македонский 1 0 (0.00%)
Мишель I 1 0 (0.00%) Идо 1 0 (0.00%)
Монгольский 2 22 (50.00%) Киргизский 1 0 (0.00%)
Мэй I 1 0 (0.00%) Турецкий 1 12 (0.00%)
Мэрион I 1 0 (0.00%) Сицилийский 1 0 (0.00%)
Мэт I 1 0 (0.00%) Якутский 1 16 (0.00%)
Нат I 1 0 (0.00%) Верхнелужицкий 1 0 (0.00%)
Немецкий 11 48 (10.51%) Туркменский 1 0 (0.00%)
Немецкий (австрийский) 1 0 (0.00%) Фризский 1 0 (0.00%)
Немецкий (швейцарский) 2 0 (0.00%) Бретонский 1 0 (0.00%)
Нидерландский 7 6 (36.34%) Словацкий 1 2 (100.00%)
Нижнелужицкий 1 0 (0.00%) Крымскотатарский 1 52 (100.00%)
Нол I 1 0 (0.00%) Адыгейский 1 0 (0.00%)
Нолл I 1 0 (0.00%) Кабардино-черкесский 1 0 (0.00%)
Норвежский 3 10 (0.24%) Коми-зырянский 1 0 (0.00%)
Норвежский (букмол) 1 0 (0.00%) Английский (американский) 1 0 (0.00%)
Норвежский (нюнорск) 1 0 (0.00%) Словио 1 0 (0.00%)
Ноэль I 1 0 (0.00%) Древнерусский 1 0 (0.00%)
Нэт I 1 0 (0.00%) Арагонский 1 0 (0.00%)
Обри I 1 0 (0.00%) Астурийский 1 0 (0.00%)
Окситанский 2 0 (0.00%) Кумыкский 1 0 (0.00%)
Пао 1 0 (0.00%) Удмуртский 1 90 (100.00%)
Польский 4 40 (55.56%) Нижнелужицкий 1 0 (0.00%)
Португальский 4 0 (0.00%) Норвежский (нюнорск) 1 0 (0.00%)
Португальский (бразильский) 1 0 (0.00%) Алтайский 1 0 (0.00%)
Румынский 3 92 (37.28%) Хакасский 1 0 (0.00%)
Русский 82 164 (15.37%) Шорский 1 0 (0.00%)
Русский (дореформенная орфография) 6 24 (24.46%) Эве 1 0 (0.00%)
Сербохорватский 3 0 (0.00%) Грузинский 1 2 (0.00%)
Сербский 3 0 (0.00%) Арабский 1 0 (0.00%)
Сибирскотатарский 2 0 (0.00%) Норвежский (букмол) 1 0 (0.00%)
Сицилийский 1 0 (0.00%) Урду 1 0 (0.00%)
Словацкий 1 2 (100.00%) Валлонский 1 0 (0.00%)
Словенский 4 0 (0.00%) Немецкий (австрийский) 1 0 (0.00%)
Словио 1 0 (0.00%) Венетский 1 0 (0.00%)
Старославянский 6 282 (68.74%) Португальский (бразильский) 1 0 (0.00%)
Суахили 2 0 (0.00%) Белорусский (тарашкевица) 1 44 (0.00%)
Таджикский 2 48 (2.78%) Ямайский креольский 1 0 (0.00%)
Татарский 2 0 (0.00%) Квенья 1 20 (100.00%)
Тейлор II 1 0 (0.00%) Древнегреческий (аттический) 1 0 (0.00%)
Тейлор III 1 0 (0.00%) Древнегреческий (ионический) 1 0 (0.00%)
Тина I 1 2 (0.00%) Мишель I 1 0 (0.00%)
Турецкий 1 12 (0.00%) Тина I 1 2 (0.00%)
Туркменский 1 0 (0.00%) Мадж I 1 0 (0.00%)
Удмуртский 1 90 (100.00%) Мег I 1 0 (0.00%)
Узбекский 4 398 (17.40%) Флоренс I 1 0 (0.00%)
Украинский 27 150 (5.54%) Шелли I 1 0 (0.00%)
Урду 1 0 (0.00%) Тейлор II 1 0 (0.00%)
Фарерский 3 46 (100.00%) Тейлор III 1 0 (0.00%)
Финский 4 160 (0.00%) Лиз III 1 0 (0.00%)
Флоранс I 1 0 (0.00%) Нол I 1 0 (0.00%)
Флоренс I 1 0 (0.00%) Мэй I 1 0 (0.00%)
Французский 4 0 (0.00%) Фрэнсис I 1 0 (0.00%)
Фризский 1 0 (0.00%) Шеннон I 1 0 (0.00%)
Фрэнсис I 1 0 (0.00%) Пао 1 0 (0.00%)
Хакасский 1 0 (0.00%) Хоуп I 1 0 (0.00%)
Хинди 2 4 (28.57%) Беверли I 1 0 (0.00%)
Хорватский 2 0 (0.00%) Кристин I 1 0 (0.00%)
Хоуп I 1 0 (0.00%) Констанс I 1 0 (0.00%)
Церковнославянский 4 212 (5.26%) Мередит I 1 0 (0.00%)
Цыганский 3 0 (0.00%) Мэт I 1 0 (0.00%)
Чешский 7 0 (0.00%) Нолл I 1 0 (0.00%)
Шведский 9 172 (99.97%) Люсьен I 1 0 (0.00%)
Шелли I 1 0 (0.00%) Авис I 1 0 (0.00%)
Шеннон I 1 0 (0.00%) Мэрион I 1 0 (0.00%)
Шорский 1 0 (0.00%) Ноэль I 1 0 (0.00%)
Эве 1 0 (0.00%) Лоранс I 1 0 (0.00%)
Эвелин I 1 0 (0.00%) Нат I 1 0 (0.00%)
Эсперанто 2 0 (0.00%) Нэт I 1 0 (0.00%)
Эстонский 3 0 (0.00%) Обри I 1 0 (0.00%)
Якутский 1 16 (0.00%) Флоранс I 1 0 (0.00%)
Ямайский креольский 1 0 (0.00%) Эвелин I 1 0 (0.00%)
Японский 1 2 (100.00%) Кортни I 1 0 (0.00%)

This page is a part of the kaikki.org machine-readable dictionary. This dictionary is based on structured data extracted on 2024-06-12 from the ruwiktionary dump dated 2024-06-06 using wiktextract (c695e2c and adbe1c9). The data shown on this site has been post-processed and various details (e.g., extra categories) removed, some information disambiguated, and additional data merged from other sources. See the raw data download page for the unprocessed wiktextract data.

If you use this data in academic research, please cite Tatu Ylonen: Wiktextract: Wiktionary as Machine-Readable Structured Data, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC), pp. 1317-1325, Marseille, 20-25 June 2022. Linking to the relevant page(s) under https://kaikki.org would also be greatly appreciated.