Wiktionary data extraction errors and warnings

Inflection check

List of different kinds of inflection tables. When wiktextract parses word heads and tables, it assigns the forms it encounters with tags that describe grammatical or contextual information. The tags and forms that are found in head sections and tables are kept separate from other head section and table tags, and later they are merged with other heads and tables into table types that all contain the same number of word forms with the same tags for those forms.

The information presented here is mostly for debugging, but it can also be used to find interesting word paradigms and to hunt down mistakes, typoes and badly formated Wiktionary entries. A table type that has only a few unique instances is quite likely to contain some kind of minor error in the original data.

Language ⏶ Table forms Errors (% affected words) Language Table forms ⏷ Errors (% affected words)
Абхазский 1 0 (0.00%) Русский 216 132 (0.00%)
Авис I 1 0 (0.00%) Украинский 56 42 (5.09%)
Адыгейский 2 0 (0.00%) Белорусский 24 80 (1.44%)
Азербайджанский 3 0 (0.00%) Болгарский 12 0 (0.00%)
Албанский 3 50 (99.47%) Немецкий 12 48 (11.05%)
Алтайский 1 0 (0.00%) Шведский 11 188 (99.71%)
Английский 8 20 (24.58%) Чешский 10 0 (0.00%)
Английский (австралийский диалект) 2 10 (50.00%) Нидерландский 9 6 (36.00%)
Английский (американский) 1 0 (0.00%) Английский 8 20 (24.58%)
Арабский 1 0 (0.00%) Русский (дореформенная орфография) 8 24 (23.45%)
Арабша 1 0 (0.00%) Французский 7 0 (0.00%)
Арагонский 1 0 (0.00%) Греческий 7 64 (0.00%)
Астурийский 2 0 (0.00%) Готский 7 0 (0.00%)
Африкаанс 3 8 (0.60%) Старославянский 6 56 (55.12%)
Баскский 2 44 (5.56%) Латинский 6 0 (0.00%)
Башкирский 3 0 (0.00%) Итальянский 6 0 (0.00%)
Беверли I 1 0 (0.00%) Татарский 5 0 (0.00%)
Белорусский 24 80 (1.44%) Словенский 5 0 (0.00%)
Болгарский 12 0 (0.00%) Литовский 5 0 (0.00%)
Боснийский 1 0 (0.00%) Португальский 5 0 (0.00%)
Бретонский 1 0 (0.00%) Церковнославянский 5 318 (5.26%)
Валлийский 1 8 (100.00%) Древневерхненемецкий 5 0 (0.00%)
Валлонский 1 0 (0.00%) Сербский 4 0 (0.00%)
Венгерский 4 0 (0.00%) Казахский 4 0 (0.00%)
Венетский 1 0 (0.00%) Датский 4 30 (6.35%)
Вепсский 3 500 (51.85%) Норвежский 4 10 (0.19%)
Верхнелужицкий 1 0 (0.00%) Польский 4 0 (0.00%)
Волапюк 2 0 (0.00%) Испанский 4 0 (0.00%)
Галисийский 3 0 (0.00%) Венгерский 4 0 (0.00%)
Готский 7 0 (0.00%) Финский 4 160 (0.00%)
Гренландский 1 0 (0.00%) Эстонский 4 0 (0.00%)
Греческий 7 64 (0.00%) Румынский 4 92 (35.95%)
Грузинский 3 4 (0.00%) Латышский 4 0 (0.00%)
Датский 4 30 (6.35%) Узбекский 4 1204 (17.48%)
Древнеанглийский 1 0 (0.00%) Сербохорватский 4 0 (0.00%)
Древневерхненемецкий 5 0 (0.00%) Таджикский 3 48 (2.74%)
Древнегреческий 3 0 (0.00%) Киргизский 3 0 (0.00%)
Древнегреческий (аттический) 1 0 (0.00%) Башкирский 3 0 (0.00%)
Древнегреческий (ионический) 1 0 (0.00%) Галисийский 3 0 (0.00%)
Древнеисландский 1 0 (0.00%) Исландский 3 30 (99.60%)
Древнерусский 2 0 (0.00%) Албанский 3 50 (99.47%)
Древнесаксонский 1 0 (0.00%) Хорватский 3 0 (0.00%)
Иврит 1 0 (0.00%) Фарерский 3 46 (100.00%)
Идо 2 0 (0.00%) Африкаанс 3 8 (0.60%)
Интерлингва 1 0 (0.00%) Азербайджанский 3 0 (0.00%)
Ирландский 1 2 (0.00%) Вепсский 3 500 (51.85%)
Исландский 3 30 (99.60%) Китайский (Гуаньхуа) 3 0 (0.00%)
Испанский 4 0 (0.00%) Цыганский 3 0 (0.00%)
Итальянский 6 0 (0.00%) Грузинский 3 4 (0.00%)
Кабардино-черкесский 1 0 (0.00%) Древнегреческий 3 0 (0.00%)
Казахский 4 0 (0.00%) Македонский 2 0 (0.00%)
Каталанский 1 0 (0.00%) Удмуртский 2 90 (94.09%)
Кашубский 2 0 (0.00%) Древнерусский 2 0 (0.00%)
Квенья 1 20 (100.00%) Коми-зырянский 2 432 (75.61%)
Киргизский 3 0 (0.00%) Эсперанто 2 0 (0.00%)
Китайский (Гуаньхуа) 3 0 (0.00%) Волапюк 2 0 (0.00%)
Китайский иероглиф 2 0 (0.00%) Туркменский 2 0 (0.00%)
Коми-зырянский 2 432 (75.61%) Словацкий 2 2 (96.91%)
Коми-пермяцкий 1 0 (0.00%) Турецкий 2 24 (0.00%)
Констанс I 1 0 (0.00%) Адыгейский 2 0 (0.00%)
Кортни I 1 0 (0.00%) Окситанский 2 0 (0.00%)
Кристин I 1 0 (0.00%) Китайский иероглиф 2 0 (0.00%)
Кумыкский 1 0 (0.00%) Монгольский 2 22 (50.00%)
Латинский 6 0 (0.00%) Астурийский 2 0 (0.00%)
Латышский 4 0 (0.00%) Идо 2 0 (0.00%)
Лиз III 1 0 (0.00%) Малагасийский 2 6 (87.50%)
Литовский 5 0 (0.00%) Шорский 2 0 (0.00%)
Лоранс I 1 0 (0.00%) Баскский 2 44 (5.56%)
Люсьен I 1 0 (0.00%) Суахили 2 0 (0.00%)
Мадж I 1 0 (0.00%) Сибирскотатарский 2 0 (0.00%)
Македонский 2 0 (0.00%) Хинди 2 4 (28.57%)
Малагасийский 2 6 (87.50%) Кашубский 2 0 (0.00%)
Мансийский 1 0 (0.00%) Урду 2 0 (0.00%)
Мег I 1 0 (0.00%) Немецкий (швейцарский) 2 0 (0.00%)
Мередит I 1 0 (0.00%) Английский (австралийский диалект) 2 10 (50.00%)
Мишель I 1 0 (0.00%) Коми-пермяцкий 1 0 (0.00%)
Монгольский 2 22 (50.00%) Якутский 1 16 (0.00%)
Мэй I 1 0 (0.00%) Осетинский 1 0 (0.00%)
Мэрион I 1 0 (0.00%) Кумыкский 1 0 (0.00%)
Мэт I 1 0 (0.00%) Интерлингва 1 0 (0.00%)
Нат I 1 0 (0.00%) Каталанский 1 0 (0.00%)
Немецкий 12 48 (11.05%) Старофранцузский 1 0 (0.00%)
Немецкий (австрийский) 1 0 (0.00%) Древнеанглийский 1 0 (0.00%)
Немецкий (швейцарский) 2 0 (0.00%) Боснийский 1 0 (0.00%)
Нидерландский 9 6 (36.00%) Древнесаксонский 1 0 (0.00%)
Нижнелужицкий 1 0 (0.00%) Словио 1 0 (0.00%)
Нол I 1 0 (0.00%) Ирландский 1 2 (0.00%)
Нолл I 1 0 (0.00%) Кабардино-черкесский 1 0 (0.00%)
Норвежский 4 10 (0.19%) Иврит 1 0 (0.00%)
Норвежский (букмол) 1 0 (0.00%) Верхнелужицкий 1 0 (0.00%)
Норвежский (нюнорск) 1 0 (0.00%) Древнеисландский 1 0 (0.00%)
Ноэль I 1 0 (0.00%) Фризский 1 0 (0.00%)
Нэт I 1 0 (0.00%) Нижнелужицкий 1 0 (0.00%)
Обри I 1 0 (0.00%) Валлийский 1 8 (100.00%)
Окситанский 2 0 (0.00%) Арагонский 1 0 (0.00%)
Осетинский 1 0 (0.00%) Сицилийский 1 0 (0.00%)
Пао 1 0 (0.00%) Японский 1 2 (100.00%)
Польский 4 0 (0.00%) Абхазский 1 0 (0.00%)
Португальский 5 0 (0.00%) Алтайский 1 0 (0.00%)
Португальский (бразильский) 1 0 (0.00%) Хакасский 1 0 (0.00%)
Румынский 4 92 (35.95%) Бретонский 1 0 (0.00%)
Русский 216 132 (0.00%) Английский (американский) 1 0 (0.00%)
Русский (дореформенная орфография) 8 24 (23.45%) Эве 1 0 (0.00%)
Сербохорватский 4 0 (0.00%) Норвежский (нюнорск) 1 0 (0.00%)
Сербский 4 0 (0.00%) Арабский 1 0 (0.00%)
Сибирскотатарский 2 0 (0.00%) Мансийский 1 0 (0.00%)
Сицилийский 1 0 (0.00%) Норвежский (букмол) 1 0 (0.00%)
Словацкий 2 2 (96.91%) Валлонский 1 0 (0.00%)
Словенский 5 0 (0.00%) Гренландский 1 0 (0.00%)
Словио 1 0 (0.00%) Венетский 1 0 (0.00%)
Старославянский 6 56 (55.12%) Немецкий (австрийский) 1 0 (0.00%)
Старофранцузский 1 0 (0.00%) Португальский (бразильский) 1 0 (0.00%)
Суахили 2 0 (0.00%) Ямайский креольский 1 0 (0.00%)
Таджикский 3 48 (2.74%) Квенья 1 20 (100.00%)
Татарский 5 0 (0.00%) Древнегреческий (ионический) 1 0 (0.00%)
Тейлор II 1 0 (0.00%) Древнегреческий (аттический) 1 0 (0.00%)
Тейлор III 1 0 (0.00%) Арабша 1 0 (0.00%)
Тина I 1 2 (0.00%) Мишель I 1 0 (0.00%)
Турецкий 2 24 (0.00%) Тина I 1 2 (0.00%)
Туркменский 2 0 (0.00%) Мадж I 1 0 (0.00%)
Удмуртский 2 90 (94.09%) Мег I 1 0 (0.00%)
Узбекский 4 1204 (17.48%) Тейлор II 1 0 (0.00%)
Украинский 56 42 (5.09%) Тейлор III 1 0 (0.00%)
Урду 2 0 (0.00%) Флоренс I 1 0 (0.00%)
Фарерский 3 46 (100.00%) Шелли I 1 0 (0.00%)
Финский 4 160 (0.00%) Лиз III 1 0 (0.00%)
Флоранс I 1 0 (0.00%) Нол I 1 0 (0.00%)
Флоренс I 1 0 (0.00%) Мэй I 1 0 (0.00%)
Французский 7 0 (0.00%) Фрэнсис I 1 0 (0.00%)
Фризский 1 0 (0.00%) Шеннон I 1 0 (0.00%)
Фрэнсис I 1 0 (0.00%) Пао 1 0 (0.00%)
Хакасский 1 0 (0.00%) Хоуп I 1 0 (0.00%)
Хинди 2 4 (28.57%) Констанс I 1 0 (0.00%)
Хорватский 3 0 (0.00%) Беверли I 1 0 (0.00%)
Хоуп I 1 0 (0.00%) Авис I 1 0 (0.00%)
Церковнославянский 5 318 (5.26%) Кристин I 1 0 (0.00%)
Цыганский 3 0 (0.00%) Мередит I 1 0 (0.00%)
Чешский 10 0 (0.00%) Мэт I 1 0 (0.00%)
Шведский 11 188 (99.71%) Люсьен I 1 0 (0.00%)
Шелли I 1 0 (0.00%) Мэрион I 1 0 (0.00%)
Шеннон I 1 0 (0.00%) Нолл I 1 0 (0.00%)
Шорский 2 0 (0.00%) Ноэль I 1 0 (0.00%)
Эве 1 0 (0.00%) Лоранс I 1 0 (0.00%)
Эвелин I 1 0 (0.00%) Нэт I 1 0 (0.00%)
Эсперанто 2 0 (0.00%) Нат I 1 0 (0.00%)
Эстонский 4 0 (0.00%) Обри I 1 0 (0.00%)
Якутский 1 16 (0.00%) Флоранс I 1 0 (0.00%)
Ямайский креольский 1 0 (0.00%) Эвелин I 1 0 (0.00%)
Японский 1 2 (100.00%) Кортни I 1 0 (0.00%)

This page is a part of the kaikki.org machine-readable dictionary. This dictionary is based on structured data extracted on 2025-04-18 from the ruwiktionary dump dated 2025-04-03 using wiktextract (ada610d and ea19a0a). The data shown on this site has been post-processed and various details (e.g., extra categories) removed, some information disambiguated, and additional data merged from other sources. See the raw data download page for the unprocessed wiktextract data.

If you use this data in academic research, please cite Tatu Ylonen: Wiktextract: Wiktionary as Machine-Readable Structured Data, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC), pp. 1317-1325, Marseille, 20-25 June 2022. Linking to the relevant page(s) under https://kaikki.org would also be greatly appreciated.