Wiktionary data extraction errors and warnings

Inflection check

List of different kinds of inflection tables. When wiktextract parses word heads and tables, it assigns the forms it encounters with tags that describe grammatical or contextual information. The tags and forms that are found in head sections and tables are kept separate from other head section and table tags, and later they are merged with other heads and tables into table types that all contain the same number of word forms with the same tags for those forms.

The information presented here is mostly for debugging, but it can also be used to find interesting word paradigms and to hunt down mistakes, typoes and badly formated Wiktionary entries. A table type that has only a few unique instances is quite likely to contain some kind of minor error in the original data.

Language ⏶ Table forms Errors (% affected words) Language Table forms ⏷ Errors (% affected words)
Авис I 1 0 (0.00%) Русский 163 56 (0.00%)
Адыгейский 2 0 (0.00%) Украинский 43 30 (3.28%)
Азербайджанский 3 0 (0.00%) Белорусский 21 18 (0.00%)
Албанский 3 50 (99.47%) Немецкий 11 48 (10.90%)
Алтайский 1 0 (0.00%) Шведский 11 196 (99.70%)
Английский 8 20 (24.91%) Болгарский 10 0 (0.00%)
Английский (австралийский диалект) 2 10 (50.00%) Чешский 10 0 (0.00%)
Английский (американский) 1 0 (0.00%) Английский 8 20 (24.91%)
Анпотопинг 1 0 (0.00%) Русский (дореформенная орфография) 8 24 (23.45%)
Арабский 1 0 (0.00%) Готский 8 0 (0.00%)
Арабша 1 0 (0.00%) Французский 7 0 (0.00%)
Арагонский 1 0 (0.00%) Нидерландский 7 6 (36.11%)
Астурийский 2 0 (0.00%) Греческий 7 64 (0.00%)
Африкаанс 3 8 (0.60%) Латинский 6 0 (0.00%)
Баскский 2 44 (5.56%) Итальянский 6 0 (0.00%)
Башкирский 4 0 (0.00%) Старославянский 6 62 (38.52%)
Беверли I 1 0 (0.00%) Польский 5 2 (55.01%)
Белорусский 21 18 (0.00%) Древневерхненемецкий 5 0 (0.00%)
Белорусский (тарашкевица) 1 0 (0.00%) Португальский 5 0 (0.00%)
Болгарский 10 0 (0.00%) Словенский 5 0 (0.00%)
Боснийский 1 0 (0.00%) Татарский 5 0 (0.00%)
Бретонский 1 0 (0.00%) Церковнославянский 5 318 (5.26%)
Валлийский 1 16 (100.00%) Казахский 4 0 (0.00%)
Валлонский 1 0 (0.00%) Венгерский 4 0 (0.00%)
Венгерский 4 0 (0.00%) Датский 4 30 (6.40%)
Венетский 1 0 (0.00%) Испанский 4 0 (0.00%)
Вепсский 3 500 (51.86%) Эстонский 4 0 (0.00%)
Верхнелужицкий 1 0 (0.00%) Норвежский 4 10 (0.23%)
Волапюк 2 0 (0.00%) Литовский 4 0 (0.00%)
Галисийский 3 0 (0.00%) Сербский 4 0 (0.00%)
Готский 8 0 (0.00%) Румынский 4 92 (36.04%)
Греческий 7 64 (0.00%) Башкирский 4 0 (0.00%)
Грузинский 3 4 (0.00%) Финский 4 160 (0.00%)
Датский 4 30 (6.40%) Узбекский 4 398 (17.32%)
Древнеанглийский 1 0 (0.00%) Латышский 4 0 (0.00%)
Древневерхненемецкий 5 0 (0.00%) Сербохорватский 4 0 (0.00%)
Древнегреческий 4 0 (0.00%) Древнегреческий 4 0 (0.00%)
Древнегреческий (аттический) 1 0 (0.00%) Хорватский 3 0 (0.00%)
Древнегреческий (ионический) 1 0 (0.00%) Албанский 3 50 (99.47%)
Древнеисландский 1 0 (0.00%) Африкаанс 3 8 (0.60%)
Древнерусский 2 0 (0.00%) Азербайджанский 3 0 (0.00%)
Древнесаксонский 1 0 (0.00%) Галисийский 3 0 (0.00%)
Иврит 1 0 (0.00%) Вепсский 3 500 (51.86%)
Идо 2 0 (0.00%) Исландский 3 30 (99.58%)
Интерлингва 1 0 (0.00%) Фарерский 3 46 (100.00%)
Ирландский 1 2 (0.00%) Таджикский 3 48 (2.78%)
Исландский 3 30 (99.58%) Грузинский 3 4 (0.00%)
Испанский 4 0 (0.00%) Цыганский 3 0 (0.00%)
Итальянский 6 0 (0.00%) Китайский иероглиф 2 0 (0.00%)
Кабардино-черкесский 1 0 (0.00%) Китайский (Гуаньхуа) 2 0 (0.00%)
Казахский 4 0 (0.00%) Турецкий 2 24 (0.00%)
Каталанский 1 0 (0.00%) Туркменский 2 0 (0.00%)
Кашубский 2 0 (0.00%) Эсперанто 2 0 (0.00%)
Квенья 1 20 (100.00%) Малагасийский 2 6 (87.50%)
Киргизский 2 0 (0.00%) Киргизский 2 0 (0.00%)
Китайский (Гуаньхуа) 2 0 (0.00%) Волапюк 2 0 (0.00%)
Китайский иероглиф 2 0 (0.00%) Идо 2 0 (0.00%)
Коми-зырянский 2 0 (0.00%) Македонский 2 0 (0.00%)
Коми-пермяцкий 1 0 (0.00%) Баскский 2 44 (5.56%)
Констанс I 1 0 (0.00%) Окситанский 2 0 (0.00%)
Кортни I 1 0 (0.00%) Астурийский 2 0 (0.00%)
Кристин I 1 0 (0.00%) Древнерусский 2 0 (0.00%)
Крымскотатарский 1 0 (0.00%) Словацкий 2 2 (96.91%)
Кумыкский 1 0 (0.00%) Суахили 2 0 (0.00%)
Латинский 6 0 (0.00%) Адыгейский 2 0 (0.00%)
Латышский 4 0 (0.00%) Коми-зырянский 2 0 (0.00%)
Лиз III 1 0 (0.00%) Удмуртский 2 90 (94.09%)
Литовский 4 0 (0.00%) Монгольский 2 22 (50.00%)
Лоранс I 1 0 (0.00%) Хинди 2 4 (28.57%)
Люсьен I 1 0 (0.00%) Кашубский 2 0 (0.00%)
Мадж I 1 0 (0.00%) Сибирскотатарский 2 0 (0.00%)
Македонский 2 0 (0.00%) Шорский 2 0 (0.00%)
Малагасийский 2 6 (87.50%) Урду 2 0 (0.00%)
Мансийский 1 0 (0.00%) Немецкий (швейцарский) 2 0 (0.00%)
Мег I 1 0 (0.00%) Английский (австралийский диалект) 2 10 (50.00%)
Мередит I 1 0 (0.00%) Древнесаксонский 1 0 (0.00%)
Мишель I 1 0 (0.00%) Ирландский 1 2 (0.00%)
Монгольский 2 22 (50.00%) Интерлингва 1 0 (0.00%)
Мэй I 1 0 (0.00%) Боснийский 1 0 (0.00%)
Мэрион I 1 0 (0.00%) Иврит 1 0 (0.00%)
Мэт I 1 0 (0.00%) Древнеанглийский 1 0 (0.00%)
Нат I 1 0 (0.00%) Каталанский 1 0 (0.00%)
Немецкий 11 48 (10.90%) Старофранцузский 1 0 (0.00%)
Немецкий (австрийский) 1 0 (0.00%) Японский 1 2 (100.00%)
Немецкий (швейцарский) 2 0 (0.00%) Верхнелужицкий 1 0 (0.00%)
Нидерландский 7 6 (36.11%) Фризский 1 0 (0.00%)
Нижнелужицкий 1 0 (0.00%) Валлийский 1 16 (100.00%)
Нол I 1 0 (0.00%) Сицилийский 1 0 (0.00%)
Нолл I 1 0 (0.00%) Древнеисландский 1 0 (0.00%)
Норвежский 4 10 (0.23%) Крымскотатарский 1 0 (0.00%)
Норвежский (букмол) 1 0 (0.00%) Бретонский 1 0 (0.00%)
Норвежский (нюнорск) 1 0 (0.00%) Арагонский 1 0 (0.00%)
Ноэль I 1 0 (0.00%) Английский (американский) 1 0 (0.00%)
Нэт I 1 0 (0.00%) Якутский 1 16 (0.00%)
Обри I 1 0 (0.00%) Словио 1 0 (0.00%)
Окситанский 2 0 (0.00%) Коми-пермяцкий 1 0 (0.00%)
Пао 1 0 (0.00%) Кумыкский 1 0 (0.00%)
Польский 5 2 (55.01%) Нижнелужицкий 1 0 (0.00%)
Португальский 5 0 (0.00%) Норвежский (нюнорск) 1 0 (0.00%)
Португальский (бразильский) 1 0 (0.00%) Арабский 1 0 (0.00%)
Румынский 4 92 (36.04%) Эве 1 0 (0.00%)
Русский 163 56 (0.00%) Кабардино-черкесский 1 0 (0.00%)
Русский (дореформенная орфография) 8 24 (23.45%) Алтайский 1 0 (0.00%)
Сербохорватский 4 0 (0.00%) Хакасский 1 0 (0.00%)
Сербский 4 0 (0.00%) Норвежский (букмол) 1 0 (0.00%)
Сибирскотатарский 2 0 (0.00%) Валлонский 1 0 (0.00%)
Сицилийский 1 0 (0.00%) Мансийский 1 0 (0.00%)
Словацкий 2 2 (96.91%) Немецкий (австрийский) 1 0 (0.00%)
Словенский 5 0 (0.00%) Португальский (бразильский) 1 0 (0.00%)
Словио 1 0 (0.00%) Венетский 1 0 (0.00%)
Старославянский 6 62 (38.52%) Белорусский (тарашкевица) 1 0 (0.00%)
Старофранцузский 1 0 (0.00%) Ямайский креольский 1 0 (0.00%)
Суахили 2 0 (0.00%) Квенья 1 20 (100.00%)
Таджикский 3 48 (2.78%) Древнегреческий (аттический) 1 0 (0.00%)
Татарский 5 0 (0.00%) Древнегреческий (ионический) 1 0 (0.00%)
Тейлор II 1 0 (0.00%) Арабша 1 0 (0.00%)
Тейлор III 1 0 (0.00%) Мишель I 1 0 (0.00%)
Тина I 1 2 (0.00%) Тина I 1 2 (0.00%)
Турецкий 2 24 (0.00%) Мадж I 1 0 (0.00%)
Туркменский 2 0 (0.00%) Мег I 1 0 (0.00%)
Удмуртский 2 90 (94.09%) Флоренс I 1 0 (0.00%)
Узбекский 4 398 (17.32%) Шелли I 1 0 (0.00%)
Украинский 43 30 (3.28%) Тейлор II 1 0 (0.00%)
Урду 2 0 (0.00%) Тейлор III 1 0 (0.00%)
Фарерский 3 46 (100.00%) Лиз III 1 0 (0.00%)
Финский 4 160 (0.00%) Нол I 1 0 (0.00%)
Флоранс I 1 0 (0.00%) Мэй I 1 0 (0.00%)
Флоренс I 1 0 (0.00%) Фрэнсис I 1 0 (0.00%)
Французский 7 0 (0.00%) Шеннон I 1 0 (0.00%)
Фризский 1 0 (0.00%) Пао 1 0 (0.00%)
Фрэнсис I 1 0 (0.00%) Хоуп I 1 0 (0.00%)
Хакасский 1 0 (0.00%) Мередит I 1 0 (0.00%)
Хинди 2 4 (28.57%) Беверли I 1 0 (0.00%)
Хорватский 3 0 (0.00%) Кристин I 1 0 (0.00%)
Хоуп I 1 0 (0.00%) Авис I 1 0 (0.00%)
Церковнославянский 5 318 (5.26%) Констанс I 1 0 (0.00%)
Цыганский 3 0 (0.00%) Мэт I 1 0 (0.00%)
Чешский 10 0 (0.00%) Нолл I 1 0 (0.00%)
Шведский 11 196 (99.70%) Люсьен I 1 0 (0.00%)
Шелли I 1 0 (0.00%) Мэрион I 1 0 (0.00%)
Шеннон I 1 0 (0.00%) Ноэль I 1 0 (0.00%)
Шорский 2 0 (0.00%) Лоранс I 1 0 (0.00%)
Эве 1 0 (0.00%) Нат I 1 0 (0.00%)
Эвелин I 1 0 (0.00%) Нэт I 1 0 (0.00%)
Эсперанто 2 0 (0.00%) Обри I 1 0 (0.00%)
Эстонский 4 0 (0.00%) Флоранс I 1 0 (0.00%)
Якутский 1 16 (0.00%) Эвелин I 1 0 (0.00%)
Ямайский креольский 1 0 (0.00%) Кортни I 1 0 (0.00%)
Японский 1 2 (100.00%) Анпотопинг 1 0 (0.00%)

This page is a part of the kaikki.org machine-readable dictionary. This dictionary is based on structured data extracted on 2024-11-01 from the ruwiktionary dump dated 2024-10-20 using wiktextract (d49d402 and a5af179). The data shown on this site has been post-processed and various details (e.g., extra categories) removed, some information disambiguated, and additional data merged from other sources. See the raw data download page for the unprocessed wiktextract data.

If you use this data in academic research, please cite Tatu Ylonen: Wiktextract: Wiktionary as Machine-Readable Structured Data, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC), pp. 1317-1325, Marseille, 20-25 June 2022. Linking to the relevant page(s) under https://kaikki.org would also be greatly appreciated.