тролль - это не только ценный жир, но и 3-4 легкоусвояемых коммента ежедневно
Господа, не знаю где спросить.
Что вот это вот за безобразие во второй половине РУССКОЙ кодовой страницы Win1251 ?
Эти символы ОС считает полноценными буквами алфавита (т.е., upper() и lower() преобразуют их из строчных в прописные и обратно).
Я - русский человек, но не знаю этих букв.
Просветите, пжлст.

131 ѓ Ѓ
144 ђ Ђ
154 љ Љ
156 њ Њ
157 ќ Ќ
158 ћ Ћ
159 џ Џ
162 ў Ў
179 і І
180 ґ Ґ
186 є Є
188 ј Ј
190 ѕ Ѕ
191 ї Ї

Стоит вопрос о написании библиотеки, в которую намертво вшита 1251-ая кодовая страница (т.е., библиотека должна корректно работать с текстами в 1251-ой кодировке, даже если ОС не поддерживает её).
Этой библиотекой будут пользоваться другие программисты для каких-то своих целей.
Но мне не хотелось бы тащить туда всякий хлам.
Возможны ли такие случаи, когда эти буквы будут реально использованы в текстах?
Или эти якобы буквы можно безболезненно убрать и забыть как страшный сон, ибо они никогда не используются?


Комментарии
24.01.2012 в 22:11

149ea694a792f3ad2caaf77077a0df58 Спорящая с богом
1251 кодировка не русская, а кириллическая. Она поддерживает также украинский, белорусский, сербский и болгарский, для которых, собственно, и нужны эти символы.
24.01.2012 в 22:20

тролль - это не только ценный жир, но и 3-4 легкоусвояемых коммента ежедневно
ой, а можно подробнее?
т.е., этих букв хватит на все эти языки?
а как же порядок букв в алфавите? для 1251 он вроде задан единственным образом, в других указанных вами языках порядок букв должен совпадать с русским?
24.01.2012 в 23:21

149ea694a792f3ad2caaf77077a0df58 Спорящая с богом
25.01.2012 в 00:39

тролль - это не только ценный жир, но и 3-4 легкоусвояемых коммента ежедневно
да, туда я уже слазил
но про порядок букв при совмещении алфавитов там - ничего
25.01.2012 в 01:21

Пау-чок
CD_Eater, 1251 и для русского алфавита не соблюдает порядок букв. В последовательности кодов а-яА-Я (0xC0-0xFF) отсутствуют буквы "Ё" и "ё", имеющие коды 0xA8 и 0xB8 соответственно.

Последовательности букв в алфавитах можете глянуть тут, например:
http://ru.wikipedia.org/wiki/Русский_алфавит
http://ru.wikipedia.org/wiki/Сербский_кириллический_алфавит
http://ru.wikipedia.org/wiki/Болгарский_алфавит
http://ru.wikipedia.org/wiki/Белорусский_алфавит
http://ru.wikipedia.org/wiki/Украинский_алфавит
25.01.2012 в 01:27

тролль - это не только ценный жир, но и 3-4 легкоусвояемых коммента ежедневно
Паучок, вы не поняли мой вопрос.
Разумеется, числовая последовательность кодов не соответствует алфавитной.
Но для 1251-ой кодировки (как и для любой другой) установлена последовательность кодов, которая соответствует алфавиту (иначе откуда компьютер знает, как упорядочить файлы в папке по алфавиту)
Парадокс - 4 языка, а кодировка (а значит, и последовательность, задающая алфавит) - одна.
25.01.2012 в 01:32

тролль - это не только ценный жир, но и 3-4 легкоусвояемых коммента ежедневно
хотя похоже, что они действительно являются разными подмножествами одного алфавита-предка
поэтому достаточно одной сортировки букв для всех алфавитов сразу
25.01.2012 в 01:37

тролль - это не только ценный жир, но и 3-4 легкоусвояемых коммента ежедневно
да, точно - файл
Џ.txt
на русской винде встаёт между
Ч.txt
и
Ш.txt

сэкономили, типа...

спасибо, всё прояснилось
исходный вопрос решён - украинские, белорусские, болгарские и сербские товарищи посылаются куда подальше
мусор из кодовой страницы убираю