Ух, ну и разговор пошел!
1. Давайте будем все на "ты", ради удобства.
2. Признаю, что я слишком несдержанно употреблял эпитеты. Искренне прошу прощения, если обидел кого-то из людей, уважаемых Юрием.
3. Я профессиональный структурный лингвист, а также специалист по древним языкам - это одна из моих профессий.
4. Задача разработки кодировки для писменности X - это прежде всего задача построения
АЛФАВИТА этого X'а (термин
алфавит использую не смысле школьного учебника, а в широком смысле - набор смыслоразличительных знаков). Для меня как для лингвиста эта задача представляется одной из самых тривиальных в лингвистическом описании. В современный английский алфавит не входит знак "t swash", т.к. нет слов противопоставленных при помощи "t" и "t swash"; "t swash" - это позиционный и факультативный вариант графемы "t". Но! в современный русский алфавит безусловно входит буква "о с ударением". Ударение имеет смыслоразличительную роль, т.к. союз "что" и местоимение "что" различается этим. В любой грамматике будет написано, что местоимение "что" в некоторых случаях (в начале предложения) должно писаться с ударением, чтобы отличасть от союза. Все сказанное относится и к другим гласным буквам русского алфавита.
5. Я утверждаю ("за базар отвечаю"), что комиссия по юникоду состоит из лингвистически безграмотных людей. Что она состоит из людей ленивых и безответственных, которые не потрудились овладеть материалом даже на таком элементарном уровне, как алфавит, но при этом эти люди беруться за составление единого мирового стандарта писменности.
6. Несколько примеров (не будем касаться арабицы и евреицы, в которых я не слишком петрю).
Пример №1 я привел выше - это русские ударения. Мы не можем в рамках юникода грамотно набрать современный русский художественный текст.
Цитата: Немного не понял насчет знаков ударения. Юникод кодирует characters, а знак ударения относится к категории glyphs. Не думаю, что Вы хотели бы чтобы слово с ударением и без него сортировались по-разному. Для обозначения ударения я бы использовал свойство символа (типа как swash версию), реализовать это можно, например, при помощи OpenType.
Так все равно, должны быть выделены юникод номера. А запихнуть ли это в OpenType - можно и так, а можно и не запихивать. Как я понимаю, проблема таблиц OpenType никак не относятся к проблеме выделеня юникод диапазона.
7. Пример №2.
Как известно, в старославянской азбуке (кириллице) и в древнерусском ее варианте были т.н. йотированные буквы: "а" с палочкой слева, "е" с палочкой, и у. "Йотированное у" осталось и сейчас в виде буквы "ю" (т.к. звук "у" писался на греческий манер как "оу", а его йотированный вариант как "ю"). "Йотированное е" исчезло примерно в эпоху Петра I (если мне не изменяет память, лень проверять). В это же время "йотированное а" приобрело скорописное начертание и превратилось в известную нам букву "я".
Теперь, что мы имеет в юникоде. Там есть "йотированное е" (ну как же! русским надо набирать их древние тексты. Спасибо юникодчиком за такую заботу). Там есть, ясен пончик, буква "я". Но там нет буквы "йотированное а"!!! Мы не можем в рамках юникода набрать древнеславянский текст: есть юсы, есть ять, но нету "йотированного а"!
Готов спорить на что угодно, что господа юникодчики обратились к кому-нибудь слависту (которых в Америке пруд пруди) и он им сказал, не подумав о последствиях, что мол "я" и "йотированное а" - исторически суть одна буква. Опля, подумали юникодчики, нафига нам плодить разные начертания одной и той же буквы... Занавес.
8. Пример №3.
Как известно, был такой язык - коптский. Лингвистически - наследник древнеегипетского, но не суть. Важно, что копты использовали древнегреческий алфавит. Они добавили несколько новых символов, но самое главное, они использовали несколько другую манеру письма. Разница между коптским письмом и древнегреческим примерно такая же, как между церковнославянским (шрифт типа Ижица) и простым гражданским кириллическим.
Что сделали юникодчики. Они выделили специальный коптский диапазон... и запихнули туда только те символы, которые отсутствуют в греческом диапазоне. Молодцы, ребята! Видна напряженная работа ума! Я вот не понимаю, они что, место экономили что ли?
Для тех, кто не понял: мы не можем сейчас корректно набрать коптский текст. Мы должны набирать его греческими буквами, а дополнительные брать из коптского диапазона. Выглядеть это будет так же ужасно, как если кириллический текст набрать Таймсом и повставлять туда ять из Ижицы.
Продолжать ли мне список этих перлов? (Я могу это еще долго делать, если начать копаться.)
9.
Цитата: А что не так с SMP (видимо это имелось в виду под 4-х байтным Юникодом)?
Вместо того, чтобы взяться за ум и поиправлять свои ошибки, они занимаются разработкой новых диапазонов. Это очень важные для человечества диапазоны. Развитие цивилизации уже завтра остановится без этих диапазонов. Невозможность набрать русский или коптский текст - это просто мелочи. Есть более важные задачи.
Вот пример такого нового диапазона. Это диапазон для математиков. Как известно, в математике используются прописные греческие буквы, причем курсивные. Казалось бы, в чем проблема: греческие буквы уже есть, курсивное начертание у шритфа есть. "Нет!", решили наши герои. Идеология юникода - "все-в-одном-шрифте". Мы не можем бросить бедных математиков на произвол судьбы. И в юникод (для шрифта прямого начертания!) запихивается диапазон с курсивными греческими буквами. Отметьте: всеми буквами, от альфы до омеги. Кто уже начал улыбаться? Прекратить смеяться! Юникод это не шутки!
Ну а я просто валялся по полу когда это услышал: курсив в прямом шрифте - это фигня, механическое дублирование греческого алфавита - тоже фигня. Самое смешное, что в математике используются только
некоторые греческие буквы, а не все. Прописные альфа или омикрон не используются никогда, т.к. они совпадают по своему виду с латинскими A и O. No comments.
10.
Цитата: а какой это ты диапазон собирался разрабатывать, если не секрет
Совершенно не секрет. Примеривался к клинописи, т.к. это одна из моих лингвистичеких специализаций. Слоговое письмо палочкой на глиняных табличках. Изобретена шумерами в Двуречье на рубеже 4-3 тыс. до н.э. Просуществовала вплоть до н.э. Использовалась кучей народностей. Имеет кучу изводов отличающихся, примерно как латиница от кириллицы. Инвентарь насчитывает несколько тысяч знаков.
Разработать хорошую и удобную кодировку для этого дела - задача очень кропотливая. Думаю, заняло бы уж не меньше года. Года три назад юникодчики как раз искали человека, который бы за это взялся (представляю, кого они нашли, если вообще нашли).
Отказался я от этого плана почти сразу, т.к. это дело ну абсолютно бессмысленное. Клинопись никому не нужна. Клинописные тексты транслитерируют латиницей с небольшим кол-вом диакритики. Иногда автор научной работы хочет вставить именно клинописный знак, он рисует его от руки - но в таких случаях шрифт не нужен, т.к. речь идет об палеографии, т.е. важно именно это индивидуальное начертание знака, а не унифицированная форма, которая будет в шрифте.
11.
Вывод.
Может быть члены юникодной комиссии - милейшие люди. Может быть они гениальнейшие программисты. Но они абсолютные профаны в лингвистике, а кроме того просто безответственные люди. Беруться за то, в чем ничего не смыслят, и более того, даже не пытаются разобраться в этих, новых для них предметах.
По-хорошему, весь современный юникод надо было бы засунуть в помойную корзину и начать разрабатывать стандарт с нуля.
Vouk1 Цитата: Эх... маньячество, чтоб его....
Мне кажется, все участники этой ветки маньяки. И это хорошо
Прогресс ровно таким маньячеством и движется.