Выпуск #5/2016
В.Кулагин, А.Иванов, А.Газин, Б.Ахметов
Циклические континуально-квантовые вычисления: усиление мощности критерия хи-квадрат на малых выборках
Циклические континуально-квантовые вычисления: усиление мощности критерия хи-квадрат на малых выборках
Просмотры: 2816
Показано, что выходные данные критерия хи-квадрат Пирсона на малых выборках имеют конечное число состояний и их нельзя рассматривать как непрерывные. Предложен способ перехода от классических статистических критериев континуальной проверки гипотез к анализу дискретного варианта критерия хи-квадрат. Приведены примеры дискретных спектров критерия хи-квадрат для нормального и равномерного законов распределения значений. Дана оценка роста мощности дискретного критерия хи-квадрат по отношению к его непрерывному варианту. Проведен расчет числа циклов континуально-квантовой вычислительной машины, усиливающей мощность критерия хи-квадрат Пирсона.
Теги: power amplification chi-square test quantum computing spectral analysis statistical hypothesis testing квантовые вычисления спектральный анализ статистическая проверка гипотез усиление мощности критерия хи-квадрат
СТАТИСТИЧЕСКИЙ АНАЛИЗ
БИОМЕТРИЧЕСКИХ ДАННЫХ
Сегодня активно идут процессы информатизации общества. Мы вынуждены помнить множество паролей доступа к своим личным кабинетам. При этом, используемые пароли короткие, а потому ненадежные, так как сложно запомнить длинные случайные цифровые последовательности. Снять эту проблему позволяют преобразователи биометрии в код. США, Канада и страны Евросоюза идут по пути использования так называемых "нечетких экстракторов" [1–3]. Россия [4] и Казахстан [5] развивают технологию нейросетевых преобразователей биометрических данных в код ключа доступа. "Нечеткие экстракторы" по всем характеристикам (вероятности ошибок первого и второго рода, стойкость к извлечению знаний из преобразователя) уступают нейросетевым преобразователям [6].
Выигрыш нейросетевых технологий обусловлен процедурой обучения искусственной нейронной сети, учитывающей особенности только конкретного образа. Обученная нейронная сеть очень хорошо распознает только один конкретный биометрический образ. По сути дела, во время обучения под каждый конкретный биометрический образ создается своя нейронная сеть, эквивалентная некоторому уникальному самокорректирующемуся коду, учитывающему индивидуальные вероятности ошибок в каждом биометрическом параметре и в каждом разряде восстанавливаемого кода. Если бы "нечеткие экстракторы" синтезировали под каждый биометрический образ свой специализированный избыточный код, то скорее всего корректирующая способность нейронных сетей и "нечетких экстракторов" были бы сопоставимыми.
Независимо от того, какая технология используется, биометрические данные (примеры биометрического образа) должны быть достоверными (не должны содержать грубых ошибок). Один из способов контроля за появлением грубых ошибок в обучающей или тестовой выборке состоит в их проверке на нормальность распределения значений. Для этой цели можно использовать критерий хи-квадрат Пирсона [7, 8], но при этом придется применять 200 и более примеров. Столь значительный объем данных для биометрии неприемлем. Как правило обучение и тестирование нейросетевых преобразователей биометрических данных выполняют на выборках менее 20 примеров биометрического образа.
Хорошо известно, что критерий хи-квадрат плохо работает на малых выборках, поэтому рекомендуют использовать более мощный критерий Шапиро-Уилка [7, 9]. В статье мы попытаемся показать то, что для критерия хи-квадрат может быть создан циклический континуально-квантовый вычислитель, многократно усиливающий мощность этого статистического критерия. То есть потенциал классического критерия хи-квадрат далеко не исчерпан. Так называемые "квантовые компьютеры" становятся применимыми для решения совершенно разных математических задач, в том числе математической статистики.
СИНТЕЗ КВАНТОВЫХ
ВЫЧИСЛИТЕЛЕЙ, ИСПОЛЬЗУЮЩИХ УРАВНЕНИЕ ШРЕДИНГЕРА
В начале прошлого века выяснилось, что электроны в атомах вещества одновременно обладают волновыми и корпускулярными свойствами [10]. Модель атома Бора предполагает, что электроны вращаются вокруг положительно заряженного ядра по стационарным орбитам, излучая или поглощая кванты энергии только при переходе с одной на другую. Шредингер предложил вероятностное описание состояния электронов в атоме в виде волновой функции, квадрат модуля которой характеризует плотность вероятности нахождения частицы в определенной области пространства. На рис.1 графически показаны решения волнового уравнения для разных квантовых чисел, а также линейчатый спектр атома водорода.
Электронные облака атома водорода для разных значений волновых чисел по своей сути являются некоторыми континуальными портретами так называемого "кота Шредингера". Интерес к "котам Шредингера" огромен [11], так как наш соотечественник Юрий Манин в 1980 году обосновал теоретическую возможность создания из них квантовых компьютеров огромной вычислительной мощности. Позднее несколько математиков предложили алгоритмы для квантовых компьютеров Шредингера – Манина, позволяющие решать задачи экспоненциальной вычислительной сложности за приемлемые интервалы времени. Например, Питер Шор в 1994 году создал алгоритм для поиска простых чисел, или решения обратной криптографической задачи для алгоритма шифрования фирмы RSA. Практически во всех развитых странах ведутся работы по созданию квантовых компьютеров, в России такие исследования координирует "Российский квантовый центр" (www.rqc.ru).
Подчеркнем, насколько принципиально важна терминология. Дело в том, что "квантовый компьютер Шредингера – Манина" – не совсем верное название нового класса вычислительных машин. Это удобный сленг, позволяющий говорить обычным языком об очень сложных процессах. Более длинным, но куда более верным является другое название – "континуально-квантовый компьютер Шредингера – Манина". Этот класс машин создается на базе использования континуально-квантовых эффектов или корпускулярно-волнового дуализма электронов внутри атомов, описываемых уравнением Шредингера. Внутри любого "кота Шредингера" обязательно существуют не наблюдаемые снаружи континуумы – электронные облака, а также квантователи этих континуумов (промежутки между электронными облаками). Проделки "кота Шредингера" становятся наблюдаемыми только в моменты квантования его внутренних континуумов, когда электрон "перескакивает" из одного электронного облака в другое. Только в этот момент "кот Шредингера" излучает или поглощает кванты света, порождая спектральные линии изменения внутреннего состояния электронных континуумов атома, изображенные в нижней части рис.1.
Покажем, что кроме уравнения Шредингера есть и другие, описывающие континуально-квантовые эффекты, на которых можно строить соответствующие циклические континуально-квантовые (многомерные аналого-цифровые) вычислительные машины.
КОНТИНУАЛЬНО-КВАНТОВЫЕ ЭФФЕКТЫ, ВОЗНИКАЮЩИЕ
В УРАВНЕНИЯХ ПИРСОНА
ПРИ АНАЛИЗЕ МАЛЫХ ВЫБОРОК
Пирсон предложил критерий хи-квадрат в 1900 году. Популярность этого критерия обусловлена тем, что для него создано аналитическое описание плотности распределения значений. Рассмотрим систему двух статистических уравнений Пирсона [7, 8]:
form01.ai (1)
где N – число опытов в исследуемой выборке, k – число столбцов в гистограмме эмпирических данных, bi – число опытов, попавших в i-тый столбец гистограммы, Pi – теоретическая вероятность попадания в i-тый интервал гистограммы при правильности проверяемой гипотезы о законе распределения значений данных проверяемой выборки, m – число степеней свободы непрерывного закона распределения значений для критерия хи-квадрат.
Отметим континуально-квантовый характер системы уравнений (1) для малых выборок биометрических данных. Пирсон имел в виду то, что проверяемый закон распределения непрерывен (является континуумом), однако континуум не может быть точно описан через представление малым числом точек. При конечном числе примеров континуум функции вероятности приходится представлять монотонной ступенчатой функцией, а континуум непрерывной плотности распределения значений – эмпирической гистограммой. Примеры таких представлений приведены на рис.2.
Очевидно, что попытки описать полноценный континуум конечным числом примеров всегда приводит к операции квантования (ступенчатое приближение), приводящей к появлению шумов квантования. На рис.2в, г показаны кривые ошибки квантования (шума квантования). С ростом числа примеров в тестовой выборке амплитуда скачков шума квантования монотонно падает, а частота скачков монотонно растет. На нижней части рис.2 хорошо видно, что шумы квантования критерия хи-квадрат для гистограммы, состоящей из четырех столбцов (рис.2г) имеют большую амплитуду и меньшую частоту в сравнении с шумами квантования функции вероятности (рис.2в). Как следствие, мощность критерия Крамера-фон Мезиса на малых выборках оказывается выше, чем мощность критерия хи-квадрат Пирсона [12]. Более того, мощность любого статистического критерия монотонно увеличивается с ростом размеров тестовой выборки, однако у каждого критерия свой показатель роста мощности. Эту ситуацию иллюстрирует рис.3, где даны линии уменьшения равных значений вероятностей ошибок первого и второго рода P1 = P2 = PЕЕ для нескольких статистических критериев. В первом приближении [12] мощности разных статистических критериев можно сравнивать через значения отрицательного логарифма вероятности ошибок P1 = P2 = PЕЕ.
Оценить мощность того или иного статистического критерия достаточно просто через применение имитационного моделирования. Воспользуемся программным генератором псевдослучайных чисел с нормальным и равномерным законом распределения значений. Получая от таких генераторов 1 млн. выборок по 16 отсчетов, мы можем для каждой выборки построить гистограмму из шести столбцов с равными интервалами – δх. При этом ширину столбцов гистограммы выбираем следующим образом:
form02.ai. (2)
Тогда край первого левого столбца гистограммы всегда будет совпадать с минимальным значением – min(x) в каждой выборке, а правый край последнего столбца – с максимальным значением в выборке – max(x). Получившиеся при таком численном эксперименте функции распределения значений отображены на рис.4. Видно, что данные имеют существенную случайную составляющую, которую экспериментаторы ошибочно рассматривали как следствие ограниченного объема численного эксперимента в 1 млн. повторений. То, что причина не в этом, легко проверить, увеличивая число повторений в несколько раз. Многократный рост числа повторений не приводит к исчезновению наблюдаемых детерминированных и случайных колебаний.
Еще один важный факт – появление дефекта размерности детерминированной составляющей плотности распределения значений – δm. Так, согласно общепринятой теории, плотность нормального закона распределения значений при проверке на нормальность по критерию хи-квадрат должна описываться гамма-функцией (второе уравнение в системе (1)) с числом степеней m = k – 3 = 6 – 3 = 3. Наш численный эксперимент дает m = 4,8. Плотность распределения хи-квадрат с дробным числом степеней свободы m = 4,8 на рис.4 дана темной линией. Наблюдается очевидный дефект числа степеней свободы δm = 1,8 или δm/m = 60%. Столь значительное расхождение теории и практики может привести к далеко идущим последствиям. Куда меньший дефект массы в 0,076%, присутствующий при распаде урана-236, привел к созданию ядерного оружия.
ДИСКРЕТНЫЙ СПЕКТР ВЫХОДНЫХ СОСТОЯНИЙ "МОЛЕКУЛЫ ПИРСОНА"
Причиной дефекта числа степеней свободы является то, что на малых выборках критерий хи-квадрат имеет дискретный спектр конечного числа состояний. На это ранее не обращали внимания, поскольку хи-квадрат считался непригодным для малых выборок. Чтобы убедиться в дискретности спектра, необходимо осуществить синхронизацию столбцов гистограммы и математического ожидания данных в тестовой выборке. Для этой цели ширину столбцов гистограммы выберем пропорционально стандартному отклонению:
form03.ai. (3)
Положение столбцов гистограммы привяжем к промежутку между третьим и четвертым столбцами [11, 13]:
form04.ai. (4)
Выполнение условий (3) и (4) приводит к превращению непрерывного спектра (см. рис.4) в дискретный (рис.5).
После перехода от привычного всем непрерывного спектра состояний критерия хи-квадрат к его дискретному отображению есть основания рассматривать уравнения Пирсона (1), как некоторый аналог одного из решений уравнения Шредингера. Оба описывают эффекты, которые могут быть использованы для создания континуально-квантовых вычислительных машин. В такой постановке задачи можно говорить о "молекуле Пирсона" [14], порождающей спектр уникальных выходных состояний (конечного числа значений критерия хи-квадрат Пирсона). Так же как молекула водорода порождает легко наблюдаемый дискретный спектр частот поглощения (излучения), "молекула Пирсона" дает легко наблюдаемый конечный спектр выходных состояний значений критерия хи-квадрат.
Естественно, аналогия между молекулой водорода и искусственной "молекулой Пирсона" весьма приближенная, однако она верно отражает подобие объектов сравнения. Для молекулы водорода переход из одного континуума положения электрона в электронном облаке (см. рис.1) в другой порождает легко наблюдаемый квант света. Для искусственной "молекулы Пирсона" попадание некоторого числа опытов в несколько соседних континуумов, соответствующих разным столбцам гистограммы, порождает единственное число в дискретном спектре состояний критерия хи-квадрат. Любое изменение числа точек в интервалах гистограммы дает свое собственное состояние критерия хи-квадрат, а между дискретными состояниями выходного спектра нет промежуточных значений.
ИНФОРМАТИВНОСТЬ
КОМПОНЕНТ ВЫХОДНОГО
СПЕКТРА "МОЛЕКУЛЫ ПИРСОНА"
Подчеркнем, что положение пиков выходного спектра состояний "молекулы Пирсона" целиком и полностью определяется настройкой параметров квантователя (первого уравнения системы (1)). Изменение плотности распределения входных континуумов не влияет на положение спектральных линий, они только меняют свою интенсивность. Причем как в сторону усиления, так и уменьшения разницы интегральных спектров рис.4.
Из рис.5 видно, что спектральные компоненты χ2 = {2,00; 2,36; 2,44; 2,66; 2,72; …} имеют бóльшую высоту для нормального закона распределения значений континуума внутренних состояний "молекулы Пирсона" (толстые линии). Рядом с этими состояниями спектра находятся противоположные – χ2 = {1,38; 1,74; 2,96; 3,68; 3,78; …},
для которых амплитуда компонент спектра выше, если внутренний континуум имеет равномерный закон распределения значений (тонкие линии). Так же присутствуют нейтральные компоненты спектра χ2 = {1,10; 1,82; 2,90; …}, для которых высота столбцов толстых и тонких линий примерно одинакова. Эта группа компонент обладает почти нулевой информативностью, опираясь на эти спектральные составляющие нельзя идентифицировать вид закона распределения значений.
Первая группа спектральных линий обладает "положительной" информативностью, а вторая – "отрицательной". Спектральные составляющие двух групп подавляют друг друга при интегрировании (растет вероятность ошибок PEE до величины 0,307). Для существенного усиления мощности интегрального варианта критерия хи-квадрат (PEE << 0,307) необходимо отдельно интегрировать компоненты спектра с "отрицательной" и "положительной" информативностью. Формально это можно сделать путем обучения двух искусственных нейронных сетей распознаванию спектра нормального закона первой нейронной сетью и спектра равномерного закона распределения второй сетью нейронов.
КАК ПОСТРОИТЬ
ЦИКЛИЧЕСКУЮ КОНТИНУАЛЬНО-
КВАНТОВУЮ МАШИНУ ПИРСОНА, РАБОТАЮЩУЮ НА МАЛЫХ ВЫБОРКАХ
Спектральный анализ на сегодняшний день – важнейший инструмент идентификации веществ, присутствующих в пробах в микроскопических объемах. Например, благодаря спектральному анализу, криминалисты способны доказать, что на весах взвешивали золотой песок. Достаточно смочить ватку спиртом, протереть ею чашу весов, затем сжечь ватку и изучить спектр пламени горящей ваты. Наличие спектральных линий золота однозначно укажет на факт его микроскопического присутствия.
Проведем аналогию: чтобы заставить говорить "котов Шредингера", сделанных из золота, пришлось бы их сжечь. А это – не выход. Мало заставить работать тот или иной континуально-квантовый вычислитель, важно наладить его продолжительное функционирование: обеспечить достаточное время синхронной работы молекул вычислителя [11] и разработать надежный механизм считывания результата вычислений.
Для машины Пирсона особенно важна цикличность. Если мы имеем выборку из 16 примеров и осуществляем вычисления по формуле Пирсона (первое уравнение системы (1)), то получаем результат с равными вероятностями ошибок P1 = P2 = PЕЕ = 0,307 (см. рис.4) при пороге принятия решений χ2 = 5,75.
При большом числе данных, например, 16 независимых выборок по 16 примеров (всего 256 опытов), вероятность ошибки мала:
P1=P2=PЕЕ=(0,307)16≈0,0000000062. (5)
К сожалению, добиться этого нельзя, если выборка состоит всего из 21 опыта. Тем не менее, можно осуществить 20 349 не повторяющихся подвыборок по 16 опытов из исходной выборки в 21 опыт. В это число войдут сильно коррелированные выборки, различающиеся между собой всего 1, 2, 3, …, 6-ю опытами. Их число составит:
Тогда в остатке будет 20 349 – 14 892 = 5 475 выборок по 16 опытов с относительно низкой взаимной корреляцией данных, находящейся в интервале от 0,47 до 0,76. Если бы корреляция была нулевой, то вероятность ошибок стала бы астрономически малой величиной (0,307)5475. Наличие существенных корреляционных связей данных в 5 475 выборках не позволяет добиться столь малых величин вероятности ошибок. Тем не менее, циклический 5 475-ти кратный запуск континуально-квантовой машины Пирсона должен помочь значительно увеличить мощность критерия хи-квадрат.
Предположительно, первая полноценная континуально-квантовая машина Пирсона с числом циклов от 16 до 16 000 будет написана на языке промышленного программирования C++ к концу 2016 года в Пензенском государственном университете. То есть, в России к концу 2016 года появятся две циклические континуально-квантовые вычислительные машины для решения двух совершенно разных задач. Первая – для извлечения знаний из искусственных нейронных сетей преобразователей биометрических данных [11] и из "нечетких экстракторов" [15]. Вторая – для усиления мощности критерия хи-квадрат от 3 до 300 раз на малых выборках. Появление машины Пирсона сделает критерий хи-квадрат применимым для малых выборок и самым мощным из всех существующих критериев. Для альтернативных критериев типа Крамера-фон Мезиса, Шапиро-Уилка и др. построить циклический континуально-квантовый усилитель пока не удается.
ЗАКЛЮЧЕНИЕ
То, что во всем мире огромное внимание уделяется созданию континуально-квантовых вычислителей Шредингера – Манина, неоспоримо. Однако, работы в этом направлении идут не так быстро, как хотелось бы. Основная задача нашей статьи – попытка обратить внимание научно-технической общественности на то, что континуально-квантовые эффекты может описывать не только уравнение Шредингера. Система уравнений Пирсона так же способна порождать и описывать похожие континуально-квантовые эффекты, а, следовательно, право на существование (по аналогии с молекулой водорода и др.) имеет понятие "молекула Пирсона". Построенная на этой основе континуально-квантовая циклическая машина Пирсона в ближайшем будущем сыграет важную роль, в том числе, в появлении квантовой математической статистики, уточняющей статус ряда статистических критериев, сегодня считающихся непрерывными.
Реальных опытов, получаемых на практике, всегда оказывается мало. Экспериментаторы-практики всегда хотят иметь больше статистики, но не всегда это возможно. Мы попытались показать, что с помощью континуально-квантовых циклических вычислительных машин вполне реально делать надежные статистические выводы на малых выборках.
Отметим, что континуально-квантовая машина Пирсона программно реализуется на обычной вычислительной технике. Это существенно снижает стоимость исследований. По нашему мнению, есть много уравнений, порождающих и описывающих континуально-квантовые эффекты. Каждое может быть использовано при создании своей специализированной континуально-квантовой вычислительной машины для решения некоторой практически важной задачи.
ЛИТЕРАТУРА:
Dodis Y., Reyzin L., Smith A. Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy // Proc. EUROCRYPT. 2004. April 13.
Р. 523–540.
Monrose F., Reiter M., Li Q., Wetzel S. Cryptographic key generation from voice. // Proc. IEEE Symp. on Security and Privacy. 2001. Р. 202–213.
Ramírez-Ruiz J., Pfeiffer C., Nolazco-Flores J. Cryptographic Keys Generation Using FingerCodes. // Advances in Artificial Intelligence – IBERAMIA-SBIA 2006 (LNCS 4140). 2006. Р. 178–187,
Язов Ю.К. и др. Нейросетевая защита персональных биометрических данных // М.: Радиотехника, 2012. 157 с. IBSN 978-5-88070-044-8.
Ахметов Б.С., Иванов А.И., Фунтиков В.А., Безяев А.В., Малыгина Е.А. Технология использования больших нейронных сетей для преобразования нечетких биометрических данных в код ключа доступа // Казахстан: ТОО "Издательство LEM", 2014 г. 144 c., http://portal.kazntu.kz/files/publicate/2014-06-27-11940.pdf.
Иванов А.И. Сопоставительный анализ показателей конкурирующих технологий биометрико-криптографической аутентификации личности // Защита информации. ИНСАЙД. 2014. № 3. 2014. С. 32–39.
Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников // M.: ФИЗМАТЛИТ, 2006. 816 c.
Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа χ2 // Госстандарт России. Москва, 2001.
Р 50.1.037-2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии // Госстандарт России. Москва, 2002. 123 с.
Шпольский Э.В. Атомная физика. Том 2. Основы квантовой механики и строение электронной оболочки атома. 4-е изд. // М.: Наука, 1974.
Квантовые компьютеры: прошлое, настоящее, будущее // Защита информации. INSAID. 2015. № 2. С. 29–32.
Иванов А. И., Газин А.И., Вятчанин С.Е., Перфилов К.А. Сравнение мощности хи-квадрат критерия и критерия Крамера-фон Мезиса для малых тестовых выборок биометрических данных // Надежность и качество сложных систем. 2016. № 2. С. 32–37.
Ахметов Б.Б., Иванов А.И., Серикова Н.И., Фунтикова Ю.В. Дискретный характер закона распределения хи-квадрат критерия для малых тестовых выборок // Вестник Национальной академии наук Республики Казахстан. Алматы. 2015. № 1. С. 17–25.
Akhmetov B., Ivanov A., Gilmutdinov A., Bezyaev A., Funtikova Y. The Family of Chi-Square Molecules Pearson: Software-Continuum Quantum Accelerators of High-Dimensional Calculations // 15th International Conference on Control, Automation and Systems (ICCAS 2015) to be held on October 13–16, 2015 in BEXCO, Busan, Korea (TP03 – Signals and Intelligent Systems, report № TP03-78, october-15).
Иванов А.И. Нечеткие экстракторы: проблема использования в биометрии и криптографии // Первая миля. 2015. № 1. С. 40–47.
* Геологический институт РАН;
** Институт экспериментальной минералогии РАН;
*** Институт геологии рудных месторождений, петрографии, минералогии и геохимии РАН;
**** "Ренишоу"
БИОМЕТРИЧЕСКИХ ДАННЫХ
Сегодня активно идут процессы информатизации общества. Мы вынуждены помнить множество паролей доступа к своим личным кабинетам. При этом, используемые пароли короткие, а потому ненадежные, так как сложно запомнить длинные случайные цифровые последовательности. Снять эту проблему позволяют преобразователи биометрии в код. США, Канада и страны Евросоюза идут по пути использования так называемых "нечетких экстракторов" [1–3]. Россия [4] и Казахстан [5] развивают технологию нейросетевых преобразователей биометрических данных в код ключа доступа. "Нечеткие экстракторы" по всем характеристикам (вероятности ошибок первого и второго рода, стойкость к извлечению знаний из преобразователя) уступают нейросетевым преобразователям [6].
Выигрыш нейросетевых технологий обусловлен процедурой обучения искусственной нейронной сети, учитывающей особенности только конкретного образа. Обученная нейронная сеть очень хорошо распознает только один конкретный биометрический образ. По сути дела, во время обучения под каждый конкретный биометрический образ создается своя нейронная сеть, эквивалентная некоторому уникальному самокорректирующемуся коду, учитывающему индивидуальные вероятности ошибок в каждом биометрическом параметре и в каждом разряде восстанавливаемого кода. Если бы "нечеткие экстракторы" синтезировали под каждый биометрический образ свой специализированный избыточный код, то скорее всего корректирующая способность нейронных сетей и "нечетких экстракторов" были бы сопоставимыми.
Независимо от того, какая технология используется, биометрические данные (примеры биометрического образа) должны быть достоверными (не должны содержать грубых ошибок). Один из способов контроля за появлением грубых ошибок в обучающей или тестовой выборке состоит в их проверке на нормальность распределения значений. Для этой цели можно использовать критерий хи-квадрат Пирсона [7, 8], но при этом придется применять 200 и более примеров. Столь значительный объем данных для биометрии неприемлем. Как правило обучение и тестирование нейросетевых преобразователей биометрических данных выполняют на выборках менее 20 примеров биометрического образа.
Хорошо известно, что критерий хи-квадрат плохо работает на малых выборках, поэтому рекомендуют использовать более мощный критерий Шапиро-Уилка [7, 9]. В статье мы попытаемся показать то, что для критерия хи-квадрат может быть создан циклический континуально-квантовый вычислитель, многократно усиливающий мощность этого статистического критерия. То есть потенциал классического критерия хи-квадрат далеко не исчерпан. Так называемые "квантовые компьютеры" становятся применимыми для решения совершенно разных математических задач, в том числе математической статистики.
СИНТЕЗ КВАНТОВЫХ
ВЫЧИСЛИТЕЛЕЙ, ИСПОЛЬЗУЮЩИХ УРАВНЕНИЕ ШРЕДИНГЕРА
В начале прошлого века выяснилось, что электроны в атомах вещества одновременно обладают волновыми и корпускулярными свойствами [10]. Модель атома Бора предполагает, что электроны вращаются вокруг положительно заряженного ядра по стационарным орбитам, излучая или поглощая кванты энергии только при переходе с одной на другую. Шредингер предложил вероятностное описание состояния электронов в атоме в виде волновой функции, квадрат модуля которой характеризует плотность вероятности нахождения частицы в определенной области пространства. На рис.1 графически показаны решения волнового уравнения для разных квантовых чисел, а также линейчатый спектр атома водорода.
Электронные облака атома водорода для разных значений волновых чисел по своей сути являются некоторыми континуальными портретами так называемого "кота Шредингера". Интерес к "котам Шредингера" огромен [11], так как наш соотечественник Юрий Манин в 1980 году обосновал теоретическую возможность создания из них квантовых компьютеров огромной вычислительной мощности. Позднее несколько математиков предложили алгоритмы для квантовых компьютеров Шредингера – Манина, позволяющие решать задачи экспоненциальной вычислительной сложности за приемлемые интервалы времени. Например, Питер Шор в 1994 году создал алгоритм для поиска простых чисел, или решения обратной криптографической задачи для алгоритма шифрования фирмы RSA. Практически во всех развитых странах ведутся работы по созданию квантовых компьютеров, в России такие исследования координирует "Российский квантовый центр" (www.rqc.ru).
Подчеркнем, насколько принципиально важна терминология. Дело в том, что "квантовый компьютер Шредингера – Манина" – не совсем верное название нового класса вычислительных машин. Это удобный сленг, позволяющий говорить обычным языком об очень сложных процессах. Более длинным, но куда более верным является другое название – "континуально-квантовый компьютер Шредингера – Манина". Этот класс машин создается на базе использования континуально-квантовых эффектов или корпускулярно-волнового дуализма электронов внутри атомов, описываемых уравнением Шредингера. Внутри любого "кота Шредингера" обязательно существуют не наблюдаемые снаружи континуумы – электронные облака, а также квантователи этих континуумов (промежутки между электронными облаками). Проделки "кота Шредингера" становятся наблюдаемыми только в моменты квантования его внутренних континуумов, когда электрон "перескакивает" из одного электронного облака в другое. Только в этот момент "кот Шредингера" излучает или поглощает кванты света, порождая спектральные линии изменения внутреннего состояния электронных континуумов атома, изображенные в нижней части рис.1.
Покажем, что кроме уравнения Шредингера есть и другие, описывающие континуально-квантовые эффекты, на которых можно строить соответствующие циклические континуально-квантовые (многомерные аналого-цифровые) вычислительные машины.
КОНТИНУАЛЬНО-КВАНТОВЫЕ ЭФФЕКТЫ, ВОЗНИКАЮЩИЕ
В УРАВНЕНИЯХ ПИРСОНА
ПРИ АНАЛИЗЕ МАЛЫХ ВЫБОРОК
Пирсон предложил критерий хи-квадрат в 1900 году. Популярность этого критерия обусловлена тем, что для него создано аналитическое описание плотности распределения значений. Рассмотрим систему двух статистических уравнений Пирсона [7, 8]:
form01.ai (1)
где N – число опытов в исследуемой выборке, k – число столбцов в гистограмме эмпирических данных, bi – число опытов, попавших в i-тый столбец гистограммы, Pi – теоретическая вероятность попадания в i-тый интервал гистограммы при правильности проверяемой гипотезы о законе распределения значений данных проверяемой выборки, m – число степеней свободы непрерывного закона распределения значений для критерия хи-квадрат.
Отметим континуально-квантовый характер системы уравнений (1) для малых выборок биометрических данных. Пирсон имел в виду то, что проверяемый закон распределения непрерывен (является континуумом), однако континуум не может быть точно описан через представление малым числом точек. При конечном числе примеров континуум функции вероятности приходится представлять монотонной ступенчатой функцией, а континуум непрерывной плотности распределения значений – эмпирической гистограммой. Примеры таких представлений приведены на рис.2.
Очевидно, что попытки описать полноценный континуум конечным числом примеров всегда приводит к операции квантования (ступенчатое приближение), приводящей к появлению шумов квантования. На рис.2в, г показаны кривые ошибки квантования (шума квантования). С ростом числа примеров в тестовой выборке амплитуда скачков шума квантования монотонно падает, а частота скачков монотонно растет. На нижней части рис.2 хорошо видно, что шумы квантования критерия хи-квадрат для гистограммы, состоящей из четырех столбцов (рис.2г) имеют большую амплитуду и меньшую частоту в сравнении с шумами квантования функции вероятности (рис.2в). Как следствие, мощность критерия Крамера-фон Мезиса на малых выборках оказывается выше, чем мощность критерия хи-квадрат Пирсона [12]. Более того, мощность любого статистического критерия монотонно увеличивается с ростом размеров тестовой выборки, однако у каждого критерия свой показатель роста мощности. Эту ситуацию иллюстрирует рис.3, где даны линии уменьшения равных значений вероятностей ошибок первого и второго рода P1 = P2 = PЕЕ для нескольких статистических критериев. В первом приближении [12] мощности разных статистических критериев можно сравнивать через значения отрицательного логарифма вероятности ошибок P1 = P2 = PЕЕ.
Оценить мощность того или иного статистического критерия достаточно просто через применение имитационного моделирования. Воспользуемся программным генератором псевдослучайных чисел с нормальным и равномерным законом распределения значений. Получая от таких генераторов 1 млн. выборок по 16 отсчетов, мы можем для каждой выборки построить гистограмму из шести столбцов с равными интервалами – δх. При этом ширину столбцов гистограммы выбираем следующим образом:
form02.ai. (2)
Тогда край первого левого столбца гистограммы всегда будет совпадать с минимальным значением – min(x) в каждой выборке, а правый край последнего столбца – с максимальным значением в выборке – max(x). Получившиеся при таком численном эксперименте функции распределения значений отображены на рис.4. Видно, что данные имеют существенную случайную составляющую, которую экспериментаторы ошибочно рассматривали как следствие ограниченного объема численного эксперимента в 1 млн. повторений. То, что причина не в этом, легко проверить, увеличивая число повторений в несколько раз. Многократный рост числа повторений не приводит к исчезновению наблюдаемых детерминированных и случайных колебаний.
Еще один важный факт – появление дефекта размерности детерминированной составляющей плотности распределения значений – δm. Так, согласно общепринятой теории, плотность нормального закона распределения значений при проверке на нормальность по критерию хи-квадрат должна описываться гамма-функцией (второе уравнение в системе (1)) с числом степеней m = k – 3 = 6 – 3 = 3. Наш численный эксперимент дает m = 4,8. Плотность распределения хи-квадрат с дробным числом степеней свободы m = 4,8 на рис.4 дана темной линией. Наблюдается очевидный дефект числа степеней свободы δm = 1,8 или δm/m = 60%. Столь значительное расхождение теории и практики может привести к далеко идущим последствиям. Куда меньший дефект массы в 0,076%, присутствующий при распаде урана-236, привел к созданию ядерного оружия.
ДИСКРЕТНЫЙ СПЕКТР ВЫХОДНЫХ СОСТОЯНИЙ "МОЛЕКУЛЫ ПИРСОНА"
Причиной дефекта числа степеней свободы является то, что на малых выборках критерий хи-квадрат имеет дискретный спектр конечного числа состояний. На это ранее не обращали внимания, поскольку хи-квадрат считался непригодным для малых выборок. Чтобы убедиться в дискретности спектра, необходимо осуществить синхронизацию столбцов гистограммы и математического ожидания данных в тестовой выборке. Для этой цели ширину столбцов гистограммы выберем пропорционально стандартному отклонению:
form03.ai. (3)
Положение столбцов гистограммы привяжем к промежутку между третьим и четвертым столбцами [11, 13]:
form04.ai. (4)
Выполнение условий (3) и (4) приводит к превращению непрерывного спектра (см. рис.4) в дискретный (рис.5).
После перехода от привычного всем непрерывного спектра состояний критерия хи-квадрат к его дискретному отображению есть основания рассматривать уравнения Пирсона (1), как некоторый аналог одного из решений уравнения Шредингера. Оба описывают эффекты, которые могут быть использованы для создания континуально-квантовых вычислительных машин. В такой постановке задачи можно говорить о "молекуле Пирсона" [14], порождающей спектр уникальных выходных состояний (конечного числа значений критерия хи-квадрат Пирсона). Так же как молекула водорода порождает легко наблюдаемый дискретный спектр частот поглощения (излучения), "молекула Пирсона" дает легко наблюдаемый конечный спектр выходных состояний значений критерия хи-квадрат.
Естественно, аналогия между молекулой водорода и искусственной "молекулой Пирсона" весьма приближенная, однако она верно отражает подобие объектов сравнения. Для молекулы водорода переход из одного континуума положения электрона в электронном облаке (см. рис.1) в другой порождает легко наблюдаемый квант света. Для искусственной "молекулы Пирсона" попадание некоторого числа опытов в несколько соседних континуумов, соответствующих разным столбцам гистограммы, порождает единственное число в дискретном спектре состояний критерия хи-квадрат. Любое изменение числа точек в интервалах гистограммы дает свое собственное состояние критерия хи-квадрат, а между дискретными состояниями выходного спектра нет промежуточных значений.
ИНФОРМАТИВНОСТЬ
КОМПОНЕНТ ВЫХОДНОГО
СПЕКТРА "МОЛЕКУЛЫ ПИРСОНА"
Подчеркнем, что положение пиков выходного спектра состояний "молекулы Пирсона" целиком и полностью определяется настройкой параметров квантователя (первого уравнения системы (1)). Изменение плотности распределения входных континуумов не влияет на положение спектральных линий, они только меняют свою интенсивность. Причем как в сторону усиления, так и уменьшения разницы интегральных спектров рис.4.
Из рис.5 видно, что спектральные компоненты χ2 = {2,00; 2,36; 2,44; 2,66; 2,72; …} имеют бóльшую высоту для нормального закона распределения значений континуума внутренних состояний "молекулы Пирсона" (толстые линии). Рядом с этими состояниями спектра находятся противоположные – χ2 = {1,38; 1,74; 2,96; 3,68; 3,78; …},
для которых амплитуда компонент спектра выше, если внутренний континуум имеет равномерный закон распределения значений (тонкие линии). Так же присутствуют нейтральные компоненты спектра χ2 = {1,10; 1,82; 2,90; …}, для которых высота столбцов толстых и тонких линий примерно одинакова. Эта группа компонент обладает почти нулевой информативностью, опираясь на эти спектральные составляющие нельзя идентифицировать вид закона распределения значений.
Первая группа спектральных линий обладает "положительной" информативностью, а вторая – "отрицательной". Спектральные составляющие двух групп подавляют друг друга при интегрировании (растет вероятность ошибок PEE до величины 0,307). Для существенного усиления мощности интегрального варианта критерия хи-квадрат (PEE << 0,307) необходимо отдельно интегрировать компоненты спектра с "отрицательной" и "положительной" информативностью. Формально это можно сделать путем обучения двух искусственных нейронных сетей распознаванию спектра нормального закона первой нейронной сетью и спектра равномерного закона распределения второй сетью нейронов.
КАК ПОСТРОИТЬ
ЦИКЛИЧЕСКУЮ КОНТИНУАЛЬНО-
КВАНТОВУЮ МАШИНУ ПИРСОНА, РАБОТАЮЩУЮ НА МАЛЫХ ВЫБОРКАХ
Спектральный анализ на сегодняшний день – важнейший инструмент идентификации веществ, присутствующих в пробах в микроскопических объемах. Например, благодаря спектральному анализу, криминалисты способны доказать, что на весах взвешивали золотой песок. Достаточно смочить ватку спиртом, протереть ею чашу весов, затем сжечь ватку и изучить спектр пламени горящей ваты. Наличие спектральных линий золота однозначно укажет на факт его микроскопического присутствия.
Проведем аналогию: чтобы заставить говорить "котов Шредингера", сделанных из золота, пришлось бы их сжечь. А это – не выход. Мало заставить работать тот или иной континуально-квантовый вычислитель, важно наладить его продолжительное функционирование: обеспечить достаточное время синхронной работы молекул вычислителя [11] и разработать надежный механизм считывания результата вычислений.
Для машины Пирсона особенно важна цикличность. Если мы имеем выборку из 16 примеров и осуществляем вычисления по формуле Пирсона (первое уравнение системы (1)), то получаем результат с равными вероятностями ошибок P1 = P2 = PЕЕ = 0,307 (см. рис.4) при пороге принятия решений χ2 = 5,75.
При большом числе данных, например, 16 независимых выборок по 16 примеров (всего 256 опытов), вероятность ошибки мала:
P1=P2=PЕЕ=(0,307)16≈0,0000000062. (5)
К сожалению, добиться этого нельзя, если выборка состоит всего из 21 опыта. Тем не менее, можно осуществить 20 349 не повторяющихся подвыборок по 16 опытов из исходной выборки в 21 опыт. В это число войдут сильно коррелированные выборки, различающиеся между собой всего 1, 2, 3, …, 6-ю опытами. Их число составит:
Тогда в остатке будет 20 349 – 14 892 = 5 475 выборок по 16 опытов с относительно низкой взаимной корреляцией данных, находящейся в интервале от 0,47 до 0,76. Если бы корреляция была нулевой, то вероятность ошибок стала бы астрономически малой величиной (0,307)5475. Наличие существенных корреляционных связей данных в 5 475 выборках не позволяет добиться столь малых величин вероятности ошибок. Тем не менее, циклический 5 475-ти кратный запуск континуально-квантовой машины Пирсона должен помочь значительно увеличить мощность критерия хи-квадрат.
Предположительно, первая полноценная континуально-квантовая машина Пирсона с числом циклов от 16 до 16 000 будет написана на языке промышленного программирования C++ к концу 2016 года в Пензенском государственном университете. То есть, в России к концу 2016 года появятся две циклические континуально-квантовые вычислительные машины для решения двух совершенно разных задач. Первая – для извлечения знаний из искусственных нейронных сетей преобразователей биометрических данных [11] и из "нечетких экстракторов" [15]. Вторая – для усиления мощности критерия хи-квадрат от 3 до 300 раз на малых выборках. Появление машины Пирсона сделает критерий хи-квадрат применимым для малых выборок и самым мощным из всех существующих критериев. Для альтернативных критериев типа Крамера-фон Мезиса, Шапиро-Уилка и др. построить циклический континуально-квантовый усилитель пока не удается.
ЗАКЛЮЧЕНИЕ
То, что во всем мире огромное внимание уделяется созданию континуально-квантовых вычислителей Шредингера – Манина, неоспоримо. Однако, работы в этом направлении идут не так быстро, как хотелось бы. Основная задача нашей статьи – попытка обратить внимание научно-технической общественности на то, что континуально-квантовые эффекты может описывать не только уравнение Шредингера. Система уравнений Пирсона так же способна порождать и описывать похожие континуально-квантовые эффекты, а, следовательно, право на существование (по аналогии с молекулой водорода и др.) имеет понятие "молекула Пирсона". Построенная на этой основе континуально-квантовая циклическая машина Пирсона в ближайшем будущем сыграет важную роль, в том числе, в появлении квантовой математической статистики, уточняющей статус ряда статистических критериев, сегодня считающихся непрерывными.
Реальных опытов, получаемых на практике, всегда оказывается мало. Экспериментаторы-практики всегда хотят иметь больше статистики, но не всегда это возможно. Мы попытались показать, что с помощью континуально-квантовых циклических вычислительных машин вполне реально делать надежные статистические выводы на малых выборках.
Отметим, что континуально-квантовая машина Пирсона программно реализуется на обычной вычислительной технике. Это существенно снижает стоимость исследований. По нашему мнению, есть много уравнений, порождающих и описывающих континуально-квантовые эффекты. Каждое может быть использовано при создании своей специализированной континуально-квантовой вычислительной машины для решения некоторой практически важной задачи.
ЛИТЕРАТУРА:
Dodis Y., Reyzin L., Smith A. Fuzzy Extractors: How to Generate Strong Keys from Biometrics and Other Noisy // Proc. EUROCRYPT. 2004. April 13.
Р. 523–540.
Monrose F., Reiter M., Li Q., Wetzel S. Cryptographic key generation from voice. // Proc. IEEE Symp. on Security and Privacy. 2001. Р. 202–213.
Ramírez-Ruiz J., Pfeiffer C., Nolazco-Flores J. Cryptographic Keys Generation Using FingerCodes. // Advances in Artificial Intelligence – IBERAMIA-SBIA 2006 (LNCS 4140). 2006. Р. 178–187,
Язов Ю.К. и др. Нейросетевая защита персональных биометрических данных // М.: Радиотехника, 2012. 157 с. IBSN 978-5-88070-044-8.
Ахметов Б.С., Иванов А.И., Фунтиков В.А., Безяев А.В., Малыгина Е.А. Технология использования больших нейронных сетей для преобразования нечетких биометрических данных в код ключа доступа // Казахстан: ТОО "Издательство LEM", 2014 г. 144 c., http://portal.kazntu.kz/files/publicate/2014-06-27-11940.pdf.
Иванов А.И. Сопоставительный анализ показателей конкурирующих технологий биометрико-криптографической аутентификации личности // Защита информации. ИНСАЙД. 2014. № 3. 2014. С. 32–39.
Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников // M.: ФИЗМАТЛИТ, 2006. 816 c.
Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа χ2 // Госстандарт России. Москва, 2001.
Р 50.1.037-2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии // Госстандарт России. Москва, 2002. 123 с.
Шпольский Э.В. Атомная физика. Том 2. Основы квантовой механики и строение электронной оболочки атома. 4-е изд. // М.: Наука, 1974.
Квантовые компьютеры: прошлое, настоящее, будущее // Защита информации. INSAID. 2015. № 2. С. 29–32.
Иванов А. И., Газин А.И., Вятчанин С.Е., Перфилов К.А. Сравнение мощности хи-квадрат критерия и критерия Крамера-фон Мезиса для малых тестовых выборок биометрических данных // Надежность и качество сложных систем. 2016. № 2. С. 32–37.
Ахметов Б.Б., Иванов А.И., Серикова Н.И., Фунтикова Ю.В. Дискретный характер закона распределения хи-квадрат критерия для малых тестовых выборок // Вестник Национальной академии наук Республики Казахстан. Алматы. 2015. № 1. С. 17–25.
Akhmetov B., Ivanov A., Gilmutdinov A., Bezyaev A., Funtikova Y. The Family of Chi-Square Molecules Pearson: Software-Continuum Quantum Accelerators of High-Dimensional Calculations // 15th International Conference on Control, Automation and Systems (ICCAS 2015) to be held on October 13–16, 2015 in BEXCO, Busan, Korea (TP03 – Signals and Intelligent Systems, report № TP03-78, october-15).
Иванов А.И. Нечеткие экстракторы: проблема использования в биометрии и криптографии // Первая миля. 2015. № 1. С. 40–47.
* Геологический институт РАН;
** Институт экспериментальной минералогии РАН;
*** Институт геологии рудных месторождений, петрографии, минералогии и геохимии РАН;
**** "Ренишоу"
Отзывы читателей