В. А. ГАВРИЛИНА, О. И. МАЛЬЦЕВА
Орловский государственный институт экономики и торговли
С. Н. СЫЧЕВ
Орловский государственный технический университет
К. С. СЫЧЕВ
ЗАО фирма «Найтек инструменте», г. Москва
К. К. ПОЛЯНСКИЙ
Воронежский государственный аграрный университет

Часть 1. Сущность применения метода главных компонент для описания и сравнения многокомпонентных физико-химических систем

Метод сравнения исследуемого образца (вещество, изделие или природный объект с контрольным образцовым или стандартным веществом, изделие или природный объект) является основой большинства методов измерений. Сравнение осуществляется:
методом, когда веществу, изделию или природному явлению присваивается модель, содержащая ряд параметров, по мнению авторов модели, позволяющие идентифицировать исследуемый объект с целью его дальнейшего использования или классификации;
путем сопоставления измеряемых с определенной погрешностью параметров модели исследуемых и контрольных образцов или стандартных образцов исследуемый объект идентифицируется на предмет дальнейшего его использования или классификации.
В любом случае при использовании метода сравнения возникают две задачи:
разработка и выбор наиболее удачной в конкретном случае модели вещества, изделия или природного явления;
определение необходимого и достаточного количества параметров для идентификации исследуемого объекта.
Выбор математической модели и способ задания количества параметров сложных (многопараметровых) объектов связаны между собой. Так. при применении нелинейных моделей количество и особенно характер параметров определяются произвольно, исходя из производственной необходимости и экспериментального опыта. Параметры многопараметровых линейных моделей могут быть определены как по первому способу, то есть достаточно произвольно, так и путем поиска линейно-независимых параметров линейной модели объекта, непосредственно не вводимых экспертом по-своему усмотрению, но содержащихся в экспериментальной информации, особенно полипараметрической.
Алгоритм поиска линейно-независимых параметров линейной модели объекта реализован в так называемом методе главных компонент (Д. Лоули, А. Максвелл, 1967; К. Иберла, 1980; [1]).
Метод главных компонент — это разновидность мультикорреляционного анализа, то есть метода, основанного на обработке корреляционных матриц большой размерности. Его суть состоит в следующем: элементы Ajk (экспериментальные величины полипараметрического анализа) исходной размерности dim А = mxn приводятся к новым величинам, имеющим нулевые средние и единичные дисперсии, по формуле
(1)
где— среднее значение Ajk
по столбцам; Si — стандартное отклонение.
Далее будем подразумевать, что матрица А преобразована по формуле (1). Вычисляем корреляционную матрицу ।I, dim С = mxm, элементы которой Cik — суть выборочные коэффициенты парной корреляции исходных признаков Аi и Ак. Существует ортогональное преобразование системы координат, с помощью которого матрица С приводится к диагональному виду
А = VF,           (3)
где F — преобразованная матрица А (матрица факторов), удовлетворяющая соотношению
(4)
Собственные числа λ — суть выборочные дисперсии новых параметров (факторов), причем последние не коррелируют друг с другом (их ковариационная матрица Λ — диагональная). Преобразуем λ в (2) таким образом, чтобы выполнялось условие λ1>λ2>λ3>...λ>0.
Если между исходными признаками существовала линейная зависимость, то только первые λ1, λ2, λ3, λ... отличны от нуля, из чего следует, что последние m-r строк матрицы F состоят из одних нулей. Поэтому равенство (3) можно переписать в виде
А = {V} х {F}   (5)
где матрицы {V} и {F} — есть соответствующие подматрицы матриц V и F.
Вследствие экспериментальной погрешности при измерении параметров Ajk все или большая часть λ. могут оказаться отличными от нуля, однако при достаточно сильном различии их значений остаточная дисперсия, определенная как ε=Σλ, будет малой величиной для некоторого числа г. Малость остаточной дисперсии ε оценивается, исходя из заранее сформулированных требований точности. Оценкой вклада факторов может служить величина
(6)
При введении меры информации, как величины, пропорциональной следу ковариационной матрицы параметров, по (6) можно судить об объеме информации, содержащейся в параметрах А±, А2, А3…А и сохраняющейся при переходе к новым параметрам F1, F2…F, которые называются главными компонентами (факторами).
Обычно меру информации получают в виде q-100% и называют вкладом фактора F в информацию, содержащуюся в исходной матрице А.
При использовании метода главных компонент мы предполагаем, что несколько измеряемых переменных сильно коррелируют друг с другом. Это означает, что, либо они взаимно определяют друг друга, либо связь между ними обусловливается третьей величиной, которую непосредственно измерить нельзя. Модель главных компонент связана с последним предположением и дает возможность получить числовые значения этих третьих величин в виде набора линейнонезависимых факторов F. которые описывают и воспроизводят исходную матрицу с необходимой точностью в виде

где V1 (j) и V2 (j) — коэффициенты линейной модели из подматрицы {V}; F1 (i), F2 (i) — линейно-независимые факторы (параметры) из подматрицы {F}; S — стандартное отклонение по строкам; Н — среднее значение по строкам матрицы A; A(ij) — элемент исходной матрицы А.

Применение метода главных компонент для получения линейно-независимых параметров вина.

Примером использования этого метода для получения линейно-независимых параметров может служить обработка многоволновых хроматограмм вин при контроле вина.

Контроль вин всегда был, есть и остается актуальной проблемой. Под ним (кроме контроля безопасности, описываемой стандартизированным набором критериев) понимается выявление соответствия товарной продукции заявленному сертификату и контрольному образцу. В этом случае контроль сводится к сравнению параметров товарного образца с параметрами контрольного, то есть производится идентификация или установление подобия (сходства) вин. Однако до сих пор отсутствует удовлетворительная процедура сравнения товарного образца вина с контрольным, и эта проблема связана с неопределенностью количества и характера параметров, необходимых и достаточных для характеристики вина. На данный момент в вине стандартизуется только содержание этилового спирта, сахара и титруемых кислот, что не отражает химический состав продукта: в настоящее время в винах обнаружено и идентифицировано более 400 химических соединений, относящихся к разным классам соединений. Получение и сопоставление такого количества экспериментальных параметров делает задачу идентификации невыполнимой в большинстве лабораторий, причем наращивание числа сравниваемых параметров ничем не ограничено и не может гарантировать полной уверенности в идентичности вин. Решение этой проблемы может быть найдено в применении комбинации обращенно-фазовой высокоэффективной жидкостной хроматографии с многоволновым спектрофотометрическим детектированием и метода главных компонент, способного генерировать непосредственно из экспериментальных данных систему линейно-независимых параметров (факторов), описывающих вино.
Основная идея использования метода главных компонент при контроле вин заключается в сведении информации и получении набора линейно-независимых факторов из оптических плотностей многоволновых хроматограмм вин. предварительно превращенных в матрицу дискретных значений оптических плотностей элюата на разных длинах волн [2], рис. 1.
Информацию по оптическим плотностям (ось ординат) снимали через каждые 0,05 мин (ось абсцисс). В результате для обработки использовали матрицу оптических плотностей элюата размером 5 х 448 (табл. 1, фрагмент исходной матрицы оптических плотностей — единицы оптической плотности).
Представленный фрагмент исходной матрицы соответствует участку хроматограммы 1 в диапазоне от 9,5 до 10,5 мин (рис. 2).
В результате обработки исходной матрицы 5 х 448 оптических плотностей хроматограммы были получены четыре линейно-независимых фактора, описывающих исходную матрицу на 100% (табл. 2, значения линейно-независимых факторов F1-F4 и их вклады в общую информацию о составе вина).

Таблица 1


Длина

Время, мин

волны, нм

9,85

9,90

9,95

10,0

10,05

10,10

10,15

10,20

10,25

10,30

270

0,2090

0,1095

0,1092

0,1332

0,1920

0,2715

0,3090

0,2932

0,2472

0,2090

290

0,3170

0,098

0,1025

0,1255

0,2137

0,3695

0,4777

0,4742

0,4040

0,3170

320

0,3347

0,0742

0,0852

0,1407

0,2980

0,5085

0,6067

0,5537

0,4447

0,3347

330

0,412

0,0724

0,0887

0,1592

0,3372

0,5665

0,6500

0,5737

0,4565

0,3412

354

0,1530

0,049

0,0582

0,0910

0,1712

0,2452

0,2797

0,2435

0,1972

0,1530

Сточки зрения идентификации вина полученные факторы являются линейно-независимыми параметрами вина, сравнение которых и дает возможность провести аналогию исследуемого и контрольного образцов. Таким образом, вместо матриц размером 5 х 448 сравниваются матрицы размером 5 x 4.
При сравнении факторов основным показателем их сходства или различия выбрали коэффициент корреляции между факторами. Коэффициент корреляции Rxy показывает, насколько линейно зависимы сравниваемые величины, то есть выполняется ли линейное уравнение
Y(j)=а+b-Х(j),   (8)
где а и b — коэффициенты линейного уравнения; Y(j) и Х(j) — сравниваемые величины.

Единицы оптической плотности     2

5                      10                       15                      20              мин
Рис.1. Хроматограмма красного вина «Каберне» с использованием универсального элюента:
1 — галловая кислота; 2 — кофейная кислота; 3 — n-кумаровая кислота; 4 — салициловая кислота Хроматограф «Милихром-5М», спектрофотометрический детектор, длины волн 270,290,320,330 и 354 нм. Колонка 80 х 2 мм заполнена Сепароном С18 (диаметр частиц 5 мкм), температура термостата колонки 35 °C. Элюент: градиент ацетонитрила от 0 до 50% в растворе дистиллированная вода — ортофосфорная кислота — диэтиламин в соотношении 100:1,5:0,5 за 25 мин

С уменьшением такого коэффициента корреляции снижается схожесть сравниваемых объектов, а с его увеличением она повышается.
Для определения критериев идентичности вин были получены хроматограммы одного и того же вина со сдвинутыми (за счет использования другого обращенно-фазового сорбента в колонках) значениями времен удерживания. В результате в качестве критериев идентичности были выбраны коэффициенты корреляции соответствующих факторов, полученных из разных хроматограмм одного и того же вина: для факторов F1 не менее 0,998, для факторов F2 не менее 0,98, для факторов F3 — не менее 0,96. Фактор F4 не рассматривался, так как его вклад сравним с ошибкой эксперимента.
Таким образом, полностью идентичны вина с коэффициентами попарной корреляции факторов F1, F2и F 3 не ниже соответственно 0,99; 0,98 и 0,96. Наоборот, вина считаются неидентичными, если хотя бы для одного фактора указанные условия не выполняются.
Критерии сходства могут быть установлены по Джаффе (1953): похожими считаются вина, для которых коэффициенты попарной корреляции соответствующих факторов находятся в диапазонах 0,980-1,00 для F1 0,940-1,00 для F 2 и 0,920-1,00 для F 3.

Фрагмент хроматограммы красного вина «Каберне»
Рис. 2. Фрагмент хроматограммы красного вина «Каберне» от 9,5 до 10,5 мин.

Таким образом, процедура установления идентичности или подобия исследуемого образца контрольному включает получение многоволновых хроматограмм исследуемого и контрольного образцов вин в цифровом виде; получение линейно-независимых факторов (параметров) из оптических плотностей многоволновых хроматограмм вин, предварительно превращенных в матрицу дискретных значений оптических плотностей элюата на разных длинах волн; сравнение полученных факторов путем их попарной корреляции с учетом критериев идентичности или подобия.

Таблица 2


Длина волны, нм

Вклады факторов, %

Г.

 

F3

F4

89,56

86,49

1,62

0,33

270

1,242

0,911

0,905

-0,083

290

0,830

-0,525

-1,495

-0,0155

320

-0,389

-0,797

0,584

1,439

330

-0,525

-0,837

0,552

-1,386

354

-1,158

1,248

-0,547

0,0445

Выводы.

Таким образом, наши исследования:
показали возможность применения метода главных компонент для получения линейно-независимых факторов из оптических плотностей многоволновых хроматограмм вин, предварительно превращенных в матрицу дискретных значений оптических плотностей элюата на разных длинах волн;
выявили критерии идентичности и сходства при сравнении факторов (параметров) исследуемого и контрольного вин;
предложили процедуру установления идентичности или подобия исследуемого образца вина контрольному.

ЛИТЕРАТУРА

  • Сычев С.Н. Применение метода главных компонент (факторного анализа) для анализа хроматографических данных в ВЭЖХ // Сорбционные и хроматографические процессы — 2004. — Т. 4 — Вып.2 — С. 134-142.
  • Способ идентификации вина: авт. заявка от 16.01.2006, peг. номер 2006101279/ С. Н. Сычев, В. А. Гаврилина, А. Н. Волчков; заявитель и патентообладатель С. Н. Сычев, В. А. Гаврилина, А. Н. Волчков.
  • Сычев С. Н., Сычев К. С. Универсальные элюенты в нормально-фазовой и обращенно-фазовой ВЭЖХ. // Сорбционные и хроматографические процессы. — 2003. — Т 3. — Вып. 4. — С.23-25.