К методике применения детерминационного анализа для обработки экологических данных.

Д.Г.Замолодчиков, Н.Г.Булгаков, А. .Гурский, А.П.Левич, С.В.Чесноков.

Исследования динамики экологических систем требуют учета

значительного числа внешних и внутренних факторов, влияющих на

функционирование системы, что приводит к необходимости использо-

вания большого количества переменных для описания состояния эко-

системы. Наличие значительных массивов переменных создает значи-

тельные трудности при выделении связей между отдельными перемен-

ными. В настоящем исследовании предпринята попытка преодоления

этих трудностей с помощью детерминационного анализа.

Теоретические основы метода были созданы в 1969-1980 годах и

опубликованы, полная библиография работ приведена в монографии

С.В.Чеснокова (1980). Первая практически действующая вычислитель-

ная система детерминационного анализа была создана в 1979 г.

Вскоре были созданы другие варианты систем детерминационного ана-

лиза. В течение 10 лет они доказали свою практическую полезность

в социологии, экономике, медицине и в других областях научной и

практической деятельности. Настоящая работа демонстрирует приме-

нение детерминационного анализа на новом широком поле деятельнос-

ти - в экологических исследованиях.

Использованные материалы.

В настоящей работы использованы данные рыбоводных исследова-

ний, осуществленных на Волжском экспериментальном рыборазводном

заводе Каспийского института рыбного хозяйства в 1986-1990 гг.

Конечной целью исследований и экспериментов было повышение про-

дуктивности растительноядных видов прудовых рыб через управление

структурой кормовых фитопланктонных сообществ за счет изменения

системы удобрений.

Был составлен массив переменных, характеризующих различные

стороны функционирования искусственной экосистемы - рыборазводно-

го пруда. В массив включены данные по всем нагульным прудам, за-

действованных в удобрительных экспериментов 1987-1989 годов а

также по тем из них, которые эксплуатировались в 1973, 1977 и

1986 годах. Всего в матрицу переменных включены данные по 20 пру-

дам.

Матрица переменных включила в себя:

1) рыбоводные характеристики - начальные и конечные навески,

плотность посадки, выживаемость, продуктивность отдельно по видам

рыб и общая рыбопродуктивность;

2) количество внесенных азотных и фосфорных удобрений;

3) гидрохимические параметры пруда - содержание кислорода,

сумма тепла, водородный показатель, перманганатная окисляемость,

концентрации биогенных элементов, отношение азота к фосфору в

воде;

4) гидрология пруда - глубина и площадь;

5) абсолютные и относительные биомассы порядков и отделов

фитопланктона;

6) абсолютные биомассы таксонов зоопланктона;

7) гидрохимические параметры волжской воды, заливаемой в

пруды.

Для отражения сезонной динамики переменных, указанных в пун-

ктах 2, 3, 5, 6, 7, в матрицу переменных в виде самостоятельных

значений внесены, помимо среднесезонных значений, усреднения за

апрель-май, июнь-июль и август-сентябрь. Всего матрица насчитыва-

ет 291 переменную.

Подготовка данных для детерминационного анализа.

Подготовка данных для детерминационного анализа требует раз-

биения данных по каждой переменной на классы. В нашем распоряже-

нии имелись данные по 20 точкам, соответствующие различным прудам

в разные годы. Разбиение осуществлено на линейной шкале между ми-

нимальной и максимальной величиной на 3 равновеликих отрезка, что

дает 3 класса: "мало", "средне" и "много". При отсутствии данных

для какого-либо пруда значение переменной относилось к классу

"нет данных". Таким образом, весь массив количественных данных

был перекодирован в ряды из чисел 0, 1, 2, 3, соответствующих

классам "нет данных", "мало", "средне" и "много".

Детерминационный анализ позволяет провести подсчет условных

частот, благодаря которым разные значения переменных оказываются

сопряженными друг с другом. Рассмотрим механизм действия детерми-

национного анализа на конкретном примере. Допустим, нас интересу-

ет, при каких условиях переменная "общая рыбопродуктивность" (на-

зываемая в данном случае объясняемой) относится к классу "много",

причем известно, что таких значений 5 из имеющихся 20. Детермина-

ционный анализ позволяет определить, при каких значениях любой

другой переменной, называемой объясняющей, общая рыбопродуктив-

ность относилась к классу "много". Так, если взять в качестве

объясняющей переменной абсолютную биомассу протококковых водо-

рослей за апрель-май, мы увидим следующее распределение:

Из приведенной выше таблицы следует, что в 75 % случаев,

когда абсолютная биомасса протококковых водорослей за апрель-май

находилась на среднем уровне, общая рыбопродуктивность была вели-

ка, причем к данному сопряжению относилось 60 % случаев большой

рыбопродуктивности. Первая частота (75%) называется точностью де-

терминации, вторая (60%) - полнотой детерминации.

Анализ частот парных сопряжений.

Первый этап работы заключался в поиске существенных парных

сопряжений для интересующих нас объясняемых переменных. Был исс-

ледован ряд объясняемых переменных: общая рыбопродуктивность, ры-

бопродуктивность белого толстолобика, рыбопродуктивность пестрого

толстолобика, рыбопродуктивность карпа, конечная навеска 2-леток

белого толстолобика, конечная навеска пестрого толстолобика, ко-

нечная навеска карпа и относительная биомасса зеленых водорослей

за сезон, в качестве объясняющих выступали по одной все остальные

290 переменных. Заслуживающими внимания считались детерминации с

точностью не менее 40 % при полноте не менее 60 %.

В результате проведения данного этапа были получены таблицы

существенных сопряжений для всех объясняемых переменных (напри-

мер, для общей рыбопродуктивности - табл. 1). Многие из таких

сопряжений не следовали из каких-либо априорных соображений, и

потому ранее не подвергались исследованию традиционными статисти-

ческими методами.

Характеризуя в целом результаты исследования парных сопряже-

ний, можно заметить, что наибольшее количество существенных де-

терминаций было получено при исследовании переменных, характери-

зующих конкретные виды рыб, причем характер распределения детер-

минаций по блокам объясняющих переменных значительно различался

для разных видов. Например, рыбопродуктивность белого толстолоби-

ка демонстрировала значительные сопряжения с гидрохимическими

условиями волжской воды, заливаемой в пруды, а рыбопродуктивность

пестрого толстолобика - с гидрохимическими условиями прудовой во-

ды. Общая же рыбопродуктивность является интегративной характе-

ристикой, в ней сопряженности параметров одних видов компенсиру-

ются за счет других, что приводит к значительному сокращению ко-

личества существенных детерминаций. Более подробное изложение со-

держательных результатов и их биологическая интерпретация будут

приведена в последующей статье авторов (Булгаков и др., в печа-

ти).

Следует также отметить, что наличие детерминаций с достаточ-

ной точностью и полнотой между двумя переменными еще не служит

доказательством их прямой причинно-следственной связи. Например,

общая рыбопродуктивность показывает существенную сопряженность с

низким содержанием кислорода в пруду за июнь-июль (табл.1). Связь

же в данном случае обратная: кислорода мало в пруду именно из-за

большого количества рыбы, а не наоборот. Однако детерминационный

анализ позволяет достаточно быстро найти сопряжения между большим

количеством переменных, значительно сузив тем самым круг дальней-

шего поиска причинно-следственных связей с помощью прочих мето-

дов.

Влияние на результаты анализа диапазонов разбиения на классы.

Наиболее сложной проблемой в подготовке количественных дан-

ных к детерминационному анализу является разбиение исходных дан-

ных на классы. Как отмечалось выше, мы использовали простой алго-

ритм разбиения на три равновеликих отрезка от минимального до

максимального значения переменной. Для некоторых переменных

классы при таком способе оказались наполненными крайне неравно-

мерно. Например, одно крайне высокое значение биомассы синезеле-

ных водорослей привело к тому, что остальные 17 (для двух точек

данные отсутствовали) попали в класс "мало". Для других перемен-

ных (например, гидрохимических показателей) разбиение на классы

при принятом алгоритме не соответствовало устоявшимся представле-

ниям о малых и больших значениях. С целью устранения такого рода

эффектов весь массив переменных был просмотрен вручную и для ряда

переменных (порядка 100) произведена коррекция диапазонов. Затем

был осуществлен поиск парных детерминаций для ряда объясняемых

переменных (наиболее существенные детерминации для общей рыбопро-

дуктивности представлены в табл. 2). Следует отметить, что коли-

чество существенных детерминаций для общей рыбопродуктивности

несколько увеличилось (табл.2), в первую очередь за счет объясня-

ющих переменных из группы фитопланктона (синезеленые и пирофито-

вые водоросли). В целом же характер разделения существенных де-

терминаций по блокам объясняющих переменных не изменился; практи-

чески все существенные детерминации из таблицы 1 вошли в таблицу

2, причем часто с теми же величинами точности и полноты. Таким

образом, линейное разбиение на три равновеликих отрезка дало при-

емлемые результаты для абсолютного большинства переменных нашей

матрицы данных, исключение представляют лишь некоторые таксоны

водорослей (синезеленые, пирофитовые) с аномально высокими био-

массами в одной из точек.

Поиск кратных детерминаций.

Система детерминационного анализа позволяет взять в качестве

объясняющей не только одну, но и несколько (до пяти) переменных.

Очевидно, что количество сочетаний даже по две из 290 объясняющих

переменных слишком велико, чтобы было возможным осуществление по-

иска всех существенных детерминаций. Поэтому поиск кратных детер-

минаций осуществлялся для тех же объясняемых переменных, что и

при поиске парных детерминаций, причем таблицы существенных пар-

ных детерминаций (типа таблицы 1) служили основой для выбора со-

четаний объясняемых переменных.

В процессе интерпретации результатов поиска кратных детерми-

наций принимался во внимание еще один параметр детерминации, назы-

ваемый существенностью. Данный параметр показывает, насколько

добавление данной объясняющей переменной повышает точность детер-

минации по сравнению с простым парным сопряжением. При анализе

учитывались лишь те детерминации, в которых обе объясняющие пере-

менные имели положительную существенность.

В результате исследования выявлены зависимости, связывающие

объясняемые переменные (в первую очередь, конечные навески всех

видов рыб) с некоторыми интегральными факторами, возникшими в ре-

зультате объединения двух переменных. Так, например, существенным

влиянием на конечную навеску обладали плотность посадки вместе с

начальной навеской; начальная навеска с выживаемостью; плотность

посадки с количеством удобрений; плотность посадки с содержанием

кислорода; плотность посадки с содержанием биогенных элементов в

волжской воде; биомасса отдельных таксонов фитопланктона с био-

массой зоопланктона и т.д.

Таким образом, использование метода кратных детерминаций

устанавливает интегрированную сеть сопряжений в структуре эколо-

гических взаимосвязей пруда, основанную на взаимодействии различ-

ных ее компонентов.

Проверка содержательных гипотез.

Система детерминационного анализа предоставляет возможность

проверки различных гипотез о связях и сопряжениях в имеющемся

массиве данных. Так, в качестве объясняемой мы можем взять любую

из 291 переменной, но проверять не детерминации не со всеми ос-

тальными переменными подряд, а лишь с избранными, наиболее нас

интересующими. Очевидно, при такой организации работы с массивом

мы можем потерять часть ценной информации, не следующей из ка-

ких-либо предварительных соображений, однако данный путь сильно

сокращает время работы с компьютером.

Нами были проверены гипотезы для ряда объясняемых перемен-

ных. При этом были выявлены некоторые сопряжения, представляющие

интерес с точки зрения управления структурой фитопланктонного со-

общества. Так, большие значения абсолютной биомассы протококковых

водорослей за сезон проявили сопряжение с сочетанием высокого со-

держания азота и низкого отношения азота к фосфору в прудовой во-

де за сезон (точность и полнота детерминации равны 67%). Среднее

время от заливки пруда до пика биомассы у зеленых водорослей ока-

залось сопряжено со средним значением содержания азота в прудовой

воде за июнь-июль (точность 100%, полнота 75%). Малое время

от заливки пруда до пика у эвгленовых водорослей сопряжено с со-

четанием малого содержания азота и малого отношения азота к

фосфору в прудовой воде за июнь-июль (точность 50%, полнота 67%).

В то же время ряд сделанных гипотез, в первую очередь о связи

различных параметров фитопланктона с внесением удобрений, не на-

шел своего подтверждения. Таким образом, путь проверки гипотез

характеризуется в основном элиминацией ряда неправильных

представлений о связях в имеющемся массиве данных, получаемая же

при этом новая нетривиальная информация невелика по сравнению с

перебором всех парных детерминаций для данной объясняемой пере-

менной.

Заключение.

Применение метода детерминационного анализа к массиву коли-

чественных экологических данных показало, что главным достоинст-

вом данного метода является возможность достаточно быстрого (по

сравнению с прочими методами анализа информации) поиска сущест-

венных сопряжений интересующих нас переменных со всеми прочими

переменными массива. Такой путь поиска освобождает нас от преж-

них, часто не всегда состоятельных, предположений о структуре

связей в массиве и дает возможность найти новые нетривиальные

сопряжения. Однако к полученным сопряжениям нужно относиться с

определенной долей критичности. Хотя в название метода входит

слово "детерминация", что подразумевает наличие причинно-следст-

венной связи, нахождение существенного сопряжения еще не свиде-

тельствует о действительной прямой зависимости (можно вспомнить

пример о связи рыбопродуктивности с низкими содержаниями кислоро-

да в пруду). Помимо обратных связей, в массиве могут быть связи и

опосредованные, то есть две сопряженные переменные в действитель-

ности зависят от какой-либо третьей, но не зависят друг от друга.

Таким образом, результаты, полученные с помощью детерминационного

анализа, должны быть подвергнуты дальнейшей смысловой и статисти-

ческой проверке, однако благодаря этому способу поле дальнейшего

поиска причинно-следственных связей существенно сужается.

Литература

Н.Г.Булгаков и др.

С.В.Чесноков. Детерминационный анализ социально-экономичес-

ких данных. М.: Наука, 1982.