К методике применения детерминационного анализа для обработки экологических данных.
Д.Г.Замолодчиков, Н.Г.Булгаков, А. .Гурский, А.П.Левич, С.В.Чесноков.
Исследования динамики экологических систем требуют учета
значительного числа внешних и внутренних факторов, влияющих на
функционирование системы, что приводит к необходимости использо-
вания большого количества переменных для описания состояния эко-
системы. Наличие значительных массивов переменных создает значи-
тельные трудности при выделении связей между отдельными перемен-
ными. В настоящем исследовании предпринята попытка преодоления
этих трудностей с помощью детерминационного анализа.
Теоретические основы метода были созданы в 1969-1980 годах и
опубликованы, полная библиография работ приведена в монографии
С.В.Чеснокова (1980). Первая практически действующая вычислитель-
ная система детерминационного анализа была создана в 1979 г.
Вскоре были созданы другие варианты систем детерминационного ана-
лиза. В течение 10 лет они доказали свою практическую полезность
в социологии, экономике, медицине и в других областях научной и
практической деятельности. Настоящая работа демонстрирует приме-
нение детерминационного анализа на новом широком поле деятельнос-
ти - в экологических исследованиях.
Использованные материалы.
В настоящей работы использованы данные рыбоводных исследова-
ний, осуществленных на Волжском экспериментальном рыборазводном
заводе Каспийского института рыбного хозяйства в 1986-1990 гг.
Конечной целью исследований и экспериментов было повышение про-
дуктивности растительноядных видов прудовых рыб через управление
структурой кормовых фитопланктонных сообществ за счет изменения
системы удобрений.
Был составлен массив переменных, характеризующих различные
стороны функционирования искусственной экосистемы - рыборазводно-
го пруда. В массив включены данные по всем нагульным прудам, за-
действованных в удобрительных экспериментов 1987-1989 годов а
также по тем из них, которые эксплуатировались в 1973, 1977 и
1986 годах. Всего в матрицу переменных включены данные по 20 пру-
дам.
Матрица переменных включила в себя:
1) рыбоводные характеристики - начальные и конечные навески,
плотность посадки, выживаемость, продуктивность отдельно по видам
рыб и общая рыбопродуктивность;
2) количество внесенных азотных и фосфорных удобрений;
3) гидрохимические параметры пруда - содержание кислорода,
сумма тепла, водородный показатель, перманганатная окисляемость,
концентрации биогенных элементов, отношение азота к фосфору в
воде;
4) гидрология пруда - глубина и площадь;
5) абсолютные и относительные биомассы порядков и отделов
фитопланктона;
6) абсолютные биомассы таксонов зоопланктона;
7) гидрохимические параметры волжской воды, заливаемой в
пруды.
Для отражения сезонной динамики переменных, указанных в пун-
ктах 2, 3, 5, 6, 7, в матрицу переменных в виде самостоятельных
значений внесены, помимо среднесезонных значений, усреднения за
апрель-май, июнь-июль и август-сентябрь. Всего матрица насчитыва-
ет 291 переменную.
Подготовка данных для детерминационного анализа.
Подготовка данных для детерминационного анализа требует раз-
биения данных по каждой переменной на классы. В нашем распоряже-
нии имелись данные по 20 точкам, соответствующие различным прудам
в разные годы. Разбиение осуществлено на линейной шкале между ми-
нимальной и максимальной величиной на 3 равновеликих отрезка, что
дает 3 класса: "мало", "средне" и "много". При отсутствии данных
для какого-либо пруда значение переменной относилось к классу
"нет данных". Таким образом, весь массив количественных данных
был перекодирован в ряды из чисел 0, 1, 2, 3, соответствующих
классам "нет данных", "мало", "средне" и "много".
Детерминационный анализ позволяет провести подсчет условных
частот, благодаря которым разные значения переменных оказываются
сопряженными друг с другом. Рассмотрим механизм действия детерми-
национного анализа на конкретном примере. Допустим, нас интересу-
ет, при каких условиях переменная "общая рыбопродуктивность" (на-
зываемая в данном случае объясняемой) относится к классу "много",
причем известно, что таких значений 5 из имеющихся 20. Детермина-
ционный анализ позволяет определить, при каких значениях любой
другой переменной, называемой объясняющей, общая рыбопродуктив-
ность относилась к классу "много". Так, если взять в качестве
объясняющей переменной абсолютную биомассу протококковых водо-
рослей за апрель-май, мы увидим следующее распределение:
Из приведенной выше таблицы следует, что в 75 % случаев,
когда абсолютная биомасса протококковых водорослей за апрель-май
находилась на среднем уровне, общая рыбопродуктивность была вели-
ка, причем к данному сопряжению относилось 60 % случаев большой
рыбопродуктивности. Первая частота (75%) называется точностью де-
терминации, вторая (60%) - полнотой детерминации.
Анализ частот парных сопряжений.
Первый этап работы заключался в поиске существенных парных
сопряжений для интересующих нас объясняемых переменных. Был исс-
ледован ряд объясняемых переменных: общая рыбопродуктивность, ры-
бопродуктивность белого толстолобика, рыбопродуктивность пестрого
толстолобика, рыбопродуктивность карпа, конечная навеска 2-леток
белого толстолобика, конечная навеска пестрого толстолобика, ко-
нечная навеска карпа и относительная биомасса зеленых водорослей
за сезон, в качестве объясняющих выступали по одной все остальные
290 переменных. Заслуживающими внимания считались детерминации с
точностью не менее 40 % при полноте не менее 60 %.
В результате проведения данного этапа были получены таблицы
существенных сопряжений для всех объясняемых переменных (напри-
мер, для общей рыбопродуктивности - табл. 1). Многие из таких
сопряжений не следовали из каких-либо априорных соображений, и
потому ранее не подвергались исследованию традиционными статисти-
ческими методами.
Характеризуя в целом результаты исследования парных сопряже-
ний, можно заметить, что наибольшее количество существенных де-
терминаций было получено при исследовании переменных, характери-
зующих конкретные виды рыб, причем характер распределения детер-
минаций по блокам объясняющих переменных значительно различался
для разных видов. Например, рыбопродуктивность белого толстолоби-
ка демонстрировала значительные сопряжения с гидрохимическими
условиями волжской воды, заливаемой в пруды, а рыбопродуктивность
пестрого толстолобика - с гидрохимическими условиями прудовой во-
ды. Общая же рыбопродуктивность является интегративной характе-
ристикой, в ней сопряженности параметров одних видов компенсиру-
ются за счет других, что приводит к значительному сокращению ко-
личества существенных детерминаций. Более подробное изложение со-
держательных результатов и их биологическая интерпретация будут
приведена в последующей статье авторов (Булгаков и др., в печа-
ти).
Следует также отметить, что наличие детерминаций с достаточ-
ной точностью и полнотой между двумя переменными еще не служит
доказательством их прямой причинно-следственной связи. Например,
общая рыбопродуктивность показывает существенную сопряженность с
низким содержанием кислорода в пруду за июнь-июль (табл.1). Связь
же в данном случае обратная: кислорода мало в пруду именно из-за
большого количества рыбы, а не наоборот. Однако детерминационный
анализ позволяет достаточно быстро найти сопряжения между большим
количеством переменных, значительно сузив тем самым круг дальней-
шего поиска причинно-следственных связей с помощью прочих мето-
дов.
Влияние на результаты анализа диапазонов разбиения на классы.
Наиболее сложной проблемой в подготовке количественных дан-
ных к детерминационному анализу является разбиение исходных дан-
ных на классы. Как отмечалось выше, мы использовали простой алго-
ритм разбиения на три равновеликих отрезка от минимального до
максимального значения переменной. Для некоторых переменных
классы при таком способе оказались наполненными крайне неравно-
мерно. Например, одно крайне высокое значение биомассы синезеле-
ных водорослей привело к тому, что остальные 17 (для двух точек
данные отсутствовали) попали в класс "мало". Для других перемен-
ных (например, гидрохимических показателей) разбиение на классы
при принятом алгоритме не соответствовало устоявшимся представле-
ниям о малых и больших значениях. С целью устранения такого рода
эффектов весь массив переменных был просмотрен вручную и для ряда
переменных (порядка 100) произведена коррекция диапазонов. Затем
был осуществлен поиск парных детерминаций для ряда объясняемых
переменных (наиболее существенные детерминации для общей рыбопро-
дуктивности представлены в табл. 2). Следует отметить, что коли-
чество существенных детерминаций для общей рыбопродуктивности
несколько увеличилось (табл.2), в первую очередь за счет объясня-
ющих переменных из группы фитопланктона (синезеленые и пирофито-
вые водоросли). В целом же характер разделения существенных де-
терминаций по блокам объясняющих переменных не изменился; практи-
чески все существенные детерминации из таблицы 1 вошли в таблицу
2, причем часто с теми же величинами точности и полноты. Таким
образом, линейное разбиение на три равновеликих отрезка дало при-
емлемые результаты для абсолютного большинства переменных нашей
матрицы данных, исключение представляют лишь некоторые таксоны
водорослей (синезеленые, пирофитовые) с аномально высокими био-
массами в одной из точек.
Поиск кратных детерминаций.
Система детерминационного анализа позволяет взять в качестве
объясняющей не только одну, но и несколько (до пяти) переменных.
Очевидно, что количество сочетаний даже по две из 290 объясняющих
переменных слишком велико, чтобы было возможным осуществление по-
иска всех существенных детерминаций. Поэтому поиск кратных детер-
минаций осуществлялся для тех же объясняемых переменных, что и
при поиске парных детерминаций, причем таблицы существенных пар-
ных детерминаций (типа таблицы 1) служили основой для выбора со-
четаний объясняемых переменных.
В процессе интерпретации результатов поиска кратных детерми-
наций принимался во внимание еще один параметр детерминации, назы-
ваемый существенностью. Данный параметр показывает, насколько
добавление данной объясняющей переменной повышает точность детер-
минации по сравнению с простым парным сопряжением. При анализе
учитывались лишь те детерминации, в которых обе объясняющие пере-
менные имели положительную существенность.
В результате исследования выявлены зависимости, связывающие
объясняемые переменные (в первую очередь, конечные навески всех
видов рыб) с некоторыми интегральными факторами, возникшими в ре-
зультате объединения двух переменных. Так, например, существенным
влиянием на конечную навеску обладали плотность посадки вместе с
начальной навеской; начальная навеска с выживаемостью; плотность
посадки с количеством удобрений; плотность посадки с содержанием
кислорода; плотность посадки с содержанием биогенных элементов в
волжской воде; биомасса отдельных таксонов фитопланктона с био-
массой зоопланктона и т.д.
Таким образом, использование метода кратных детерминаций
устанавливает интегрированную сеть сопряжений в структуре эколо-
гических взаимосвязей пруда, основанную на взаимодействии различ-
ных ее компонентов.
Проверка содержательных гипотез.
Система детерминационного анализа предоставляет возможность
проверки различных гипотез о связях и сопряжениях в имеющемся
массиве данных. Так, в качестве объясняемой мы можем взять любую
из 291 переменной, но проверять не детерминации не со всеми ос-
тальными переменными подряд, а лишь с избранными, наиболее нас
интересующими. Очевидно, при такой организации работы с массивом
мы можем потерять часть ценной информации, не следующей из ка-
ких-либо предварительных соображений, однако данный путь сильно
сокращает время работы с компьютером.
Нами были проверены гипотезы для ряда объясняемых перемен-
ных. При этом были выявлены некоторые сопряжения, представляющие
интерес с точки зрения управления структурой фитопланктонного со-
общества. Так, большие значения абсолютной биомассы протококковых
водорослей за сезон проявили сопряжение с сочетанием высокого со-
держания азота и низкого отношения азота к фосфору в прудовой во-
де за сезон (точность и полнота детерминации равны 67%). Среднее
время от заливки пруда до пика биомассы у зеленых водорослей ока-
залось сопряжено со средним значением содержания азота в прудовой
воде за июнь-июль (точность 100%, полнота 75%). Малое время
от заливки пруда до пика у эвгленовых водорослей сопряжено с со-
четанием малого содержания азота и малого отношения азота к
фосфору в прудовой воде за июнь-июль (точность 50%, полнота 67%).
В то же время ряд сделанных гипотез, в первую очередь о связи
различных параметров фитопланктона с внесением удобрений, не на-
шел своего подтверждения. Таким образом, путь проверки гипотез
характеризуется в основном элиминацией ряда неправильных
представлений о связях в имеющемся массиве данных, получаемая же
при этом новая нетривиальная информация невелика по сравнению с
перебором всех парных детерминаций для данной объясняемой пере-
менной.
Заключение.
Применение метода детерминационного анализа к массиву коли-
чественных экологических данных показало, что главным достоинст-
вом данного метода является возможность достаточно быстрого (по
сравнению с прочими методами анализа информации) поиска сущест-
венных сопряжений интересующих нас переменных со всеми прочими
переменными массива. Такой путь поиска освобождает нас от преж-
них, часто не всегда состоятельных, предположений о структуре
связей в массиве и дает возможность найти новые нетривиальные
сопряжения. Однако к полученным сопряжениям нужно относиться с
определенной долей критичности. Хотя в название метода входит
слово "детерминация", что подразумевает наличие причинно-следст-
венной связи, нахождение существенного сопряжения еще не свиде-
тельствует о действительной прямой зависимости (можно вспомнить
пример о связи рыбопродуктивности с низкими содержаниями кислоро-
да в пруду). Помимо обратных связей, в массиве могут быть связи и
опосредованные, то есть две сопряженные переменные в действитель-
ности зависят от какой-либо третьей, но не зависят друг от друга.
Таким образом, результаты, полученные с помощью детерминационного
анализа, должны быть подвергнуты дальнейшей смысловой и статисти-
ческой проверке, однако благодаря этому способу поле дальнейшего
поиска причинно-следственных связей существенно сужается.
Литература
Н.Г.Булгаков и др.
С.В.Чесноков. Детерминационный анализ социально-экономичес-
ких данных. М.: Наука, 1982.