d9e5a92d

Анализ программного обеспечения

3.Анализ функций распределения.
4.Анализ корреляционных функций.
Выбор математических методов вторичной обработки информации может быть сделан только на основе первичного анализа данных.
При изучении социально-экономических явлений исследователи сталкиваются с необходимостью формализованного описания стохастической и многомерной информации по сложным и плохо структурируемым объектам. Для анализа подобной информации весьма эффективным оказывается математико-статистический подход (7).
Экономико-статистическая модель (ЭСМ) есть особая форма экономико-математических моделей. Она описывает стохастические связи и закономерности, возникающие под действием множества причин и следствий в массовых повторяющихся явлениях.

Классическая экономико-статистическая модель чаще всего состоит из регрессионных уравнений и комплекса вспомогательных статистических характеристик (средние, дисперсии, коэффициенты корреляции, оценки точности аппроксимации и др.).
Экономико-статистические модели имеют исследовательский, прогнозный характер и могут быть названы моделями описания экономических процессов. Главным предметом изучения ЭСМ являются не способы достижения определенного состояния, а сам процесс развития объектов в пространстве и во времени.

Они приспособлены для выявления тенденций, имевших место в прошлом и ожидаемых в будущем.

Анализ программного обеспечения


Анализ программного обеспечения для решения задачи прогнозирования инвалидности основывается на изложенных выше результатах анализа математических методов.
Все статистические расчеты проводятся с использованием специального программного обеспечения. Для первичной обработки исходных статистических данных, представленных в форме таблиц, наиболее целесообразно использовать табличный процессор Excel, функционирующий в операционной среде WINDOWS. Этот выбор обусловлен следующими причинами:
1.Excel позволяет представить данные в табличной форме, что делает информацию наглядной и значительно облегчает расчеты.
2. Excel позволяет легко конвертировать данные в форматы других баз данных.
3. Excel позволяет работать с большими таблицами данных.
4. Excel значительно облегчает проведение многочисленных однотипных расчетов для большого числа данных.
5. Графические возможности Excel облегчают выявление закономерностей и интерпретацию результатов.
6. В Excel хорошо представлены универсальные методы для первичного статистического анализа данных.
7. Русскоязычная версия Excel позволяет проводить обработку данных не только профессионалам-математикам, но и специалистам других областей, так как в ней имеется удобный справочник по используемым статистическим процедурам.
8. Широкая распространенность и доступность Excel.
Однако для более полного и детального статистического анализа информации в дополнение к Excel следует использовать также пакет программ статистической обработки, предоставляющий значительно более широкий выбор процедур, которые позволят глубже изучить природу данных, обнаружить связи между переменными и изучить структуру этих связей. На этапе первичной обработки информации такой пакет программ играет вспомогательную роль, а на этапе вторичной обработки становится основным инструментарием.
Как известно, выбор программного обеспечения для анализа данных зависит от характера решаемых задач, объема обрабатываемых данных, квалификации пользователей, имеющегося оборудования и т.д.
Поскольку в рассматриваемой нами задаче объем данных можно считать умеренным и предполагается использование в основном стандартных методов статистической обработки данных, то целесообразно использовать универсальный пакет программ статистической обработки.
Из зарубежных систем, наиболее распространенных в нашей стране, рассмотрим возможности STATGRAPHICS, SyStat и SPSS. В системах SyStat и SPSS реализован широкий набор вычислительных методов. В них имеется встроенный командный язык, позволяющий решать сложные задачи обработки данных.

Однако изучить и использовать возможности этого командного языка непросто. Кроме того, система SPSS больше подходит для анализа качественных переменных. В нашей же задаче все переменные носят исключительно количественный характер. Пакет программ STATGRAPHICS, в отличие от SyStat и SPSS, содержит наибольшее количество методов статистического анализа.

Так, например, в нем значительно больше представлено возможностей для анализа закона распределения. К достоинствам этой системы можно также отнести хорошую двухмерную и трехмерную графику. Этот пакет программ довольно долго занимал одно из лидирующих мест в мире (5).

К "недостаткам" системы следует отнести то, что она рассчитана на специалистов, хорошо знакомых с концепциями применяемых процедур. Однако сегодня этот недостаток компенсируется удачно представленной в литературе (3) методикой использования СПП STATGRAPHICS.
Из новейших зарубежных статистических пакетов можно назвать SPSS и STATISTICA 5.0 для WINDOWS, которые позволяют значительно ускорить анализ данных благодаря мощному интерфейсу WINDOWS, располагающему богатейшими графическими возможностями, а также благодаря расширенному набору статистических процедур. Эти пакеты незаменимы для анализа больших объемов данных (в системе STATISTICA можно анализировать до 32000 переменных).
Из отечественных систем были исследованы возможности таких наиболее распространенных пакетов как Эвриста, Мезозавр и STADIA. Эвриста и Мезозавр относятся к специализированным пакетам, предназначенным для анализа временных рядов и регрессионного анализа. В них очень слабо представлены графические возможности, методы анализа закона распределения, непараметрические тесты.

Пакет STADIA по своим возможностям сопоставим с пакетом STATGRAPHICS (3).
В результате проведенного анализа для решения поставленной задачи был выбран статистический пакет программ STATISTICA, что обусловлено богатыми графическими возможностями пакета, реализацией большого набора статистических методов, возможностями обмена данными с Excel и возможностью включения данных, расчетных показателей и графиков в отчет, который может быть сформирован, например, с помощью текстового редактора WORD.

Первичный статистический анализ данных

Первичный статистический анализ имеющихся данных, состоящий в анализе показателей инвалидности, анализе внешних факторов и анализе взаимосвязи показателей инвалидности и внешних факторов, позволил выявить основные закономерности рассматриваемых процессов.
Результаты анализа могут быть сформулированы следующим образом.
1.По характеру динамики показателей инвалидности в период 1992-1994 г.г. все районы можно разделить на 4 группы:
с постоянным ростом показателей;
с постоянным уменьшением показателей;
с ростом показателей в 1993 году и последующим их уменьшением;
с уменьшением показателей в 1993 году и последующим их ростом.
Однако по коротким рядам динамики нельзя судить, отражает ли такая разбивка изменение тенденции или оно вызвано колебаниями временных рядов. Попытка описать динамику показателей инвалидности с помощью линейного тренда показала, что такое описание удовлетворительно не более чем для 10% районов.

Для остальных районов линейный тренд оказался незначимым: дисперсия, объясняемая с помощью линейного тренда, оказалась меньше дисперсии, связанной с отклонениями от тренда.
Соответственно ошибка прогнозирования показателей инвалидности на основе линейного тренда (без учета воздействия внешних факторов) может превышать 60% для тех районов, где в прогнозируемом году происходит смена направления тенденции. Это подтверждает ранее сделанное предположение о невозможности использования аппарата временных рядов для решения поставленной задачи.

Прогноз инвалидизации можно сделать только с учетом влияния внешних факторов на показатели инвалидности.
2.Пространственный анализ показателей инвалидности позволяет утверждать, что их законы распределения в основном отличны от нормального и, за редким исключением, могут быть хорошо описаны логнормальным распределением.
3.В имеющихся временных рядах с показателями инвалидности наблюдаются изменения по времени таких параметров распределения как математическое ожидание, дисперсия, асимметрия, эксцесс и т.п.
Следовательно, рассматриваемые временные ряды в общем случае являются нестационарными.
Например, для показателя "количество первично признанных инвалидами" наблюдается следующее изменение характеристик:

Характеристика 1992 год 1993 год 1994 год
Математическое ожидание 3.50 3.47 3.56
Среднеквадратическое отклонение 1.06 1.32 1.13
Мода 3.1 2.78 3.42
Медиана 3.34 3.29 3.42
Максимальное значение 10.31 12.2 9.65
Минимальное значение 2.02 1.67 1.49

Изменение характеристик для показателя "количество первично признанных инвалидами по трудовому увечью или профессиональному заболеванию":

Характеристика 1992 год 1993 год 1994 год
Математическое ожидание 1.52 1.37 1.35
Среднеквадратическое отклонение 0.77 0.58 0.63
Мода 1.09 1.0 1.33
Медиана 1.27 1.25 1.26
Максимальное значение 5.55 4.35 3.78
Минимальное значение 0.71 0.51 0.61

По остальным показателям картина аналогичная.
Однако изменения статистических показателей в соседних точках, как правило, не являются значительными. Поэтому на коротких временных отрезках можно с известной долей приближения рассматривать временные ряды с показателями инвалидности как стационарные.
4.Корреляции между соседними точками для всех показателей инвалидности выше для интервала 1994-1993 гг., чем для интервала 1993-1992 гг. Однако эта разница не превышает 0.1. Например, для показателя "количество первично признанных инвалидами" коэффициент корреляции между данными за 1992 и 1993 годы равен 0.94, а между данными за 1993 и 1994 годы равен 0.96.

Для показателя "количество первично признанных инвалидами по трудовому увечью или профессиональному заболеванию" коэффициент корреляции между данными за 1992 и 1993 годы равен 0.8, а между данными за 1993 и 1994 годы равен 0.87. Для показателя "количество первично признанных инвалидами вследствие общего заболевания" коэффициент корреляции между данными за 1992 и 1993 годы равен 0.94, а между данными за 1993 и 1994 годы равен 0.96.

Анализ значений коэффициентов корреляции позволяет сделать вывод о высокой зависимости показателей инвалидности от предыстории процесса.


5. Законы распределения внешних факторов могут быть приближены либо к нормальным, либо к логнормальным распределениям. Однако для внешних факторов характер распределения является менее выраженным, во многих случаях приближение к тем или иным законам распределения является спорным.
6. Анализ корреляций внешних факторов в 1992 году позволил выделить сильно коррелирующие (коллинеарные) факторы с коэффициентом корреляции, превышающим значение 0.8. Число таких факторов оказалось незначительным.
7. Каждый показатель инвалидности коррелирует с большим числом внешних факторов, причем коэффициенты корреляции при этом редко превышают 0.5. Например, показатель "количество женщин из числа первично признанных инвалидами" за 1993 год коррелирует с 20-ю внешними факторами за 1992 год (максимальный коэффициент корреляции 0.48); показатель "количество инвалидов-военных из общего числа признанных инвалидами" за 1993 год коррелирует с 30-ю внешними факторами за 1992 год (максимальный коэффициент корреляции 0.7; для пяти факторов коэффициент корреляции превышает 0.5); показатель "количество инвалидов детства из общего числа признанных инвалидами" за 1993 год коррелирует с 24-мя внешними факторами за 1992 год (максимальный коэффициент корреляции 0.58; для одного фактора коэффициент корреляции превышает 0.5).

По остальным показателям данные аналогичные.
8. Степень взаимосвязи внешних факторов с показателями инвалидности во времени для разных факторов изменяется по-разному. Для некоторых факторов наиболее сильна взаимосвязь в текущем году, а в последующие годы она уменьшается.

Например, для значений показателя "число женщин из числа первично признанных инвалидами", взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора "удельный вес автомобильных дорог с твердым покрытием" за 1992 год соответствующие коэффициенты корреляции равны -0.58, -0.38, -0.33.
Для других факторов наблюдается обратная зависимость: наиболее слабая взаимосвязь в текущем году, в последующие годы она увеличивается. Например, для значений показателя "количество первично признанных инвалидами вследствие общего заболевания", взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора "продажа всех видов алкогольных напитков в расчете на душу населения" за 1992 год соответствующие коэффициенты корреляции равны 0.3, 0.31, 0.36.
Для третьих факторов взаимосвязь наиболее сильная на следующий год: связь 1992-1993 годов больше, чем связь 1992-1992 и 1992-1994 годов. Например, для значений показателя "число женщин из числа первично признанных инвалидами", взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора "оборудование городского, государственного, общественного жилищного фонда и фонда ЖСК газом" за 1992 год соответствующие коэффициенты корреляции равны 0.24, 0.32, 0.31.
Такого рода закономерности могут быть связаны с тем, что влияние одних факторов на показатели инвалидности проявляется сразу же, в текущем году, а влияние других сказывается на следующий год или через год.
Для четвертых факторов наиболее слабая взаимосвязь наблюдается на следующий год: связь 1992-1993 годов меньше, чем связь 1992-1992 и 1992-1994 годов. Например, для значений показателя "число женщин из числа первично признанных инвалидами", взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора "число родившихся на 1000 человек населения" за 1992 год соответствующие коэффициенты корреляции равны 0.43, 0.22, 0.27.
9. Парные коэффициенты корреляции внешних факторов с показателями инвалидности с лаговым интервалом в один год (значения факторов взяты за предыдущий год относительно значений показателей инвалидности) могут значительно изменяться со временем. Например, для показателя "количество инвалидов 3 группы из числа первично признанных инвалидами":

Внешние факторы
Лаговый
интервал:
Удельный вес
городского
населения
Денежные
доходы на душу
населения
Кол-во легковых автомобилей
на 1000 человек
1992-1993 г.г. 0.256 0.354 0.315
1993-1994 г.г. 0.363 0.462 0.415
1994-1995 г.г. 0.351 0.441 0.466

Использование корреляционно-регрессионной МОДЕЛИ ДЛЯ ПРОГНОЗИРОВАНИЯ ИНВАЛИДНОСТИ


Основой регионального прогноза инвалидности является рассмотрение инвалидности как социально-экономического процесса, характеризующегося изменяющимися во времени и в пространстве связями между показателями инвалидности и внешними факторами окружающей среды. В качестве объектов, порождающих эти процессы, можно рассматривать как территорию России в целом, так и отдельные административные территории Российской Федерации как конгломерат социально-экономических условий. Таким образом, административные территории Российской Федерации могут быть рассмотрены как большие сложные системы.

При этом учитываются такие их основные свойства как стохастичность и инерционность.
Под стохастичностью мы понимаем невозможность однозначного определения будущих значений выходных показателей инвалидности на основе информации о предыстории и о значениях внешних показателей. Это связано с рядом причин:
?с неполнотой наших знаний о механизме, порождающем инвалидность;
?со случайным поведением определенной части внешних факторов (экологических и субъективных факторов - выбросов вредных веществ в атмосферу, сбросов загрязненных сточных вод, миграции населения);
?с тем, что любая математическая модель носит приближенный
характер;
?с погрешностью исходных статистических данных.
Второе важное для построения прогноза свойство - инерционность, связанная с невозможностью резкого скачкообразного изменения показателей инвалидности в соседние моменты времени. Это обусловлено тем, что для такого изменения требуются ресурсы, которые общество выделить не в состоянии.
Поэтому при построении краткосрочного прогноза инвалидности необходимо учитывать преемственность значений показателей инвалидности в соседние периоды времени и влияние внешних факторов окружающей среды.
Дополнительный анализ взаимосвязи годовых изменений показателей внешних факторов F(t+1)-F(t) и годовых изменений показателей инвалидности y(t+1)-y(t) показал, что полученные значения парных коэффициентов корреляции оказались незначимыми для всех показателей инвалидности (приложение 6). Поэтому нельзя строить прогноз изменений показателей инвалидности как зависимость от изменений внешних факторов.
Таким образом, краткосрочный прогноз того или иного показателя инвалидности на один год вперед может быть построен в виде корреляционно-регрессионной зависимости абсолютных значений показателей инвалидности и абсолютных значений внешних факторов:
, где
y(t+1) - искомый прогноз показателя инвалидности y в следующем году;
y(t) - известное значение показателя инвалидности в текущем году;
a0 - скалярный коэффициент регрессии;
F(t) - известные значения вектора внешних факторов в текущем году;
A1 - матричный коэффициент регрессии;
В силу инерционности системы можно ожидать, что характер регрессионной зависимости для прогнозируемого периода времени изменится несущественно по сравнению с текущем периодом времени.
Поэтому оценивание коэффициентов регрессии следует проводить по данным для текущего периода времени:
, где
y(t) - известные значения показателя инвалидности y в текущем году;
y(t-1) - известные значения показателя инвалидности в предыдущем году;
a0- оцениваемый скалярный коэффициент регрессии;
F(t-1) - известные значения вектора внешних факторов в предыдущем году;
A1 - оцениваемый матричный коэффициент регрессии.
При построении уравнения задача состоит в выделении значимых внешних факторов, включаемых в уравнение регрессии для того или иного показателя инвалидности. Для этого необходимо вычислить и проанализировать парные коэффициенты корреляции рассматриваемого показателя инвалидности и всех имеющихся внешних факторов. Для выделения факторов, имеющих устойчивую взаимосвязь с рассматриваемым показателем инвалидности, рекомендуется исследовать корреляционные зависимости со всеми имеющимися внешними факторами за последние несколько лет, а именно:
?для значений внешних факторов и значений показателей инвалидности с лагом 0: F(t)-y(t); F(t-1)-y(t-1); F(t-2)-y(t-2);
?для значений внешних факторов и значений показателей инвалидности с лагом 1: F(t-1)-y(t); F(t-2)-y(t-1); F(t-3)-y(t-2);
?для значений внешних факторов и значений показателей инвалидности с лагом 2: F(t-2)-y(t); F(t-3)-y(t-1).
Анализ имеющихся статистических данных показал, что наблюдается устойчивая связь показателей инвалидности и внешних факторов в основном при парных коэффициентах корреляции Ryf0.3. Причем такая взаимосвязь прослеживается на протяжении нескольких лет.
Таким образом, в регрессионную модель вначале следует включить те внешние факторы, которые имеют значимые парные коэффициенты корреляции с рассматриваемым показателем инвалидности в течение последних нескольких лет. Не следует включать в модель те внешние факторы, для которых коэффициенты корреляции либо оказались незначимыми для всех рассматриваемых периодов, либо оказались значимыми для одних периодов и незначимыми для остальных периодов времени.
После выделения факторов-кандидатов на включение в уравнение регрессии следует оценить степень их взаимосвязи. Для этого строится матрица взаимных корреляций по внешним факторам.

Если среди факторов-кандидатов оказались группы сильно взаимосвязанных факторов, то из каждой такой группы в итоговой модели должен остаться только один фактор.
Особо следует рассмотреть случай нестабильной структуры внешних факторов. Основная причина нестабильности - невозможность получения данных по тем или иным факторам за отдельные периоды времени.

В этом случае описанная выше методика относится к факторам, значения которых имеются по всем годам. Факторы, значения которых имеются только в отдельные периоды времени, рассматриваются отдельно.

Если в текущем году добавились значения по новым факторам по сравнению с предыдущим периодом времени, то из этих "лишних" факторов кандидатами на включение в регрессионную модель целесообразно выбирать те, у которых коэффициенты корреляции превышают 0.3.
Если в текущем году число имеющихся внешних факторов уменьшилось, то следует рассмотреть как коррелируют с показателем инвалидности "лишние" факторы за предшествующие годы (лаг 1). При обнаружении существенных взаимосвязей (коэффициенты корреляции 0.3) эти факторы могут считаться кандидатами на включение в регрессионную модель с соответствующими лагами. Таким образом, в регрессионной модели могут появиться дополнительные члены: f(t-2), f(t-2) и т.п.

Однако включение таких факторов в регрессионное уравнение целесообразно делать после построения регрессии с целью возможного улучшения модели.
Если факторы с лагами большими 1 не дают улучшения регрессионной модели, то они исключаются из уравнения регрессии.
После получения первоначального варианта регрессионной зависимости необходимо проанализировать статистику по включенным в модель внешним факторам. При обнаружении факторов, дающих незначительный вклад в регрессию, необходимо попробовать их исключить и оценить параметры новой регрессионной зависимости. Если качество оценивания (по остаточной сумме квадратов) окажется существенно хуже, чем до исключения факторов из модели, нужно вернуть исключенные факторы в модель.

Эти операции необходимо проделывать до тех пор, пока не будет получена регрессионная зависимость, дающая удовлетворительное качество оценивания показателя инвалидности за текущий год.
Для получения прогнозируемого значения показателя инвалидности в полученное регрессионное уравнение необходимо подставить вместо y(t-1) значения y(t), а вместо F(t-1) - значения внешних факторов F(t).
Рассмотрим пример прогнозирования показателя инвалидности "из общего числа первично признанных инвалидами: инвалиды детства" на 1995 год. Имелись следующие исходные статистические данные: значения показателя инвалидности за 1992, 1993, 1994, 1995 годы
по 75-ти регионам РФ; значения 79-ти внешних факторов за 1992 год, значения 15-ти внешних факторов за 1993 год и за 1994 год по 75-ти регионам РФ. В приложении 1 представлен список показателей инвалидности, в приложении 2 - внешних факторов.
Построение прогноза осуществлялось в три этапа.
Этап 1. Выделение внешних факторов, имеющих устойчивую взаимосвязь с рассматриваемым показателем инвалидности. Для этого были вычислены парные коэффициенты корреляции между внешними факторами и показателем инвалидности для следующих периодов:
? с лагом 0:

фак- инва- F_2 F_9 F_10 F_15 F_26 F_37 F_39 F_40 F_41 F_44 F_56 F_57 F_59 F_71 F_72
торы лиды
1992 1992 -0,36 -0,44 0,00 -0,25 -0,22 -0,37 -0,24 0,00 0,00 0,00 0,00 0,34 0,00 0,00 0,31
1993 1993 -0,42 -0,46 0,00 0,00 -0,30 -0,31 -0,26 0,00 0,00 0,00 0,00 0,44 0,00 0,00 0,00
1994 1994 -0,50 -0,52 0,00 0,00 - - -0,30 0,00 0,00 0,00 0,00 0,30 0,00 0,00 0,00

?с лагом 1:



Содержание раздела