Оценка качества линейного уравнения регрессии

Качество модели регрессии связывают с ее адекватностью наблюдаемым (эмпирическим) данным. Проверка адекватности модели регрессии наблюдаемым данным проводится на основе анализа остатков – отклонений фактического значения зависимой переменной от ее значения, полученного расчетным путем: .

На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, поеэтому . Случай, когда говорит уже о строго функциональной связи .

Для оценки качества регрессионных моделей используется средняя относительная ошибка аппроксимации:

(28)

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации; Еотн<7% свидетельствует о хорошем качестве модели.

1. Проверка качества уравнения регрессии

Лекция

2. Цели лекции

Выполнимость теоретических
предпосылок
Анализ расчетных статистических
показателей качества
Интерпретация регрессии
2

3. Случайные составляющие коэффициентов регрессии

После определения оценок b0 и b1 возникают вопросы:
– насколько точно эмпирическое уравнение регрессии
соответствует уравнению для всей генеральной
совокупности;
– насколько близки оценки b0 и b1 к своим теоретическим
значениям 0 и 1;
– как близко оцененное значение y i к условному
математическому ожиданию M[Y/X = xi];
– насколько надежны найденные оценки.
Для ответа на эти вопросы необходимы дополнительные
исследования.
3

4. Свойства оценок коэффициентов регрессии

Оценки b0 и b1 представляют собой случайные
величины, зависящие от случайного члена в
уравнении регрессии.
Рассмотрим теоретическую модель парной линейной
регрессии и ее оценку по выборке из n наблюдений:
Y 0 1 X
Справедлива формула:
Y b0 b1 X
b1
S xy
S x2
4

5. Свойства оценок коэффициентов регрессии

Представим выборочную ковариацию Sxy в виде:
Sxy = Cov(X, 0+ 1X+ ) = Cov(X, 0) + Cov(X, 1X) + Cov(X, ) =
= 1Sx2 + Cov(X, ).
S xy
S x
Следовательно, b1 2 1 2 ,
Sx
Sx
где 1 постоянная составляющая;
компонента.
S x
S x2 случайная
Тот же результат можно получить и для коэффициента b0.
5

6. Свойства оценок коэффициентов регрессии

Т.о. показано, что
Свойства оценок коэффициентов регрессии, а
следовательно, и качество построенного
уравнения регрессии существенно зависят от
свойств случайной составляющей.
6

7. Свойства оценок коэффициентов регрессии

Доказано, что для получения по МНК наилучших
результатов (при этом оценки bi обладают
свойствами состоятельности, несмещенности
и эффективности) необходимо выполнение
ряда предпосылок относительно случайного
отклонения.
7

8. Предпосылки использования МНК (условия Гаусса – Маркова)

10. Случайное отклонение имеет нулевое
математическое ожидание.
20. Дисперсия случайного отклонения постоянна.
30. Наблюдаемые значения случайных отклонений
независимы друг от друга.
40. Случайное отклонение д.б. независимо от объясняющей
переменной.
50. Регрессионная модель является линейной относительно
параметров, корректно специфицирована и содержит
аддитивный случайный член.
8

9. Предпосылки использования МНК (условия Гаусса – Маркова)

10. Случайное отклонение имеет нулевое
математическое ожидание.
M [ ] 0
Данное условие означает, что случайное
отклонение в среднем не оказывает влияния на
зависимую переменную.
9

10. Предпосылки использования МНК (условия Гаусса – Маркова)

20. Дисперсия случайного отклонения
постоянна.
D[ ] const
2
Из данного условия следует, что несмотря на то, что при
каждом конкретном наблюдении случайное отклонение i
может быть различным, но не должно быть причин,
вызывающих большую ошибку.
10

11. Предпосылки использования МНК (условия Гаусса – Маркова)

30. Наблюдаемые значения случайных
отклонений независимы друг от друга.
i j
i j
0,
Cov( i , j ) 2
, i j
Если данное условие выполняется, то говорят об отсутствии
автокорреляции.
11

12. Предпосылки использования МНК (условия Гаусса – Маркова)

40. Случайное отклонение д.б. независимо
от объясняющей переменной.
X Cov( i , X i ) 0
i
i
Это условие выполняется, если объясняющая переменная не
является случайной в данной модели.
12

13. Предпосылки использования МНК (условия Гаусса – Маркова)

50. Регрессионная модель является
линейной относительно параметров,
корректно специфицирована и содержит
аддитивный случайный член.
Yi 0 1 X i i
13

14. Предпосылки использования МНК (условия Гаусса – Маркова)

60. Наряду с выполнимостью указанных предпосылок при
построении линейных регрессионных моделей обычно
делаются еще некоторые предположения, а именно:
– случайное отклонение имеет нормальный закон
распределения;
– число наблюдений существенно больше числа
объясняющих переменных;
– отсутствуют ошибки спецификации;
– отсутствует линейная взаимосвязь между двумя или
несколькими объясняющими переменными.
14

15. Теорема Гаусса – Маркова

Теорема. Если предпосылки 10 – 50 выполнены, то оценки,
полученные по МНК, обладают следующими свойствами:
1. Оценки являются несмещенными, т.е. M[b0] = 0, M[b1] =
1. Это говорит об отсутствии систематической ошибки при
определении положения линии регрессии.
2. Оценки состоятельны, т.к. при n D[b0] 0, D[b1]
0. Это означает, что с ростом n надежность оценок
возрастает.
3. Оценки эффективны, т.е. они имеют наименьшую
дисперсию по сравнению с любыми другими оценками
данных параметров, линейными относительно величин yi.
15

16. Типичная картина выполнения условий Гаусса – Маркова

16

17. Типичная картина нарушения условий 20 и 40: D[] = const, Cov(i,Xi) = 0

Типичная картина нарушения условий
20 и 40: D[ ] = const, Cov( i,Xi) = 0
17

18. Типичная картина нарушения условия 30: Cov(i,j) = 0, i  j

Типичная картина нарушения
условия 30: Cov( i, j) = 0, i j
18

19. Система показателей качества парной регрессии

1. Показатели качества коэффициентов
регрессии
2. Показатели качества уравнения
регрессии в целом
3. Адекватность модели – остатки должны
удовлетворять условиям теоремы ГауссаМаркова
19

20. Показатели качества коэффициентов регрессии

1. Стандартные ошибки оценок (анализ точности
определения оценок).
2. Значения t-статистик (проверка гипотез
относительно коэффициентов регрессии).
3. Интервальные оценки коэффициентов
линейного уравнения регрессии.
4. Доверительные области для зависимой
переменной.
20

21. Стандартные ошибки оценок

Оценки b0 и b1 являются случайными величинами. Отсюда
следует, что стандартные ошибки коэффициентов
регрессии – это средние квадратические отклонения
коэффициентов регрессии от их истинных значений.
Можно показать, что дисперсии оценок b0 и b1 равны:
D[b1 ]
( x x)
i
x
2
2
2
, D[b0 ]
2
i
n ( xi x )
2
21

22. Свойства дисперсий оценок

1. Дисперсии D[b0] и D[b1] прямо пропорциональны
дисперсии случайного отклонения 2. Следовательно, чем
больше фактор случайности, тем менее точными будут
оценки.
2. Чем больше число наблюдений n, тем меньше дисперсии
оценок.
3. Чем больше дисперсия объясняющей переменной, тем
меньше дисперсия оценок коэффициентов регрессии.
Другими словами, чем шире область изменений
объясняющей переменной, тем точнее будут оценки (тем
меньше доля случайности в их определении).
22

23. Расчет стандартных ошибок

Заменив 2 на ее несмещенную оценку
S
2
2
e
e
2
i
n 1
получим:
2
S
e
D[b1 ] Sb21
2
(
x
x
)
i
D[b0 ] Sb20
Se2 xi2
n ( xi x )2
x 2 Sb21
23

24. Формулы расчета стандартных ошибок оценок

Стандартные ошибки коэффициентов регрессии:
Sb0 S
2
b0
Sb1 S
2
b1
Стандартная ошибка является оценкой среднего
квадратического отклонения коэффициента
регрессии от его истинного значения
24

25. Использование стандартных ошибок

Сравнивая значение коэффициента с его
стандартной ошибкой, можно судить о
значимости коэффициента
Коэффициент называется значимым, если есть
достаточно высокая вероятность того, что его
истинное значение отлично от нуля
Для стандартных ошибок оценок нет таблиц критических
уровней – для точного суждения используются t-статистики
25

26. Проверка значимости на основе t-статистик

Проверка значимости на основе t-статистик
заключается в установлении наличия линейной
зависимости между Y и X. Данный анализ
осуществляется по схеме проверки статистических
гипотез. Проверяются альтернативные гипотезы:
H 0 : 1 0
и
H1 : 1 0
26

27. Проверка значимости на основе t-статистик

Если принимается гипотеза H0, то считают, что величина Y не
зависит от X. В этом случае говорят, что коэффициент b1
статистически незначим (т.к. слишком близок к нулю). В
противном случае говорят, что коэффициент b1
статистически значим, что указывает на наличие линейной
зависимости между Y и X.
Для парной линейной регрессии более важным является анализ
статистической значимости коэффициента b1, т.к. именно в нем
скрыто влияние объясняющей переменной X на зависимую
переменную Y.
27

28. Значимость свободного члена

Аналогично проверяется значимость коэффициента b0.
Однако мы должны быть осторожны в сильном
выделении свободного члена. Почему?
1. Мы обычно не имеем наблюдений вблизи X=0.
2. При отсутствии наблюдений на каком-либо участке
оцененная зависимость не может быть данном месте
достоверной.
28

29. t-статистики для проверки значимости коэффициентов регрессии

t-статистика соизмеряет значение коэффициента
с его стандартной ошибкой:
b0
t (b0 )
Sb0
b1
t (b1 )
Sb1
29

30. t-статистики для проверки значимости коэффициентов регрессии

t-статистики в парной регрессии по n наблюдениям
при справедливости гипотезы H0 имеют
распределение Стьюдента с числом степеней
свободы l = n – 2
30

31. Порядок работы при проверке значимости коэффициента по t-статистике

1. Выбираем уровень значимости (1% или 5%).
2. Вычисляем число степеней свободы (n 2).
3. По таблицам распределения Стьюдента определяем
критическое значение t /2; n-2 (двухсторонний критерий) или
t ; n-2 (односторонний критерий).
4. Если модуль t-статистики больше критического значения,
то коэффициент является значимым на уровне значимости
.
5. В противном случае коэффициент не значим (на данном
уровне ).
31

32. Использование односторонних гипотез для проверки значимости коэффициентов

Использование односторонних гипотез иногда позволяет
«спасти» значимость коэффициентов регрессии при том
же уровне значимости
Это требует обязательного экономического обоснования
32

33. Пример (A). Проверка значимости

2
e
i
2
e
S
35,249
S
0,001490
2
2
( xi x) (n 2) ( xi x) 10 2366,3
2
b1
b1 0,9361
Sb1 0,00149 0,03860 tb1
24,25
Sb1 0,0386
Критическое значение при уровне значимости = 0,05:
têð t
2
; n 2
t0,025;10 2,634
33

34. Пример (A). Проверка значимости

tb1 24,25 2,634 têð
Поэтому нулевая гипотеза H0: { 1 = 0} отвергается в пользу
альтернативной при выбранном уровне значимости.
Следовательно, коэффициент регрессии b1 статистически
значим
Аналогично проверяем статистическую значимость
коэффициента b0
34

35. Пример (A). Проверка значимости

Sb20 x 2 Sb21 0,00149 15884,75 23,663
Sb0 23,663 4,864
b0 3,423
tb0
0,704
Sb0 4,864
tb0 0,704 2,634 têð
Гипотеза о статистической незначимости b0 не отклоняется.
Это означает, что свободным членом уравнения регрессии
можно пренебречь, рассматривая регрессию как Y = b1X
35

36. Правило оценки значимости коэффициентов регрессии без использования таблиц

1. Если tb 1 , то коэффициент bi не м.б. признан
значимым, т.к. доверительная вероятность менее 0,7.
2. Если 1 tb 2 , то найденная оценка может
рассматриваться как относительно (слабо) значимая. При
этом доверительная вероятность лежит между 0,7 и 0,95.
3. Если 2 tb 3 , то коэффициент значим. Доверительная
вероятность лежит между значениями 0,95 и 0,99.
4. Если tb 3 , то это почти полная гарантия значимости
коэффициента.
i
i
i
i
36

37. Интервальные оценки коэффициентов линейного уравнения регрессии

Построение доверительных интервалов для коэффициентов
линейной регрессии при заданном уровне значимости :
для 0:
для 1:
b0 t Sb0 ; b0 t Sb0
,n 2
,n 2
2
2
b1 t Sb1 ; b1 t Sb1
,n 2
,n 2
2
2
Доверительные интервалы с надежностью (1 )
накрывают истинные значения 0 и 1
37

38. Порядок работы при проверке значимости коэффициента по доверительному интервалу

1. Выбираем уровень значимости (1% или 5%).
2. Вычисляем число степеней свободы (n 2).
3. По таблицам распределения Стьюдента определяем
критическое значение t /2; n-2 (двухсторонний критерий).
4. Вычисляем границы доверительного интервала.
5. Если точка 0 (ноль) не лежит внутри доверительного
интервала, то коэффициент является значимым на уровне
значимости .
6. В противном случае коэффициент не значим (на данном
уровне ).
38

39. Доверительные области для зависимой переменной

Одной из центральных задач эконометрики является
прогнозирование значений зависимой переменной при
определенных значениях объясняющих переменных.
Здесь возможны два варианта:
1. Предсказать условное математическое ожидание
зависимой переменной при определенных значениях
объясняющих переменных (предсказание среднего
значения).
2. Предсказать некоторое конкретное значение зависимой
переменной (предсказание конкретного значения).
39

40. Предсказание среднего значения зависимой переменной

Пусть построено уравнение регрессии
y( xi ) b0 b1 xi
На его основе необходимо предсказать условное м. о.
M [Y / X x p ] 0 1 x p
переменной Y при X = xp.
Вопрос: Как сильно может уклониться значение y ( x p ) от
M [Y / X x p ]
40

41. Предсказание среднего значения зависимой переменной

Доверительная область для условного м. о. M[Y/X = xp]:
b0 b1 x p t S y ( x ) ; b0 b1 x p t S y ( x )
p
p
,n 2
,n 2
2
2
S y2( x p )
2
(
x
x
)
1
p
2
Se
2
n ( x x)
i
При x p x она минимальна, а по мере удаления xp от x
величина доверительной области увеличивается
41

42. Предсказание индивидуальных значений зависимой переменной

Построенная доверительная область для Mx[Y] определяет
местоположение модельной линии регрессии (условного м.о.),
а не отдельных возможных значений зависимой переменной,
которые отклоняются от среднего x .
Оценка дисперсии индивидуальных значений y p b0 b1 x p
при x = xp равна
2
S
yp
2
( x p x)
1
2
Se 1
n ( x x )2
i
42

43. Предсказание индивидуальных значений зависимой переменной

Доверительная область для прогнозов индивидуальных
значений y p имеет вид:
b0 b1 x p t
2
,n 2
S y p b0 b1 x p t
yp
2
,n 2
S
yp
Доверительная область для индивидуальных
значений y p шире доверительной области для
условного м.о. M [Y / X x p ]
43

44. Графики доверительных областей для зависимой переменной

44

45. Выводы по доверительным областям для зависимой переменной

1. Прогноз значений зависимой переменной Y по
уравнению регрессии оправдан, если значение x
объясняющей переменной X не выходит за диапазон
ее значений по выборке. Причем, чем ближе xp к x,
тем точнее прогноз (уже доверительный интервал).
2. Использование линии регрессии вне обследованного
диапазона значений объясняющей переменной (даже
если оно оправдано, исходя из смысла решаемой
задачи) может привести к значительным
погрешностям.
45

46. Пример (А). Доверительные области для зависимой переменной

1. Рассчитаем 95%-й доверительный интервал для
условного м.о. при xp = 160. Границы интервала
равны:
1 (160 125,25)2
3,423 0,9361 160 2,634 1,8775
12
2366,25
Отсюда среднее потребление при доходе 160 д.е. с
вероятностью 95% будет находиться в интервале:
(149,39; 157,01)
46

47. Пример (А). Доверительные области для зависимой переменной

2. Границы 95%-го доверительного интервала для
индивидуальных объемов потребления равны:
1 (160 125,25)2
3,423 0,9361 160 2,634 1,8775 1
12
2366,25
Отсюда интервал, в котором будут находиться, по
крайней мере 95% индивидуальных объемов
потребления при доходе xp = 160, равен:
(146,96; 159,44)
47

48. Показатели качества уравнения регрессии в целом

Суть проверки общего качества уравнения регрессии –
оценить насколько хорошо эмпирическое уравнение
регрессии согласуется со статистическими данными.
Основные показатели качества:
1. Коэффициент детерминации R2.
2. Значение F-статистики.
3. Коэффициент корреляции rxy.
4. Сумма квадратов остатков (RSS).
5. Стандартная ошибка регрессии Se.
6. Средняя ошибка аппроксимации.
48

49. Коэффициент детерминации R2

Коэффициент R2 показывает долю объясненной
вариации зависимой переменной:
R 1
2
2
e
i
( y
i
y)
2
Используется для предварительной оценки качества
модели и как основа для расчета других показателей
Коэффициенты R2 в разных моделях с разным
числом наблюдений (и переменных) несравнимы
49

50. Основные свойства коэффициента детерминации

1.
2.
3.
4.
0 R2 1.
Чем ближе R2 к 1, тем лучше регрессия аппроксимирует
статистические данные, тем теснее линейная связь
между зависимой и объясняющими переменными.
Если R2 = 1, то статистические данные лежат на линии
регрессии, т.е. между зависимой и объясняющими
переменными имеется функциональная зависимость.
Если R2 = 0, то вариация зависимой переменной
полностью обусловлена воздействием неучтенных в
модели переменных.
В случае парной регрессии R2 = rxy2.
50

51. Пример (А). Расчет коэффициента детерминации

e
2
i
35,249
R 1
1
0,983
2
2108,667
( yi y )
2
51

52. F-тест на качество оценивания уравнения регрессии

Основан на основном тождестве дисперсионного анализа
n
Var( y ) Var( y ) Var(e)
( y y) ( y y) e
2
2
i
i
TSS
ESS
2
i
RSS
TSS – общая сумма квадратов отклонений
ESS – объясненная сумма квадратов отклонений
RSS – необъясненная сумма квадратов отклонений
52

53. F-статистика для проверки качества уравнения регрессии

F-статистика представляет собой отношение объясненной
суммы квадратов (в расчете на одну независимую
переменную) к остаточной сумме квадратов (в расчете на
одну степень свободы)
F Fфакт
2
(
y
y
)
i
m
2
(
y
y
)
i i
n m 1
ESS
m
,
RSS
n m 1
n – число выборочных наблюдений, m – число
объясняющих переменных
53

54. F-статистика для проверки качества уравнения регрессии

При отсутствии линейной зависимости между зависимой
и объясняющими(ей) переменными F-статистика имеет Fраспределение Фишера-Снедекора со степенями свободы
k1 = m, k2 = n – m –1.
Уравнение регрессии значимо на уровне , если
Fфакт F ;k1 ;k2 ,
где F ;k1 ;k 2 – табличное значение F-распределения,
определенное на уровне значимости при степенях
свободы k1 и k2
54

55. F-статистика для проверки качества парного уравнения регрессии

В парной (m = 1) регрессии F-статистика является
отношением объясненной суммы квадратов к остаточной
сумме квадратов (в расчете на одну степень свободы),
причем m = 1, n – m –1 = n – 2.
ESS / m
( ESS / TSS ) / m
R2
F
RSS /( n m 1) ( RSS / TSS ) /( n m 1) (1 R2 ) /( n 2)
F-статистика в парной регрессии по n наблюдениям
имеет F-распределение с 1 и (n–2) степенями свободы
55

56. Порядок работы при проверке значимости парного уравнения по F-статистике

1. Выбираем уровень значимости (1% или 5%).
2. Вычисляем число степеней свободы 1 и (n 2).
3. По таблицам F-распределения определяем
критическое значение F ; 1; n-2 (всегда одностороннее).
4. Если F-статистика больше F ; 1; n-2 , то уравнение в целом
является значимым на уровне значимости .
5. В противном случае уравнение в целом не значимо (на
данном уровне ).
56

57. Связь между значимостью коэффициента регрессии и уравнения в целом

В парной регрессии F-статистика равна квадрату
t-статистики; то же верно и для их критических
уровней (односторонний для t-статистики)
t F
2
t
; n 2
2
F ;1; n 2
В парной регрессии значимость коэффициента регрессии
и значимость уравнения в целом эквивалентны
F-статистики в разных моделях с разным числом
наблюдений и (или) переменных несравнимы
57

58. Коэффициент корреляции rxy

Коэффициент корреляции указывает на наличие
(или отсутствие) линейной связи между зависимой
и объясняющей переменными
Для проверки гипотезы об отсутствии линейной связи
используется тот факт, что величина
n 2
t r
2
1 r
имеет распределение Стьюдента с (n–2) степенями свободы
58

59. Взаимосвязь критериев в парном регрессионном анализе

Коэффициент корреляции по абсолютной величине
совпадает с квадратным корнем из коэффициента
детерминации
rxy R
2
t-статистики для коэффициента корреляции и
коэффициента регрессии b1 совпадают
Проверка значимости коэффициента регрессии
эквивалентна проверке наличия линейной связи
59

60. Проверка значимости коэффициента детерминации

Критическое значение R2 связано с
критическим значением F-статистики
2
крит
R
mFкрит
mFкрит (n m 1)
mF ; m; n m 1
mF ; m; n m 1 (n m 1)
,
Проверка значимости коэффициента
детерминации эквивалентна проверке
значимости уравнения регрессии в целом
60

61. Сумма квадратов остатков RSS

Является оценкой необъясненной части
вариации зависимой переменной
n
RSS e
i 1
2
i
Используется как основная минимизируемая величина в
МНК, а также для расчета других показателей
Значения RSS в разных моделях с разным числом
наблюдений и (или) переменных несравнимы
61

62. Стандартная ошибка регрессии Se

Является оценкой величины квадрата ошибки,
приходящейся на одну степень свободы модели
n
Se
2
e
i
i 1
n m 1
Используется как основная величина для измерения
качества модели (чем она меньше, тем лучше)
Значения Se в однотипных моделях с разным числом
наблюдений и (или) переменных сравнимы
62

63. Средняя ошибка аппроксимации A

Оценку качества модели дает также средняя ошибка
аппроксимации
– среднее отклонение расчетных значений
y i зависимой переменной от фактических значений yi
1 n yi y i
A
100%.
n i 1 yi
Допустимый предел значений A – не более 10%.
Чем меньше значение A, тем лучше
Значения A в моделях с разным числом наблюдений
и одинаковым количеством переменных сравнимы
63

64. Типичные ошибки в использовании показателей качества регрессии

Величина коэффициентов регрессии не указывает на силу
связи или силу влияния на зависимую переменную
Значимость коэффициентов по t-тестам не позволяет
сделать вывод о справедливости тех или иных теорий
t-статистики не указывают на относительную важность
коэффициентов регрессии
t-статистики предназначены для использования
исключительно для выборки и бесполезны для анализа
всей совокупности
Нельзя сравнивать t-статистики, F-статистики,
коэффициенты детерминации и др. у разных уравнений
64

65. Ограниченность простой регрессии

1. Никакая единственная переменная за редкими
исключениями не в состоянии хорошо «объяснить»
изменения зависимой переменной.
2. Могут существовать несколько одинаково хороших и
взаимно противоречивых регрессий.
3. Наконец, линейная форма примитивна.
И тем не менее: Нет ничего лучше по простоте и
ясности объяснения парной линейной связи. При
равной объясняющей способности из двух моделей мы
всегда выбираем более простую.
65

66.

Конец лекции
66

Ошибка аппроксимации как критерий качества регрессионной модели. Тогда средняя ошибка аппроксимации равна

Главная / Электропроводка

Министерство
сельского хозяйства РФ

Федеральное
государственное бюджетное образовательное

учреждение
высшего профессионального образования

«Пермская
государственная сельскохозяйственная
академия

имени
академика Д.Н.Прянишникова»

Кафедра финансов,
кредита и экономического анализа

Контрольная работа по дисциплине «Эконометрика» Вариант – 10

    Ошибки
    аппроксимации и ее определение………………………………….3

    Аналитический
    способ выравнивания временного ряда
    и используемые при этом
    функции……………………………………………………………..4

    Практическая
    часть…………………………………………………………..11

    1. Задание
      1………………………………………………………………11

      Задание
      2……………………………………………….………………19

Список
использованной литературы…………………………………………..25

  1. Ошибки аппроксимации и ее определение.

Средняя ошибка
аппроксимации

– это среднее отклонение расчетных
данных от фактических. Она определяется
в процентах по модулю.

Фактические
значения результативного признака
отличаются от теоретических. Чем меньше
это отличие, тем ближе теоретические
значения подходят к эмпирическим данным,
это лучшее качество модели. Величина
отклонений фактических и расчетных
значений результативного признака по
каждому наблюдению представляет собой
ошибку аппроксимации. Их число
соответствует объему совокупности. В
отдельных случаях ошибка апроксимации
может оказаться равной нулю. Для сравнения
используются величины отклонений,
выраженные в процентах к фактическим
значениям.

Поскольку может
быть как величиной положительной, так
и отрицательной, то ошибки аппроксимации
для каждого наблюдения принято определять
в процентах по модулю. Отклонения можно
рассматривать как абсолютную ошибку
аппроксимации, и как относительную
ошибку аппроксимации. Чтоб иметь общее
суждение о качестве модели из относительных
отклонений по каждому наблюдению,
определяют среднюю ошибку аппроксимации
как среднюю арифметическую простую.

Среднюю ошибку
аппроксимации рассчитают по формуле:

Возможно и иное
определение средней ошибки аппроксимации:

Если А£10-12%, то
можно говорить о хорошем качестве
модели.

  1. Аналитический способ выравнивания временного ряда и используемые при этом функции.

Более
совершенным приемом выявления основной
тенденции развития в рядах динамики
является аналитическое выравнивание.
При изучении общей тенденции методом
аналитического выравнивания исходят
из того, что изменения уровней ряда
динамики могут быть с той или иной
степенью точности приближения выражены
определенными математическими функциями.
Вид уравнения определяется характером
динамики развития конкретного явления.
На практике по имеющемуся временному
ряду задают вид и находят параметры
функции y=f(t), а затем анализируют поведение
отклонений от тенденции. Чаще всего при
выравнивании используются следующие
зависимости: линейная, параболическая
и экспоненциальная. Во многих случаях
моделирование рядов динамики с помощью
полиномов или экспоненциальной функции
не дает удовлетворительных результатов,
так как в рядах динамики содержатся
заметные периодические колебания вокруг
общей тенденции. В таких случаях следует
использовать гармонический анализ
(гармоники ряда Фурье). Применение,
именно, этого метода предпочтительно,
поскольку он определяет закон, по
которому можно достаточно точно
спрогнозировать значения уровней ряда.

Целью же аналитического
выравнивания динамического ряда является
определение аналитической или графической
зависимости y=f(t). Функцию y=f(t) выбирают
таким образом, чтобы она давала
содержательное объяснение изучаемого
процесса. Это могут быть различные
функции.

Системы уравнений
вида y=f(t) для оценки параметров полиномов
по МНК

(кликабельно)

Графическое
представление полиномов n-порядка

1.
Если изменение уровней ряда характеризуется
равномерным увеличением (уменьшением)
уровней, когда абсолютные цепные приросты
близки по величине, тенденцию развития
характеризует уравнение прямой линии.

2.
Если в результате анализа типа тенденции
динамики установлена криволинейная
зависимость, примерно с постоянным
ускорением, то форма тенденции выражается
уравнением параболы второго порядка.

3.
Если рост уровней ряда динамики происходит
в геометрической прогрессии, т.е. цепные
коэффициенты роста более или менее
постоянны, выравнивание ряда динамики
ведется по показательной функции.

После
выбора вида уравнения необходимо
определить параметры уравнения. Самый
распространенный способ определения
параметров уравнения – это метод
наименьших квадратов, в котором в
качестве решения принимается точка
минимума суммы квадратов отклонений
между теоретическими (выравненными по
выбранному уравнению) и эмпирическими
уровнями.

Выравнивание
по прямой (определение линии тренда)
имеет выражение: yt=a0+a1t

t-условное
обозначение времени;

а
0 и a1-параметры искомой прямой.

Параметры
прямой находятся из решения системы
уравнений:

Система уравнений
упрощается, если значения t подобрать
так, чтобы их сумма равнялась Σt = 0, т. е.
начало отсчета времени перенести в
середину рассматриваемого периода.
Если до переноса точки отсчета t = 1, 2, 3,
4…, то после переноса:

если число уровней
ряда нечетное t = -4 -3 -2 -1 0 +1 +2 +3 +4

если
число уровней ряда четное t = -7 -5 -3
-1 +1 +3 +5 +7

Таким образом, ∑t
в нечетной степени всегда будет равна
нулю.

Аналогично находятся
параметры параболы 2-го порядка из
решения системы урав­нений:

Выравнивание
по среднему абсолютному приросту или
среднему коэффициенту роста:

Δ-средний абсолютный
прирост;

К-средний коэффициент
роста;

У0-начальный уровень
ряда;

Уn-конечный уровень
ряда;

t-порядковый номер
уровня, начиная с нуля.

Построив
уравнение регрессии, проводят оценку
его надежности. Значимость выбранного
уравнения регрессии, параметров уравнения
и коэффициента корреляции следует
оценить, применив критические методы
оценки:

F-критерий Фишера,
t–критерий Стьюдента, при этом, расчетные
значения критериев сравниваются с
табличными (критическими) при заданном
уровне значимости и числе степеней
свободы. Fфакт > Fтеор – уравнение
регрессии адекватно.

n – число наблюдений
(уровней ряда), m – число параметров
уравнения (модели) регрессии.

Проверка
адекватности уравнения регрессии (качества модели в целом) осуществляется
с помощью средней ошибки аппроксимации,
величина которой не должна превышать
10-12% (рекомендовано).

Показатели корреляции и детерминации

Линейной парной регрессии

Опираясь на вспомогательные данные, которые рассчитаны в табл. 2, рассчитываем показатель тесноты связи.

Таким показателем является выборочный линейный коэффициент корреляции, рассчитываемый с использованием формулы.

По результатам расчета коэффициента корреляции можно сделать вывод, что связь между факторным и результативным признаком прямая и сильная (по шкале Чеддока).

Квадрат коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.

Обычно, давая интерпретацию коэффициента детерминации, его выражают в процентах.

R 2 = 0.847 2 = 0.7181

т.е. в 71.81% случаев изменения факторного признака приводит к изменению и результатирующего признака. Точность подбора уравнения регрессии довольно высокая. Остальные 28.19% изменения Y объясняются факторами, не учтенными в модели.

Степенной парной регрессии

Тесноту связи результатирующего и факторного признака для степенной парной регрессии определим с использованием коэффициента корреляции:

Подставив известные данные, получим:

Показатель детерминации.

т.е. в 69% случаев изменения факторного признака приводит к изменению и результатирующего признака. Точность подбора уравнения регрессии – средняя. Остальные 31% изменения Y объясняются факторами, не учтенными в модели.

Средняя ошибка аппроксимации

Линейной парной регрессии

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

Степенной парной регрессии

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.

Оценка с помощью F-критерия Фишера статистической надежности результатов регрессионного моделирования

Линейной парной регрессии

Коэффициент детерминации R 2 используется для проверки существенности уравнения линейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k 1 =(m) и k 2 =(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

где m=1 для парной регрессии.

Поскольку фактическое значение F >

Степенной парной регрессии

Аналогично линейной парной регрессии проведем оценку степенной парной регрессии

где m – число факторов в модели.

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости б.

2. Определяем фактическое значение F-критерия:

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

F табл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости б. Уровень значимости б – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно б принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-б) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы:

k 1 =1 и k 2 =8, F табл = 5.32

Поскольку фактическое значение F > F табл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

По результатам анализа делаем вывод, что коэффициенты детерминации как для линейной парной регрессии, так и для степенной парной регрессии являются статистически значимыми.

Поскольку линейная парная регрессии имеет выше коэффициент (показательно) детерминации, считаем, что именно она адекватно описывает зависимость между факторным и результатирующим признаком.

5.
С использованием F-
критерия установлено, что полученное
уравнение парной регрессии в целом
является статистически незначимым, и
неадекватно описывает изучаемое явление
связи величины ежемесячной пенсии у
с величиной прожиточного минимума х.

6. Сформирована эконометрическая модель множественной линейной регрессии, связывающая величину чистого дохода условной фирмы у с оборотом капитала х1 и использованным капиталом х2

7.
Путем расчета коэффициентов эластичности
показано, что при изменении оборота
капитала на 1% величина чистого дохода
копании изменяется на 0,0008%, а при изменении
использованного капитала на 1% величина
чистого дохода компании изменяется на
0,56%.

8.
С использованием t-критерия
выполнена оценка статистической
значимости коэффициентов регрессии
Установлено, что объясняющая переменная
х 1
является
статистически незначимой и ее можно
исключить из уравнения регрессии, в
тоже время объясняющая переменная х 2
является статистически значимой.

9.
С использованием F-критерия
установлено, что полученное уравнение
парной регрессии в целом является
статистически значимым, и адекватно
описывает изучаемое явление связи
величины чистого дохода условной фирмы
у
с оборотом капитала х 1
и использованным
капиталом х 2 .

10.
Рассчитана средняя ошибка аппроксимации
статистических данных линейным уравнением
множественной регрессии, которая
составила 29,8%. Показано, за счет какого
наблюдения в статистической базе
величина данной ошибки превышает
допустимое значение.

14. Построение
модели парной регрессии без использования
EXCEL.

Используя
статистический материал, приведенный
в таблице 3.5 необходимо:

2.Оценить
тесноту связи с помощью показателей
корреляции и детерминации.

3.Используя
коэффициент эластичности, определить
степень связи факторного признака
с результативным.

4.Определить
среднюю ошибку аппроксимации.

5.Оценить
с помощью F-критерия
Фишера статистическую надежность
моделирования.

Таблица
3.5. Исходные данные.

Доля
денежных доходов,
направленных на
прирост
сбережений во
вкладах,
займах, сертификатах и на покупку
валюты, в общей сумме среднедушевого
денежного
дохода, %

Среднемесячная
начисленная
заработная плата, у.д.е.

Калужская

Костромская

Орловская

Рязанская

Смоленская

Для
определения неизвестных параметров
b 0 ,
b 1
уравнения
парной линейной регрессии используем
стандартную систему нормальных уравнений,
которая имеет вид

(3.7)

Для
решения этой системы вначале необходимо
определить значения величин Sх 2
и Sху.
Эти значения определяем из таблицы
исходных данных, дополняя ее соответствующими
колонками (таблица 3.6).

Таблица
3.6. К расчету коэффициентов регрессии.

Тогда
система (3.7) приобретает вид

Выражая
из первого уравнения b 0
и подставляя
полученное выражение во второе уравнение
получим:

Производя
почленное умножение и раскрывая скобки,
получим:

Окончательно
уравнение парной линейной регрессии,
связывающее величину доли денежных
доходов населения, направленных на
прирост сбережений у
с величиной среднемесячной начисленной
заработной платы х
имеет вид:

Так,
как построено уравнение парной линейной
регрессии, то определяем линейный
коэффициент корреляции по зависимости:

где- значения среднеквадратических
отклонений соответствующих параметров.

Для
расчета линейного коэффициента корреляции
по зависимости (3.9) выполним промежуточные
расчеты.

Подставляя
значения найденных параметров в выражение
(3.9) получим

.

Полученное
значение линейного коэффициента
корреляции свидетельствует о наличии
слабой обратной статистической связи
между величиной доли денежных доходов
населения, направленных на прирост
сбережений у
и величины среднемесячной начисленной
заработной платы х.

Коэффициент
детерминации равен
,
что означает, что только 9,6% объясняется
регрессией объясняющей переменнойх
на величину
у. Соответственно
величина 1-равная 90,4 % характеризует долю дисперсии
переменнойу,
вызванную
влиянием всех остальных, неучтенных в
эконометрической модели объясняющих
переменных.

Коэффициент
эластичности равен

Следовательно,
при изменении величины среднемесячной
начисленной заработной платы на 1%
величина доли денежных доходов населения,
направленных на прирост сбережений
также снижается на 1%, причем при увеличении
заработной платы наблюдается снижение
величины доли денежных доходов населения,
направленных на прирост сбережений.
Данный вывод противоречит здравому
смыслу и может быть объяснен только
некорректностью сформированной
математической модели.

Рассчитаем
среднюю ошибку аппроксимации.

Таблица
3.7. К расчету средней ошибки аппроксимации.

Полученное
значение превышает (12…15)%, что
свидетельствует о существенности
среднего отклонения расчетных данных
от фактических, по которым построена
эконометрическая модель.

Надежность
статистического моделирования выполним
на основе F-критерия
Фишера.
Теоретичное значение критерия Фишера
F расч
определяется
из соотношения значений факторной
и
остаточнойдисперсий, рассчитанных на одну степень
свободы по формуле

где
n
-число наблюдений;

m-число
объясняющих переменных (для рассматриваемого
примераm
m
=1).

Критическое
значение F крит
определяется по статистическим таблицам
и для уровня значимости a
= 0, 05 равняется 10,13. Так как F расч

15. Построение
модели множественной регрессии без
использования EXCEL.

Используя
статистический материал, приведенный
в таблице 3.8 необходимо:

1.
Построить линейное уравнение множественной
регрессии, пояснить экономический смысл
его параметров.

2.
Дать сравнительную оценку тесноты связи
факторов с результативным признаком с
помощью средних (общих) коэффициентов
эластичности.

3.
Оценить статистическую значимость
коэффициентов регрессии с помощью
t-критерия
и нулевую гипотезу о не значимости
уравнения с помощью F-критерия.

4.
Оценить качество уравнения посредством
определения средней ошибки аппроксимации.

Таблица
3.8. Исходные данные.

Чистый доход,
млн. долл. США

Оборот капитала
млн. долл. США

Использованный
капитал,млн. долл. США

Для
определения неизвестных параметров
b 0 ,
b 1 ,
b 2
уравнения множественной линейной
регрессии используем стандартную
систему нормальных уравнений, которая
имеет вид

(3.11)

Для
решения этой системы вначале необходимо
определить значения величин Sх 1 2 ,
Sх 2 2 ,
Sх 1 у,
Sх 2 у,
Sх 1 х 2 .
Эти значения определяем из таблицы
исходных данных, дополняя ее соответствующими
колонками (таблица 3.9).

Таблица
3.9. К расчету коэффициентов регрессии.

Тогда
система (3.11) приобретает вид

Для
решения данной системы воспользуемся
методом Гаусса, который заключается в
последовательном исключении неизвестных:
делим первое уравнение системы на 10,
затем умножаем полученное уравнение
на 370,6 и вычитаем его из второго уравнения
системы, далее умножаем полученное
уравнение на 158,20 и вычитаем его из
третьего уравнения системы. Повторяя
указанный алгоритм для преобразованных
второго и третьего уравнений системы
получим:

ÞÞ

Þ.

После
преобразования имеем:

Тогда
окончательно зависимость чистого дохода
от оборота капитала и использованного
капитала в виде линейного уравнения
множественной регрессии имеет вид:

Из
полученного эконометрического уравнения
видно, что с увеличением используемого
капитала чистый доход увеличивается и
наоборот с увеличением оборота капитала,
чистый доход уменьшается. Кроме того,
чем больше величина коэффициента
регрессии, тем значительнее влияние
объясняющей переменной на зависимую
переменную. В рассматриваемом примере
величина коэффициента регрессии
больше чем величина коэффициентаследовательно, используемый капитал
оказывает значительно большее влияние
на чистый доход, чем оборот капитала.
Для количественной оценки указанного
вывода определим частные коэффициенты
эластичности.

Анализ
полученных результатов так же показывает,
что большее влияние на чистый доход
оказывает используемый капитал. Так в
частности, при увеличении используемого
капитала на 1% чистый доход увеличиваетсяна
1,17%. В то же время с ростом оборота
капитала на 1%, чистый доход снижается
на 0,5%.

Теоретическое
значение критерия Фишера F расч

Величина
критического значения F крит,
определяется по статистическим таблицам
и для уровня значимости a
= 0,05 равняется 4,74. Так как F расч
>
F крит,
то нулевая гипотеза отвергается, и
полученное уравнение регрессии
принимается статистически значимым.

Оценка
статистической значимости коэффициентов
регрессии
ипоt-критерию
сводится к сопоставлению численного
значения этих коэффициентов с величиной
их случайных ошибок
ипо зависимости:

Рабочая
формула для расчета теоретического
значения t-статистики
имеет вид:

,
(3.13)

где
парные коэффициенты корреляции и
коэффициент множественной корреляции
рассчитываются по зависимостям:

Тогда
теоретические (расчетные) значения
t-статистик
соответственно равны:

Поскольку
критическое значение t-статистики,
определенное по статистическим таблицам
для уровня значимости a=0,05
равное t крит
=2,36 больше по абсолютной величине чем
= – 1,798, то нулевая гипотеза не отвергается
и объясняющая переменная х 1
является
статистически незначимой и ее можно
исключить из уравнения регрессии. И
наоборот, для второго коэффициента
регрессии>
t крит
(3,3 >2,36),и
объясняющая переменная х 2
является статистически значимой.

Рассчитаем
средней ошибки аппроксимации.

Таблица
3.10. К расчету средней ошибки аппроксимации.

Тогда
средняя ошибка аппроксимации равна

Полученное
значение не превышает допустимого
предела равного (12…15)%.

16.
История развития теории измерений

Сначала
ТИ развивалась как теория психофизических
измерений. В послевоенных публикациях
американский психолог С.С. Стивене
основное внимание уделял шкалам
измерения. Во второй половине XX
в. сфера применения ТИ стремительно
расширяется. Один из томов выпущенной
в США в 50-х годах «Энциклопедии
психологических наук» назывался
«Психологические измерения». Составители
этой публикации расширили сферу
применения ТИ с психофизики на психологию
в целом. В статье этого сборника «Основы
теории измерений» , изложение шло на
абстрактно-математическом уровне, без
привязки к какой-либо конкретной области
применения. В ней упор был сделан на
«гомоморфизмах эмпирических систем с
отношениями в числовые» (в эти
математические термины здесь вдаваться
нет необходимости), и математическая
сложность изложения возросла по сравнению
с работами С.С. Стивенса.

В
одной из первых отечественных статей
по ТИ (конец 60-х годов) было установлено,
что баллы, присваиваемые экспертами
при оценке объектов экспертизы, как
правило, измерены в порядковой шкале.
Работы, появившиеся в начале 70-х годов,
привели к существенному расширению
области использования ТИ. Ее применяли
к педагогической квалиметрии (измерению
качества знаний учащихся), в системных
исследованиях, в различных задачах
теории экспертных оценок, для агрегирования
показателей качества продукции, в
социологических исследованиях, и др.

В
качестве двух основных проблем ТИ наряду
с установлением типа шкалы измерения
конкретных данных был выдвинут поиск
алгоритмов анализа данных, результат
работы которых не меняется при любом
допустимом преобразовании шкалы (т.е.
является инвариантным относительно
этого преобразования).Порядковыми
шкалами в географии являются бофортова
шкала ветров («штиль», «слабый ветер»,
«умеренный ветер» и т.д.), шкала силы
землетрясений. Очевидно, нельзя
утверждать, что землетрясение в 2 балла
(лампа качнулась под потолком) ровно в
5 раз слабее, чем землетрясение в 10 баллов
(полное разрушение всего на поверхности
земли).

В
медицине порядковыми шкалами являются
шкала стадий гипертонической болезни
(по Мясникову), шкала степеней сердечной
недостаточности (по Стражеско-Василенко-Лангу),
шкала степени выраженности коронарной
недостаточности (по Фогельсону), и т.д.
Все эти шкалы построены по схеме:
заболевание не обнаружено; первая стадия
заболевания; вторая стадия; третья
стадия… Иногда выделяют стадии 1а, 16 и
др. Каждая стадия имеет свойственную
только ей медицинскую характеристику.
При описании групп инвалидности числа
используют в противоположном порядке:
самая тяжелая – первая группа инвалидности,
затем – вторая, самая легкая – третья.

Номера
домов также измерены в порядковой шкале
– они показывают, в каком порядке стоят
дома вдоль улицы. Номера томов в собрании
сочинений писателя или номера дел в
архиве предприятия обычно связаны с
хронологическим порядком их создания.

При
оценке качества продукции и услуг, в
так называемой квалиметрии (буквальный
перевод – измерение качества) популярны
порядковые шкалы. А именно, единица
продукции оценивается как годная или
не годная. При более тщательном анализе
используется шкала с тремя градациями:
есть значительные дефекты – присутствуют
только незначительные дефекты – нет
дефектов. Иногда применяют четыре
градации: имеются критические дефекты
(делающие невозможным использование)
– есть значительные дефекты – присутствуют
только незначительные дефекты – нет
дефектов. Аналогичный смысл имеет
сортность продукции – высший сорт, первый
сорт, второй сорт,…

При
оценке экологических воздействий
первая, наиболее обобщенная оценка –
обычно порядковая, например: природная
среда стабильна – природная среда
угнетена (деградирует). Аналогична
эколого-медицинская шкала: нет выраженного
воздействия на здоровье людей – отмечается
отрицательное воздействие на здоровье.

Порядковая
шкала используется и в других областях.
В эконометрике это прежде всего различные
методы экспертных оценок.

Все
шкалы измерения делят на две группы –
шкалы качественных признаков и шкалы
количественных признаков. Порядковая
шкала и шкала наименований –
основные шкалы
качественных признаков, поэтому
во многих конкретных областях результаты
качественного анализа можно рассматривать
как измерения по этим шкалам. Шкалы
количественных признаков –
это шкалы
интервалов, отношений, разностей,
абсолютная. По
шкале интервалов измеряют величину
потенциальной энергии или координату
точки на прямой. В этих случаях на шкале
нельзя отметить ни естественное начало
отсчета, ни естественную единицу
измерения. Исследователь должен сам
задать точку отсчета и сам выбрать
единицу измерения. Допустимыми
преобразованиями в шкале интервалов
являются линейные возрастающие
преобразования, т.е. линейные функции.
Температурные шкалы Цельсия и Фаренгейта
связаны именно такой зависимостью: °С
= 5/9 (°F
– 32), где °С – температура (в градусах) по
шкале Цельсия, a
°F
– температура по шкале Фаренгейта.

Из
количественных шкал наиболее
распространенными в науке и практике
являются шкалы отношений. В них есть
естественное начало отсчета – нуль, т.е.
отсутствие величины, но нет естественной
единицы измерения. По шкале отношений
измерены большинство физических единиц:
масса тела, длина, заряд, а также цены в
экономике. Допустимыми преобразованиями
в шкале отношений являются подобные
(изменяющие только масштаб). Другими
словами, линейные возрастающие
преобразования без свободного члена,
например, пересчет цен из одной валюты
в другую по фиксированному курсу.
Предположим, мы сравниваем экономическую
эффективность двух инвестиционных
проектов, используя цены в рублях. Пусть
первый проект оказался лучше второго.
Теперь перейдем на валюту Китая – юани,
используя фиксированный курс пересчета.
Очевидно, первый проект должен опять
оказаться более выгодным, чем второй.
Однако алгоритмы расчета не обеспечивают
автоматически выполнения этого условия,
и надо проверять, что оно выполнено.
Результаты подобной проверки для средних
величин описаны ниже.

В
шкале разностей есть естественная
единица измерения, но нет естественного
начала отсчета. Время измеряется по
шкале разностей, если год (или сутки –
от полудня до полудня) принимаем
естественной единицей измерения, и по
шкале интервалов в общем случае. На
современном уровне знаний естественного
начала отсчета указать нельзя. Дату
сотворения мира различные авторы
рассчитывают по-разному, равно как и
момент Рождества Христова.

Только
для абсолютной шкалы результаты измерений
– числа в обычном смысле слова, например,
число людей в комнате. Для абсолютной
шкалы допустимым является только
тождественное преобразование.

В
процессе развития соответствующей
области знания тип шкалы может меняться.
Так, сначала температура измерялась по
порядковой шкале (холоднее – теплее).
Затем – по интервальной (шкалы Цельсия,
Фаренгейта, Реомюра). Наконец, после
открытия абсолютного нуля температуру
можно считать измеренной по шкале
отношений (шкала Кельвина). Надо отметить,
что среди специалистов иногда имеются
разногласия по поводу того, по каким
шкалам следует считать измеренными те
или иные реальные величины. Другими
словами, процесс измерения включает в
себя и определение типа шкалы (вместе
с обоснованием выбора определенного
типа шкалы). Кроме перечисленных шести
основных типов шкал, иногда используют
и иные шкалы.

17.
Инвариантные алгоритмы и средние
величины.

Сформулируем
основное требование к алгоритмам анализа
данных в ТИ: выводы, сделанные на основе
данных, измеренных в шкале определенного
типа, не должны меняться при допустимом
преобразовании шкалы измерения этих
данных. Другими словами, выводы должны
быть инвариантны по отношению к допустимым
преобразованиям шкалы.

Таким
образом, одна из основных целей теории
измерений – борьба с субъективизмом
исследователя при приписывании численных
значений реальным объектам. Так,
расстояния можно измерять в аршинах,
метрах, микронах, милях, парсеках и
других единицах измерения. Массу (вес)
– в пудах, килограммах, фунтах и др. Цены
на товары и услуги можно указывать в
юанях, рублях, тенге, гривнах, латах,
кронах, марках, долларах США и других
валютах (при условии заданных курсов
пересчета). Подчеркнем очень важное,
хотя и вполне очевидное обстоятельство:
выбор единиц измерения зависит от
исследователя, т.е. субъективен.
Статистические выводы могут быть
адекватны реальности только тогда,
когда они не зависят от того, какую
единицу измерения предпочтет исследователь,
когда они инвариантны относительно
допустимого преобразования шкалы. Из
многих алгоритмов эконометрического
анализа данных этому условию удовлетворяют
лишь некоторые. Покажем это на примере
сравнения средних величин.

Пусть
Х 1 ,
Х 2 ,..,
Х n
– выборка объема
n.
Часто используют
среднее арифметическое. Использование
среднего арифметического настолько
привычно, что второе слово в термине
часто опускают и говорят о средней
зарплате, среднем доходе и других средних
для конкретных экономических данных,
подразумевая под «средним» среднее
арифметическое. Такая традиция может
приводить к ошибочным выводам. Покажем
это на примере расчета средней заработной
платы (среднего дохода) работников
условного предприятия. Из 100 работников
лишь 5 имеют заработную плату, ее
превышающую, а зарплата остальных 95
существенно меньше средней арифметической.
Причина очевидна – заработная плата
одного человека – генерального директора
– превышает заработную плату 95 работников
– низкоквалифицированных и
высококвалифицированных рабочих,
инженеров и служащих. Ситуация напоминает
описанную в известном рассказе о
больнице, в которой 10 больных, из них у
9 температура 40°С, а один уже отмучился,
лежит в морге с температурой 0°С. Между
тем средняя температура по больнице
равна 36°С – лучше не бывает!

Таким
образом, среднее арифметическое можно
использовать лишь для достаточно
однородных совокупностей (без больших
выбросов в ту или иную сторону). А какие
средние использовать для описания
заработной платы? Вполне естественно
использовать медиану – среднее
арифметическое 50-го и 51-го работника,
если их заработные платы расположены
в порядке неубывания. Сначала идут
зарплаты 40 низкоквалифицированных
рабочих, а затем – с 41-го до 70-го работника
– заработные платы высококвалифицированных
рабочих. Следовательно, медиана попадает
именно на них и равна 200. У 50-ти работников
заработная плата не превосходит 200, и у
50-ти – не менее 200, поэтому медиана
показывает «центр», около которого
группируется основная масса исследуемых
величин. Еще одна средняя величина –
мода, наиболее часто встречающееся
значение. В рассматриваемом случае это
заработная плата низкоквалифицируемых
рабочих, т.е. 100. Таким образом, для
описания зарплаты имеем три средние
величины – моду (100 единиц), медиану (200
единиц) и среднее арифметическое (400
единиц).

Для
наблюдающихся в реальной жизни
распределений доходов и заработной
платы справедлива та же закономерность:
мода меньше медианы, а медиана меньше
среднего арифметического.

Для
чего в экономике используются средние
величины? Обычно для того, чтобы заменить
совокупность чисел одним числом, чтобы
сравнивать совокупности с помощью
средних. Пусть, например, Y 1 ,
Y 2 ,…,
Y n
– совокупность
оценок экспертов, «выставленных» одному
объекту экспертизы (например, одному
из вариантов стратегического развития
фирмы), Z 1,
Z 2 ,…,
Z n -второму
(другому варианту такого развития). Как
сравнивать эти совокупности? Очевидно,
самый простой способ – по средним
значениям.

А
как вычислять
средние? Известны различные виды средних
величин: среднее арифметическое, медиана,
мода, среднее геометрическое, среднее
гармоническое, среднее квадратическое.
Напомним, что общее понятие средней
величины введено французским математиком
первой половины XIX
в. академиком О. Коши. Оно таково: средней
величиной является любая функция Ф(Х 1 ,
Х 2 ,…,
Х n)
такая, что при
всех возможных значениях аргументов
значение этой функции не меньше, чем
минимальное из чисел Х 1,
Х 2 ,…,
Х n ,
и не больше,
чем максимальное из этих чисел. Все
перечисленные выше виды средних являются
средними по Коши.

При
допустимом преобразовании шкалы значение
средней величины, очевидно, меняется.
Но выводы о том, для какой совокупности
среднее больше, а для какой – меньше, не
должны меняться (в соответствии с
требованием инвариантности выводов,
принятом как основное требование в ТИ).
Сформулируем соответствующую
математическую задачу поиска вида
средних величин, результат сравнения
которых устойчив относительно допустимых
преобразований шкалы.

Пусть
Ф(Х 1
Х 2 ,…,
Х n)
– среднее по Коши. Пусть среднее по первой
совокупности меньше среднего по второй
совокупности: тогда согласно ТИ для
устойчивости результата сравнения
средних необходимо, чтобы для любого
допустимого преобразования g
из группы допустимых преобразований в
соответствующей шкале было справедливо,
что среднее преобразованных значений
из первой совокупности также было меньше
среднего преобразованных значений для
второй совокупности. Причем сформулированное
условие должно быть верно для любых
двух совокупностей Y
1 , Y 2 ,…,Y n
и Z 1,
Z 2 ,…,
Z n
и, напомним,
любого допустимого преобразования.
Средние величины, удовлетворяющие
сформулированному условию, назовем
допустимыми (в соответствующей шкале).
Согласно ТИ только такими средними
можно пользоваться при анализе мнений
экспертов и иных данных, измеренных в
рассматриваемой шкале.

С
помощью математической теории, развитой
в 1970-х годах, удается описать вид
допустимых средних в основных шкалах.
Понятно, что для данных, измеренных в
шкале наименований, качестве среднего
годится только мода.

18.
Средние величины в порядковой шкале

Рассмотрим
обработку мнений экспертов, измеренных
в порядковой шкале. Справедливо следующее
утверждение.

Теорема
1
.
Из всех средних по Коши допустимыми
средними в порядковой шкале являются
только члены вариационного ряда
(порядковые статистики).

Теорема
1 справедлива при условии, что среднее
Ф(Х 1
Х 2 ,…,
Х n)
является
непрерывной (по совокупности переменных)
и симметрической функцией. Последнее
означает, что при перестановке аргументов
значение функции Ф(Х 1
Х 2 ,…,
Х n)
не меняется.
Это условие является вполне естественным,
ибо среднюю величину мы находим для
совокупности
(множества), а
не для последовательности.
Множество не
меняется в зависимости от того, в какой
последовательности мы перечисляем его
элементы.

Согласно
теореме 1 в качестве среднего для данных,
измеренных в порядковой шкале, можно
использовать, в частности медиану (при
нечетном объеме выборки). При четном же
объеме следует применять один из двух
центральных членов вариационного ряда
– как их иногда называют, левую медиану
или правую медиану. Моду тоже можно
использовать – она всегда является
членом вариационного ряда. Но никогда
нельзя рассчитывать среднее арифметическое,
среднее геометрическое и т.д.

Справедлива
следующая теорема.

Теорема
2
. Пусть
Y
1 , Y 2 ,…,Y m
– независимые одинаково распре-еленные
случайные величины с функцией распределения
F(x),
a
Z 1,
Z 2 ,…,
Z n
– независимые
одинаково распределенные случайные
величины с функцией распределения Н(х),
причем выборки
Y
1 , Y 2 ,…,Y m
и Z 1 ,
Z 2 ,…,
Z n
независимы между собой и MY X
> MZ X .
Для того, чтобы вероятность события
стремилась к 1 при min(m,
n)
для любой строго возрастающей непрерывной
функции g,
удовлетворяющей условию |g i |>X
необходимо и
достаточно, чтобы при всех х
выполнялось
неравенство F(x)
< Н(х), причем
существовало число х 0 ,
для которого F(x 0)

Примечание.

Условие с
верхним пределом носит чисто
внутриматематический характер. Фактически
функция g
– произвольное
допустимое преобразование в порядковой
шкале.

Согласно
теореме 2 средним арифметическим можно
пользоваться и в порядковой шкале, если
сравниваются выборки из двух распределений,
удовлетворяющих приведенному в теореме
неравенству. Проще говоря, одна из
функций распределения должна всегда
лежать над другой. Функции распределения
не могут пересекаться, им разрешается
только касаться друг друга. Это условие
выполнено, например, если функции
распределения отличаются только сдвигом:

F(x)
= Н(х
+ ∆)

при
некотором ∆.

Последнее
условие выполняется, если два значения
некоторой величины измеряются с помощью
одного и того же средства измерения, у
которого распределение погрешностей
не меняется при переходе от измерения
одного значения рассматриваемой величины
к измерению другого.

Средние
по Колмогорову

Обобщением
нескольких из перечисленных выше средних
является среднее по Колмогорову. Для
чисел Х 1,
Х 2 ,…,
Х n
среднее по
Колмогорову вычисляется по формуле

G{(F(X l)
+ F(X 2)+…F(X n))/n},

где
F
– строго
монотонная функция (т.е. строго возрастающая
или строго убывающая),

G
– функция,
обратная к F.

Среди
средних по Колмогорову – много хорошо
известных персонажей. Так, если F(x)
= х, то среднее
по Колмогорову – это среднее арифметическое,
если F(x)
= lnx,
то среднее
геометрическое, если F(x)
= 1/х, то среднее
гармоническое, если F(x)
= х 2 ,
то среднее
квадратическое, и т.д. Среднее по
Колмогорову – частный случай среднего
по Коши. С другой стороны, такие популярные
средние, как медиана и мода, нельзя
представить в виде средних по Колмогорову.
В монографии доказаны следующие
утверждения.

Теорема
3
.
При справедливости некоторых
внутриматематических условий регулярности
в шкале интервалов из всех средних по
Колмогорову допустимым является только
среднее арифметическое. Таким образом,
среднее геометрическое или среднее
квадратическое температур (в шкале
Цельсия) или расстояний не имеют смысла.
В качестве среднего надо применять
среднее арифметическое. А также можно
использовать медиану или моду.

Теорема
4
. При
справедливости некоторых внутриматематических
условий регулярности в шкале отношений
из всех средних по Колмогорову допустимыми
являются только степенные средние с
F(x)
= х с,
и среднее геометрическое.

Замечание.
Среднее геометрическое является пределом
степенных средних при с
> 0.

Есть
ли средние по Колмогорову, которыми
нельзя пользоваться в шкале отношений?
Конечно, есть. Например F(x)
= е х.

Аналогично
средним величинам могут быть изучены
и другие статистические характеристики
– показатели разброса, связи, расстояния
и др. . Нетрудно показать, например,
что коэффициент корреляции не меняется
при любом допустимом преобразовании в
пиале интервалов, как и отношение
дисперсий, дисперсия не меняется в шкале
разностей, коэффициент вариации – в
шкале отношений, и т.д.

Приведенные
выше результаты о средних величинах
широко применяются, причем не только в
экономике, менеджменте, теории экспертных
оценок или социологии, но и в инженерном
деле, например, для анализа методов
агрегирования датчиков в АСУ ТП доменных
печей. Велико прикладное значение ТИ в
задачах стандартизации и управления
качеством, в частности в квалиметрии,
где получены интересные теоретические
результаты. Так, например, любое изменение
коэффициентов весомости единичных
показателей качества продукции приводит
к изменению упорядочения изделий по
средневзвешенному показателю (эта
теорема доказана проф. В.В. Подиновским).
Следовательно приведенные выше краткие
сведения о ТИ и ее методах объединяют
в некотором смысле экономику, социологию
и инженерные науки и являются адекватным
аппаратом для решения сложнейших
проблем, не поддававшихся ранее
эффективному анализу, более того т.о.
открывается путь к построению
реалистических моделей и решению задачи
прогноза.

22.
Парная линейная регрессия

Обратимся
теперь к более подробному изучению
простейшего случая парной линейной
регрессии. Линейная регрессия описывается
простейшей функциональной зависимостью
в виде уравнения прямой линии и
характеризуется прозрачной интерпретацией
параметров модели (коэффициентов
уравнения). Правая часть уравнения
позволяет по заданным значениям
регрессора (объясняющей переменной)
получить теоретические (расчетные)
значения результативного (объясняемого)
переменного. Эти значения иногда называют
также прогнозируемыми (все в том же
смысле), т.е. получаемыми по теоретическим
формулам. Однако при выдвижении гипотезы
о характере зависимости еще
остаютсянеизвестными коэффициенты
уравнения. Вообще говоря, получение
приближенных значений этих коэффициентов
возможно различными методами.

Но
наиболее важным и распространенным из
них является метод наименьших квадратов
(МНК). Он основан (как уже объяснялось)
на требовании минимизации суммы квадратов
отклонений фактических значений
результативного признака от расчетных
(теоретических). Вместо теоретических
значений (для их получения) подставляют
правые части уравнения регрессии в
сумму квадратов отклонений, а затем
находят частные производные от этой
функции (суммы квадратов отклонений
фактических значений результативного
признака от теоретических). Эти частные
производные берутся не по переменным
х и у, а по параметрам а и b.
Частные производные приравнивают к
нулю и после несложных, но громоздких
преобразований получают систему
нормальных уравнений для определения
параметров. Коэффициент припеременном
х, т.е. b
называется коэффициентом регрессии,
он показывает среднее изменение
результата с изменением фактора на одну
единицу. Параметр а может не иметь
экономической интерпретации, особенно,
если знак этого коэффициента отрицателен.

Парная
линейная регрессия используется для
изучения функции потребления. Коэффициент
регрессии в функции потребления
используется для расчета мультипликатора.
Практически всегда уравнение регрессии
дополняется показателем тесноты связи.
Для простейшего случая линейной регрессии
этим показателем тесноты связи является
линейный коэффициент корреляции. Но
так как линейный коэффициент корреляции
характеризует тесноту связи признаков
в линейной форме, то близость абсолютной
величины линейного коэффициента
корреляции к нулю еще не служит показателем
отсутствия связи между признаками.

Именно
при другом выборе спецификации модели
и следовательно виде зависимости
фактическая связь может оказаться
довольно близкой к единице. А вот качество
подбора линейной функции определяется
с помощью квадрата линейного коэффициента
корреляции – коэффициент детерминации.
Он характеризует долю дисперсии
результативного признака у, объясняемую
регрессией в общей дисперсии результативного
признака. Величина, дополняющая
коэффициент детерминации до 1 характеризует
долю дисперсии, вызванную влиянием
остальных факторов, не учтенных в модели
(остаточной дисперсии).

Парная
регрессия представляется уравнением
связи двух переменных у и х следующего
вида:

где
у – зависимая переменная (результативный
признак), а х – независимая переменная
(объясняющая переменная, или признак-фактор).
Бывает линейная регрессия и нелинейная
регрессия. Линейная регрессия описывается
уравнением вида:

y
= a+
bx
+ .

Нелинейная
регрессия в свою очередь может быть
нелинейной относительно включенных в
анализ объясняющих переменных, но
линейной по оцениваемым параметрам. А
может быть регрессия нелинейная по
оцениваемым параметрам. В качестве
примеров регрессии, нелинейной по
объясняющим переменным, но линейной по
оцениваемым параметрам можно указать
полиномиальные зависимости различных
степеней (многочлены) и равностороннюю
гиперболу.

Нелинейной
регрессией по оцениваемым параметрам
является степенная относительно
параметра (параметр стоит в показателе
степени) зависимость, показательная
зависимость, где параметр стоит в
основании степени и экспоненциальная
зависимость, когда вся линейная
зависимость целиком находится в
показателе экспоненты. Отметим, что во
всех этих трех случаях случайный
компонент (случайный остаток) 
входит в правую часть уравнения в виде
сомножителя, а не в виде слагаемого,
т.е. мультипликативно! Среднее отклонение
расчетных значений результативного
признака от фактических характеризуется
средней ошибкой аппроксимации. Она
выражается в процентах и не должна
превышать 7-8%. Эта средняя ошибка
аппроксимации является просто выраженной
в процентах средней относительных
величин разностей фактических и расчетных
значений.

Важное
значение имеет средний коэффициент
эластичности, который служит важной
характеристикой многих экономических
явлений и процессов. Он вычисляется как
произведение значения производной
данной функциональной зависимости на
отношение средней величины х к средней
величине у. Коэффициент эластичности
показывает на сколько процентов в
среднем по совокупности изменится
результат у от своей средней величины
при изменении фактора х на 1% от его
(фактора х) среднего значения.

С
парной регрессией и с множественной
регрессией (когда имеется множество
факторов) и с остаточной дисперсией
тесно связаны задачи дисперсионного
анализа. Дисперсионный анализ исследует
дисперсию зависимой переменной. При
этом общая сумма квадратов отклонений
разбивается на две части. Первое слагаемое
это сумма квадратов отклонений,
обусловленная регрессией, или объясненная
(факторная). Второе слагаемое это
остаточная сумма квадратов отклонений,
необъясненная факторной регрессией.

Долю
дисперсии, объясняемую регрессией, в
общей дисперсии результативного признака
у характеризует коэффициент (индекс)
детерминации, который есть не что иное
как отношение суммы квадратов отклонений,
обусловленной регрессией к общей сумме
квадратов отклонений (первого слагаемого
ко всей сумме).

Когда
параметры модели (коэффициенты при
неизвестных) определяются с помощью
метода наименьших квадратов, то, по
существу, находятся (в процессе получения
оценок) некоторые случайные величины.
Особую важность представляет оценка
коэффициента регрессии, который является
некоторой особой формой случайной
величины. Свойства этой случайной
величины зависят от свойств остаточного
члена в уравнении(в модели). Рассмотрим
для модели парной линейной регрессии
объясняющую переменную х как неслучайную
экзогенную переменную. Это всего лишь
означает, что значения переменной х во
всех наблюдениях можно считать заранее
заданными и никак не связанными с
исследуемой зависимостью. Таким образом,
фактическая величина объясняемой
переменной состоит из двух составляющих:
неслучайной и случайной составляющей
(остаточного члена).

С
другой стороны коэффициент регрессии,
определяемый по методу наименьших
квадратов (МНК) равен частному от деления
ковариации переменных х и у на дисперсию
переменной х. Поэтому он также содержит
случайную составляющую. Ведь ковариация
зависит от значений переменной у, где
значения переменной у зависят от значений
случайного остаточного члена .
Далее нетрудно показать, что ковариация
переменных х и у равна произведению
оцениваемого коэффициента регрессии
бета ()
на дисперсию переменного х, сложенному
с ковариацией переменных х и .
Таким образом оценка коэффициента
регрессии бета равна самому этому
неизвестному коэффициенту регрессии,
сложенному с частным от деления ковариации
переменных х и 
на дисперсию переменного х. Т.е. оценка
коэффициента регрессии bполученная
по любой выборке представляется в виде
суммы двух слагаемых: постоянной
величины, равной истинному значению
коэффициента 
(бета), и из случайной составляющей,
зависящей от ковариации переменных х
и .

23.
Математические условия Гаусса-Маркова
и их применение.

Чтобы
регрессионный анализ, основанный на
обычном МНК давал наилучшие результаты,
случайный член должен удовлетворять
четырем условиям Гаусса-Маркова.

Математическое ожидание случайного
члена равняется нулю, т.е. он является
несмещенным. Если уравнение регрессии
включает постоянное слагаемое, то
естественно считать выполненным такое
требование, поскольку это постоянное
слагаемое и должно учитывать любую
систематическую тенденцию в значениях
переменной у, которую напротив не должны
содержать объясняющие переменные
уравнения регрессии.

Дисперсия случайного члена постоянна
для всех наблюдений.

Ковариация значений случайных величин,
образующих выборку должна быть равна
нулю, т.е. отсутствует систематическая
связь между значениями случайного члена
в любых двух конкретных наблюдениях.
Случайные члены должны быть независимы
друг от друга.

Закон распределения случайного члена
должен быть независим от объясняющих
переменных.

Более
того, во многих применениях объясняющие
переменные не являются стохастическими,
т.е. не имеют случайной составляющей.
Значение любой независимой переменной
в каждом наблюдении должно считаться
экзогенным, полностью определяемым
внешними причинами, не учитываемыми в
уравнении регрессии.

Вместе
с указанными условиями Гаусса-Маркова
предполагают также, что случайный член
имеет нормальное распределение. Оно
справедливо при весьма широких условиях
и основывается на так называемой
центральной предельной теореме (ЦПТ).
Суть этой теоремы в том, что если случайная
величина является общим результатом
взаимодействия большого числа других
случайных величин, ни одна из которых
не оказывает преобладающего влияния
на поведение этого общего результата,
то такая результирующая случайная
величина будет описываться приблизительно
нормальным распределением. Эта близость
к нормальному распределению позволяет
использовать для получения оценок
нормальное распределение и являющееся
в известном смысле его обобщением
распределение Стьюдента, которое
отличается заметно от нормального
главным образом на так называемых
«хвостах», т.е. при малых значениях
объема выборки. Важно также, что если
случайный член будет распределен
нормально, то и коэффициенты регрессии
также будут распределены по нормальному
закону.

Установленная
регрессионная кривая (уравнение
регрессии) позволяет решить задачу так
называемого точечного прогноза. В таких
расчетах берется некоторое значение х
вне исследованного интервала наблюдений
и подставляется в правую часть уравнения
регрессии (процедура экстраполяции).
Т.к. уже известны оценки для коэффициентов
регрессии, то можно рассчитать
соответствующее взятому значению
величины х значение объясняемой
переменной у. Естественно, что в
соответствии со смыслом предсказания
(прогноза) расчеты проводятся вперед
(в область будущих значений).

Однако
поскольку коэффициенты были определены
с определенной погрешностью, то интерес
представляет не точечная оценка (точечный
прогноз) для результативного признака,
а знание того в каких пределах с
определенной вероятностью будут лежать
значения результативного признака,
соответствующее взятому значению
фактора х.

Для
этого рассчитывается величина стандартной
ошибки (среднеквадратичного отклонения).
Она может быть получена в духе уже только
что сказанного следующим образом. В
уравнение линейной регрессии подставляется
выражение свободного члена a
из оценок через средние величины. Тогда
получается, что стандартная ошибка
зависит от ошибки средней результативного
фактора у и аддитивно от ошибки
коэффициента регрессии b.
Попросту квадрат этой стандартной
ошибки равен сумме квадрата ошибки
среднего величины у и произведения
квадрата ошибки коэффициента регрессии
на квадрат отклонения величины фактора
х и его среднего. Далее первое слагаемое
согласно законам статистики равно
частному от деления дисперсии генеральной
совокупности на величину (объем) выборки.

Вместо
неизвестной дисперсии в качестве оценки
используется выборочная дисперсия.
Соответственно ошибка коэффициента
регрессии определяется как частное от
деления выборочной дисперсии на дисперсию
фактора х. Можно получить величину
стандартной ошибки (среднего квадратичного
отклонения) и изиных соображений, более
независимых от модели линейной регрессии.
Для этого используется понятие средней
ошибки и предельной ошибки и связь между
ними.

Но
и после получения стандартной ошибки
остается вопрос о границах, в которых
будет лежать прогнозное значение. Иначе
говоря об интервале погрешности
измерения, в естественном во многих
случаях предположении, что середина
этого интервала дается рассчитанным
(средним) значением результативного
фактора у. Здесь на помощь приходит
центральная предельная теорема, которая
как раз и указывает с какой вероятностью
неизвестная величина находится в
пределах этого доверительного интервала.

По
существу формула стандартной ошибки
независимо от того каким образом и в
каком виде она получена характеризует
ошибку положения линии регрессии.
Величина стандартной ошибки достигает
минимума при совпадении значения фактора
х со средним значением фактора.

24. Статистическая
проверка гипотез и оценка значимости
линейной регрессии по критерию Фишера.

После
того как найдено уравнение линейной
регрессии, производится оценка значимости
как уравнения в целом, так и отдельных
его параметров. Оценка значимости
уравнения регрессии в целом может
выполняться с помощью различных
критериев. Достаточно распространенным
и эффективным является применение
F-критерия
Фишера. При этом выдвигается нулевая
гипотеза Н о,
что коэффициент регрессии равен нулю,
т.е. b=0,
и, следовательно,
фактор х не
оказывает влияния на результат у.
Непосредственному расчету F-критерия
предшествует анализ дисперсии. Центральное
место в нем занимает разложение общей
суммы квадратов отклонений переменной
у от среднего значения у на две части –
«объясненную» и «необъясненную»:

Общая
сумма квадратов отклонений индивидуальных
значений результативного признака у
от среднего значения у вызвана влиянием
множества факторов.

Условно
разделим всю совокупность причин на
две группы: изучаемый фактор х
и прочие
факторы. Если фактор не оказывает влияния
на результат, то линия регрессии на
графике параллельна оси ОХ и у=у.
Тогда вся
дисперсия результативного признака
обусловлена воздействием прочих факторов
и общая сумма квадратов отклонений
совпадет с остаточной. Если же прочие
факторы не влияют на результат, то у
связан с х функционально и остаточная
сумма квадратов равна нулю. В этом случае
сумма квадратов отклонений, объясненная
регрессией, совпадает с общей суммой
квадратов. Поскольку не все точки поля
корреляции лежат на линии регрессии,
то всегда имеет место их разброс как
обусловленный влиянием фактора х, т.е.
регрессией у по х, так и вызванный
действием прочих причин (необъясненная
вариация). Пригодность линии регрессии
для прогноза зависит от того, какая
часть общей вариации признака у приходится
на объясненную вариацию.

Очевидно,
что если сумма квадратов отклонений,
обусловленная регрессией, будет больше
остаточной суммы квадратов, то уравнение
регрессии статистически значимо и
фактор х оказывает существенное
воздействие на результату. Это равносильно
тому, что коэффициент детерминации
будет приближаться
к единице. Любая сумма квадратов
отклонений связана с числом степеней
свободы, т.е. числом свободы независимого
варьирования признака. Число степеней
свободы связано с числом единиц
совокупности или с числом определяемых
по ней констант. Применительно к
исследуемой проблеме число степеней
свободы должно показать, сколько
независимых отклонений из n
возможных
[(у 1 -у),(у 2 -у),…{у n -у)]
требуется для
образования данной суммы квадратов.
Так, для общей суммы квадратов ∑(у-у ср) 2
требуется
(n-1)
независимых
отклонений, т.к. по совокупности из n
единиц после
расчета среднего уровня свободно
варьируют лишь (n-1)
число отклонений.
При расчете объясненной или факторной
суммы квадратов ∑(у-у ср) 2
используются
теоретические (расчетные) значения
результативного признака у*, найденные
по линии регрессии: у(х)=а+bх.

Вернемся
теперь к разложению общей суммы квадратов
отклонений результативного фактора от
среднего этой величины. Эта сумма
содержит две уже определенные выше
части: сумму квадратов отклонений,
объясненную регрессией и другую сумму,
которая называется остаточная сумма
квадратов отклонений. С таким разложением
связан анализ дисперсии, который прямо
отвечает на принципиальный вопрос: как
оценить значимость уравнения регрессии
в целом и его отдельных параметров? Оно
же в значительной мере и определяет
смысл этого вопроса. Для оценки значимости
уравнения регрессии в целом используется
критерий Фишера (F-критерий).
Согласно подходу, предложенному Фишером,
выдвигается нулевая гипотеза
:
коэффициент регрессии равен нулю, т.е.
величинаb=0.
Это означает, что фактор Х не оказывает
влияния на результат Y.

Вспомним,
что практически всегда полученные в
результате статистического исследования
точки не ложатся точно на линию регрессии.
Они рассеяны, будучи удалены более или
менее сильно от линии регрессии. Такое
рассеяние обусловлено влиянием прочих,
отличных от объясняющего фактора Х,
факторов, не учитываемых в уравнении
регрессии. При расчете объясненной, или
факторной суммы квадратов отклонений
используются теоретические значения
результативного признака, найденные
по линии регрессии.

Для
заданного набора значений переменных
Y
и Х расчетное значение среднего величины
Y
является в линейной регрессии функцией
только одного параметра – коэффициента
регрессии. В соответствии с этим факторная
сумма квадратов отклонений имеет число
степеней свободы, равное 1. А число
степеней свободы остаточной суммы
квадратов отклонений при линейной
регрессии равно n-2.

Следовательно,
разделив каждую сумму квадратов
отклонений в исходном разложении на
свое число степеней свободы получаем
средний квадрат отклонений (дисперсию
на одну степень свободы). Далее разделив
факторную дисперсию наодну степень
свободы на остаточную дисперсию на одну
степень свободы получаем критерий для
проверки нулевой гипотезы так называемое
F-отношение,
или одноименный критерий. Именно, при
справедливости
нулевой гипотезы
факторная и остаточная дисперии
оказываются просто равны друг другу.

Для
отклонения нулевой гипотезы, т.е. принятия
противоположной гипотезы, которая
выражает факт
значимости
(наличия) исследуемой зависимости, а не
просто случайного совпадения факторов,
имитирующего зависимость, которая
фактически не существует необходимо
использовать таблицы критических
значений указанного отношения. По
таблицам выясняют критическую (пороговую)
величину критерия Фишера. Она называется
также теоретической. Затем проверяют,
сравнивая ее с вычисленным по данным
наблюдений соответствующим эмпирическим
(фактическим) значением критерия,
превосходит ли фактическая величина
отношения критическую величину из
таблиц.

Более
подробно это делается так. Выбирают
данный уровень вероятности наличия
нулевой гипотезы и находят по таблицам
критическое значение F-критерия,
при котором еще может происходить
случайное расхождение дисперсий на 1
степень свободы, т.е. максимальное такое
значение. Затем вычисленное значение
отношения F-признается
достоверным (т.е. выражающим различие
фактической и остаточной дисперсий),
если это отношение больше табличного.
Тогда нулевая гипотеза отклоняется
(неверно, что отсутствуют признаки
связи) и напротив приходим к заключению,
что связь имеется и является существенной
(носит неслучайный, значимый характер).

В
случае, если величина отношения
оказывается меньше табличного, то
вероятность нулевой гипотезы оказывается
выше заданного уровня(который выбирался
изначально) и нулевая гипотеза не может
быть отклонена без заметной опасности
получить неверный вывод о наличии связи.
Соответственно уравнение регрессии
считается при этом незначимым.

Сама
величина F-критерия
связана с коэффициентом детерминации.
Помимо оценки значимости уравнения
регрессии в целом оценивают также
значимость отдельных параметров
уравнения регрессии. При этом определяют
стандартную ошибкукоэффициента регрессии
с помощью эмпирического фактического
среднеквадратичного отклонения и
эмпирической дисперсии на одну степень
свободы. После этого используют
распределение Стьюдента для проверки
существенности коэффициента регрессии
для расчета его доверительных интервалов.

Оценка
значимости коэффициентов регрессии и
корреляции с помощью t-критерия
Стьюдента выполняется посредством
сопоставления значений этих величин и
величины стандартной ошибки. Величинаошибки
параметров линейной регрессии и
коэффициента корреляции определяется
по следующим формулам:

где
S
– среднеквадратичноеостаточное
выборочное отклонение,

r xy
– коэффициент корреляции.

Соответственно
величина стандартной ошибки, предсказываемой
по линии регрессии, дается формулой:

Соответствующие
отношения значений величин коэффициентов
регрессии и корреляции к их стандартной
ошибке образуют так называемую
t-статистику,
а сравнение соответствующего табличного
(критического) значения ее и ее фактического
значения позволяет принять или отвергнуть
нулевую гипотезу. Нo
далее для расчета доверительного
интервала находится предельная ошибка
для каждого показателя как произведение
табличного значения статистики t
на среднюю случайную ошибку соответствующего
показателя. По сути чуть иначе мы уже
фактически записали ее только что выше.
Затем получают границы доверительных
интервалов: нижнюю границу вычитанием
из соответствующих коэффициентов
(фактически средних) соответствующей
предельной ошибки, а верхнюю границу –
сложением (прибавлением).

В
линейной регрессии ∑(y x -y ср) 2 =b 2
∑(x-x ср) 2 .
В этом нетрудно
убедиться, обратившись к формуле
линейного коэффициента корреляции:
r 2 ху =
b 2 *σ 2 x /σ 2 y

где
σ 2 y –
общая дисперсия
признака у;

σ 2 x
– дисперсия
признака у обусловленная фактором х.
Соответственно
сумма квадратов отклонений, обусловленных
линейной регрессией, составит:

∑(y x -y ср) 2 =b 2 ∑(x-x ср) 2 .

Поскольку
при заданном объеме наблюдений по х
и у факторная
сумма квадратов при линейной регрессии
зависит только от одной константы
коэффициента регрессии b,
то данная сумма квадратов имеет одну
степень свободы. Рассмотрим содержательную
сторону расчетного значения признака
у т.е. у х.
Величина у х
определяется
по уравнению линейной регрессии: у х =а+bх.

Параметр
а можно определить, как а=у-bх.
Подставив
выражение параметра а в линейную модель,
получим: y x =y-bx+bx ср =y-b(x-x ср).

При
заданном наборе переменных у и х
расчетное
значение у х
является в
линейной регрессии функцией только
одного параметра – коэффициента регрессии.
Соответственно и факторная сумма
квадратов отклонений имеет число
степеней свободы, равное 1.

Существует
равенство между числом степеней свободы
общей, факторной и остаточной суммами
квадратов. Число степеней свободы
остаточной суммы квадратов при линейной
регрессии составляет (n-2).
Число степеней
свободы для общей суммы квадратов
определяется числом единиц, и поскольку
мы используем среднюю вычисленную по
данным выборки, то теряем одну степень
свободы, т.е. (n-1).
Итак, имеем
два равенства: для сумм и для числа
степеней свободы. А это в свою очередь
возвращает нас опять к сопоставимым
дисперсиям на одну степень свободы,
отношение которых и дает критерий
Фишера.

25.
Оценка значимости отдельных
параметров уравнения регрессии и
коэффициентов по критерию Стьюдента.

27.
Линейная и нелинейная регрессии и методы
их исследования.

Линейная
регрессия и методы ее исследования и
оценки не имели бы столь важного значения,
если бы помимо этого весьма важного, но
все же простейшего случая, мы не получали
с их помощью инструмента анализа более
сложных нелинейных зависимостей.
Нелинейные регрессии могут быть разделены
на два существенно различных класса.
Первым и более простым является класс
нелинейных зависимостей, в которых
имеется нелинейность относительно
объясняющих переменных, но которые
остаются линейными по входящим в них и
подлежащим оценке параметрам. Сюда
входят полиномы различных степеней и
равносторонняя гипербола.

Такая
нелинейная регрессия по включенным в
объяснение переменным простым
преобразованием (заменой) переменных
легко сводится к обычной линейной
регрессии для новых переменных. Поэтому
оценка параметров в этом случае
выполняется просто по МНК, поскольку
зависимости линейны по параметрам. Так,
важную роль в экономике играет нелинейная
зависимость, описываемая равносторонней
гиперболой:

Ее
параметры хорошо оцениваются по МНК и
сама такая зависимость характеризует
связь удельных расходов сырья, топлива,
материалов с объемом выпускаемой
продукции, временем обращением товаров
и всех этих факторов с величиной
товарооборота. Например, кривая Филипса
характеризует нелинейное соотношение
между нормой безработицы и процентом
прироста заработной платы.

Совершенно
по-другому обстоит дело с регрессией,
нелинейной по оцениваемым параметрам,
например, представляемой степенной
функцией, в которой сама степень (ее
показатель) является параметром, или
зависит от параметра. Также это может
быть показательная функция, где основанием
степени является параметр и экспоненциальная
функция, в которой опять же показатель
содержит параметр или комбинацию
параметров. Этот класс, в свою очередь,
делится на два подкласса: к одному
относятся внешне нелинейные, но по
существу внутренне линейные. В этом
случае можно привести модель к линейному
виду с помощью преобразований. Однако,
если модель внутренне нелинейна, то она
не может быть сведена к линейной функции.

Таким
образом, только модели внутренне
нелинейные в регрессионном анализе
считаются действительно нелинейными.
Все прочие, сводящиеся к линейным
посредством преобразований, таковыми
не считаются и именно они и рассматриваются
чаще всего в эконометрических
исследованиях. В то же время это не
означает невозможности исследования
в эконометрике существенно нелинейных
зависимостей. Если модель внутренне
нелинейна по параметрам, то для оценки
параметров используются итеративные
процедуры, успешность которых зависит
от вида уравнения особенностей
применяемого итеративного метода.

Вернемся
к зависимостям, приводимым к линейным.
Если они нелинейны и по параметрам и по
переменным, например, вида у = а умноженному
на степень Х, показатель которой и есть
параметр – 
(бета):

Очевидно,
такое соотношение легко преобразуется
в линейное уравнение простым
логарифмированием.

После
введения новых переменных, обозначающих
логарифмы, получается линейное уравнение.
Тогда процедура оценивания регрессии
состоит в вычислении новых переменных
для каждого наблюдения путем взятия
логарифмов от исходных значений. Затем
оценивается регрессионная зависимость
новых переменных. Для перехода к исходным
переменным следует взять антилогарифм,
т.е фактически вернуться к самим степеням
вместо их показателей (ведь логарифм
это и есть показатель степени). Аналогично
может рассматриваться случай показательных
или экспоненциальных функций.

Для
существенно нелинейной регрессии
невозможно применение обычной процедуры
оценивания регрессии, поскольку
соответствующая зависимость не может
быть преобразована в линейную. Общая
схема действий при этом такова:

1.
Принимаются некоторые правдоподобные
исходные значения параметров;

2.
Вычисляются предсказанные значения Y
по фактическим значениям Х с использованием
этих значений параметров;

3.
Вычисляются остатки для всех наблюдений
в выборке и затем сумма квадратов
остатков;

4.
Вносятся небольшие изменения в одну
или более оценку параметров;

5.
Вычисляются новые предсказанные значения
Y,
остатки и сумма квадратов остатков;

6.
Если сумма квадратов остатков меньше,
чем прежде, то новые оценки параметров
лучше прежних и их следует использовать
в качестве новой отправной точки;

7.
Шаги 4, 5 и 6 повторяются вновь до тех пор,
пока не окажется невозможным внести
такие изменения в оценки параметров,
которые привели бы к изменению суммы
остатков квадратов;

8.
Делается вывод о том, что величина суммы
квадратов остатков минимизирована и
конечные оценки параметров являются
оценками по методу наименьших квадратов.

Среди
нелинейных функций, которые могут быть
приведены к линейному виду, в эконометрике
широко используется степенная функция.
Параметр b
в ней имеет четкое истолкование, являясь
коэффициентом эластичности. В моделях,
нелинейных по оцениваемым параметрам,
но приводимых к линейному виду, МНК
применяется к преобразованным уравнениям.
Практическое применение логарифмирования
и соответственно экспоненты возможно
тогда, когда результативный признак не
имеет отрицательных значений. При
исследовании взаимосвязей среди функций,
использующих логарифм результативного
признака, в эконометрике преобладают
степенные зависимости (кривые спроса
и предложения, производственные функции,
кривые освоения для характеристики
связи между трудоемкостью продукции,
масштабами производства, зависимость
ВНД от уровня занятости, кривые Энгеля).

28. Обратная модель
и ее использование

Иногда
используется так называемая обратная
модель, являющаяся внутренне нелинейной,
но в ней, в отличие от равносторонней
гиперболы, преобразованию подвергается
не объясняющая переменная, а результативный
признак Y.
Поэтому обратная модель оказывается
внутренне нелинейной и требование МНК
выполняется не для фактических значений
результативного признака Y,
а для их обратных значений. Особого
внимания заслуживает исследование
корреляции для нелинейной регрессии.
В общем случае парабола второй степени
так же как и полиномы более высокого
порядка, при линеаризации принимает
вид уравнения множественной регрессии.
Если же нелинейное относительно
объясняемой переменной уравнение
регрессии при линеаризации принимает
форму линейного уравнения парной
регрессии, то для оценки тесноты связи
может быть использован линейный
коэффициент корреляции.

Если
преобразования уравнения регрессии в
линейную форму связаны с зависимой
переменной (результативным признаком),
то линейный коэффициент корреляции по
преобразованным значениям признаков
дает лишь приближенную оценку связи и
численно не совпадает с индексом
корреляции. Следует иметь в виду, что
при расчете индекса корреляции
используются суммы квадратов отклонений
результативного признака Y,
а не их логарифмов. Оценка значимости
индекса корреляции выполняется так же
как и оценка надежности (значимости)
коэффициента корреляции. Сам индекс
корреляции, как и индекс детерминации,
используется для проверки значимости
в целом уравнения нелинейной регрессии
по F-критерию
Фишера.

Отметим,
что возможность построения нелинейных
моделей, как посредством приведения их
к линейному виду, так и путем использования
нелинейной регрессии, с одной стороны
повышает универсальность регрессионного
анализа. А с другой – существенно
усложняет задачи исследователя. Если
ограничиваться парным регрессионным
анализом, то можно построить график
наблюдений Y
и Х как диаграмму разброса. Часто
несколько различных нелинейных функций
приблизительно соответствуют наблюдениям,
если они лежат на некоторой кривой. Но
в случае множественного регрессионного
анализа такой график построить невозможно.

При
рассмотрении альтернативных моделей
с одним и тем же определением зависимой
переменной процедура выбора сравнительно
проста. Можно оценивать регрессию на
основе всех вероятных функций, которые
можно вообразить и выбирать функцию, в
наибольшей степени объясняющую изменения
зависимой переменной. Понятно, что когда
линейная функция объясняет примерно
64% дисперсии у, а гиперболическая –
99,9%, очевидно следует выбирать последнюю.
Но когда разные модели используют разные
функциональные формы, проблема выбора
модели существенно осложняется.

29. Использование
теста Бокса-Кокса.

Более
общим образом при рассмотрении
альтернативных моделей с одним и тем
же определением зависимой переменной
выбор прост. Разумнее всего оценивать
регрессию на основе всех вероятных
функций, останавливаясь на функции, в
наибольшей степени объясняющей изменения
зависимой переменной. Если коэффициент
детерминации измеряет в одном случае
объясненную регрессией долю дисперсии,
а в другом – объясненную регрессией
долю дисперсии логарифма этой зависимой
переменной, то выбор делается без
затруднений. Другое дело, когда эти
значения для двух моделей весьма близки
и проблема выбора существенно осложняется.

Тогда
следует применять стандартную процедуру
в виде теста Бокса-Кокса. Если нужно
всего лишь сравнить модели с использованием
результативного фактора и его логарифма
в виде варианта зависимой переменой,
то применяют вариант теста Зарембки. В
нем предлагается преобразование масштаба
наблюдений Y,
при котором обеспечивается возможность
непосредственного сравнения
среднеквадратичной ошибки (СКО) в
линейной и логарифмической моделях.
Соответствующая процедура включает
следующие шаги:

    Вычисляется
    среднее геометрическое значений Y
    в выборке, совпадающее с экспонентой
    среднего арифметического значений
    логарифма от Y;

    Пересчитываются
    наблюдения Y
    таким образом, что они делятся на
    полученное на первом шаге значение;

    Оценивается
    регрессия для линейной модели с
    использованием пересчитанных значений
    Y
    вместо исходных значений Y
    и для логарифмической модели с
    использованием логарифма от пересчитанных
    значений Y.
    Теперь значения СКО для двух регрессий
    сравнимы и поэтому модель с меньшей
    суммой квадратов отклонений обеспечивает
    лучшее соответствие с истинной
    зависимостью наблюденных значений;

    Для
    проверки того, что одна из моделей не
    обеспечивает значимо лучшее соответствие,
    можно использовать произведение
    половины числа наблюдений на логарифм
    отношения значений СКО в пересчитанных
    регрессиях с последующим взятием
    абсолютного значения этой величины.

30. Поняти
интеркорреляции и мультиколлинеарности
факоров.

34. Основы МНК и
обоснованность его применения.

Обратимся
теперь к основам МНК, обоснованности
его применения (в том числе к задачам
множественной регрессии) и важнейшим
свойствам оценок, получаемых с помощью
МНК. Начнем с того, что наряду с
аналитической зависимостью в правой
части регрессионного уравнения важную
роль играет еще случайный член. Эта
случайная компонента является
ненаблюдаемой величиной.
Сами статистические проверки параметров
регрессии и показателей корреляции
основаны на непроверяемых предпосылках
о распределении этой случайной
составляющей множественной регрессии.
Эти предположения носят всего лишь
предварительный характер. Только после
построения уравнения регрессии производят
проверку наличия у оценок случайных
остатков (эмпирические аналоги случайной
составляющей) предполагавшихся априори
свойств. По существу, когда оценены
параметры модели, то рассчитывают
разности теоретических и фактических
значений результативного признака,
чтобы таким образом оценить саму
случайную составляющую. Важно иметь в
виду, что это всего лишь выборочная
реализация неизвестного остатка
заданного уравнения.

Коэффициенты
регрессии, полученные из системы
нормальных уравнений, это выборочные
оценки силы связи. Понятно, что практическое
значение они имеют только тогда, когда
являются несмещенными. Напомним, что в
этом случае среднее остатков равно
нулю, или, что то же самое, среднее оценки
равно самому оцениваемому параметру.
Тогда остатки не будут накапливаться
при большом числе выборочных оцениваний,
а сам найденный
параметр регрессии можно рассматривать
в качестве среднего из большого количества
несмещенных оценок.

Кроме
того, оценки должны иметь наименьшую
дисперсию, т.е. являться эффективными
и тогда появляется возможность перехода
от практически малопригодных точечных
оценок к интервальному оцениванию.
Наконец, доверительные интервалы
применимы с большой степенью эффективности,
когда вероятность получения оценки на
заданном расстоянии от истинного
(неизвестного) значения параметра близка
к единице. Такие оценки называются
состоятельными и свойство состоятельности
характеризуется увеличением их точности
с увеличением объема выборки.

Однако
условие состоятельности не выполняется
автоматически и существенно зависит
от выполнения следующих двух важных
требований. Во-первых, сами остатки
должны быть стохастическими с максимально
выраженной случайностью, т.е. все явно
функциональные зависимости должны быть
включены именно в аналитическую
компоненту множественной регрессии, и
к тому же значения остатков должны быть
распределены независимо друг от друга
для различных выборок (отсутствие
автокорреляции остатков). Второе, не
менее важное требование заключается в
одинаковости
дисперсии каждого отклонения (остатка)
для всех значений переменных Х
(гомоскедастичность). Т.е. гомоскедастичность
выражается постоянством дисперсии для
всех наблюдений:

Напротив,
гетероскедастичность заключается в
нарушении такого постоянства дисперсии
для различных наблюдений. В этом случае
априорная (до наблюдений) вероятность
получения сильно отклоненных величин
с различным теоретическим распределением
случайного члена для различных наблюдений
в выборке будет относительно высока.

Автокорреляция
остатков, или наличие корреляции между
остатками текущих и предыдущих
(последующих) наблюдений усматривается
по величине обычного линейного
коэффициента корреляции. Если он
существенно отличается от нуля, то
остатки автокоррелированы и, следовательно,
функция плотности вероятности
(распределения остатков) зависит от
точки наблюдения и от распределения
значений остатков в других точках
наблюдения. Удобно определять
автокорреляцию остатков по имеющейся
статистической информации при наличии
упорядоченности наблюдений по фактору
Х. Отсутствие
автокорреляции остатков обеспечивает
состоятельность и эффективность оценок
коэффициентов регрессии.

35. Гомоскедастичность
и гетероскедастичность, автокорреляция
остатков, обобщенный метод наименьших
квадратов (ОМНК).

Одинаковость
дисперсий остатков для всех значений
переменных Х, или гомоскедастичность
также совершенно необходима для получения
по МНК состоятельных оценок параметров
регрессии. Невыполнение условия
гомоскедастичности приводит к так
называемой гетероскедастичности. Она
может приводить к смещенности оценок
коэффициентов регрессии. Гетероскедастичность
будет главным образом сказываться на
уменьшении эффективности оценок
коэффициентов регрессии. Особенно
затруднительно становится при этом
пользоваться формулой стандартной
ошибки коэффициента регрессии,
использование которой предполагает
единую дисперсию остатков для любых
значений фактора. Что касается
несмещенности оценок коэффициентов
регрессии, то она, прежде всего, зависит
от независимости остатков и самих
величин факторов.

Довольно
наглядным, правда нестрогим и требующим
навыка способом проверки гомоскедастичности
является графическое изучение характера
зависимости остатков от среднего
вычисленного (теоретического)
результативного признака, или
соответствующих полей корреляции. Более
строгими являются аналитические методы
исследования и оценки гетероскедастичности.
При значимом наличии гетероскедастичности
целесообразно вместо МНК использовать
обобщенный МНК (ОМНК).

Помимо
требований к множественной регрессии,
вытекающих из применения МНК, необходимо
соблюдать также условия на переменные,
включаемые в модель. К таковым, прежде
всего, относятся требования относительно
числа факторов модели по заданному
объему наблюдений (1 к 7). В противном
случае параметры регрессии окажутся
статистически незначимыми. С точки
зрения эффективности применения
соответствующих численных методов при
реализации МНК необходимо, чтобы число
наблюдений превышало число оцениваемых
параметров (в системе уравнений число
уравнений более числа разыскиваемых
переменных).

Наиболее
существенным достижением эконометрики
является значительное развитие самих
методов оценивания неизвестных параметров
и усовершенствование критериев выявления
статической значимости рассматриваемых
эффектов. В этом плане невозможность
или нецелесообразность использования
традиционного МНК по причине проявляющейся
в той или иной степени гетероскедастичности
привела к разработке обобщенного МНК
(ОМНК). Фактически при этом корректируется
модель, производится изменение ее
спецификации, преобразуются исходные
данные для обеспечения несмещенности,
эффективности и состоятельности оценок
коэффициентов регрессии.

Предполагается,
что среднее остатков равно нулю, но их
дисперсия уже не является постоянной,
а пропорциональна величинам К i ,
где эти величины представляют собой
коэффициенты пропорциональности,
различные для различных значений фактора
х. Таким образом, именно эти коэффициенты
(величины К i)
характеризуют неоднородность дисперсии.
Естественно считается, что сама величина
дисперсии, входящая общим множителем
при этих коэффициентах пропорциональности,
неизвестна.

Исходная
модель после введения этих коэффициентов
в уравнение множественной регрессии
продолжает оставаться гетероскедастичной
(точнее говоря, таковыми являются
остаточные величины модели). Пусть эти
остаточные величины (остатки) не являются
автокоррелированными. Введем новые
переменные, получающиеся делением
исходных переменных модели, зафиксированных
в результате i-го
наблюдения, на корень квадратный из
коэффициентов пропорциональности К i .
Тогда получим новое уравнение в
преобразованных переменных, в котором
уже остатки будут гомоскедастичны. Сами
новые переменные – это взвешенные
старые (исходные) переменные.

Поэтому
оценка параметров полученного таким
образом нового уравнения с гомоскедастичными
остатками будет сводиться к взвешенному
МНК (по существу
это и есть ОМНК).
При использовании вместо самих переменных
регрессии их отклонения от средних
выражения для коэффициентов регрессии
приобретают простой и стандартизированный
(единообраззный) вид, незначительно
различающийся для МНК и ОМНК поправочным
множителем 1/К в числителе и знаменателе
дроби, дающей коэффициент регрессии.

Следует
иметь в виду, что параметры преобразованной
(скорректированной) модели существенно
зависят от того, какая концепция положена
за основу для коэффициентов
пропорциональности К i .
Часто считают, что остатки просто
пропорциональны значениям фактора.
Наиболее простой вид модель принимает
в случае, когда принимается гипотеза о
том, что ошибки пропорциональны значениям
последнего по порядку фактора. Тогда
ОМНК позволяет повысить вес наблюдений
с меньшими значениями преобразованных
переменных при определении параметров
регрессии по сравнению с работой
стандартного МНК с первоначальными
исходными переменными. Но эти новые
переменные уже получают иное экономическое
содержание.

Гипотеза
о пропорциональности остатков величине
фактора вполне может иметь под собой
реальное обоснование. Пусть обрабатывается
некая недостаточно однородная совокупность
данных, например, включающая крупные и
мелкие предприятия одновременно. Тогда
большим объемным значениям фактора
может соответствовать и большая дисперсия
результативного признака и большая
дисперсия остаточных величин. Далее
использование ОМНК и соответствующий
переход к относительным величинам не
просто снижает вариацию фактора, но и
уменьшает дисперсию ошибки. Тем самым
реализуется наиболее простой случай
учета и коррекции гетероскедастичности
в регрессионных моделях посредством
применения ОМНК.

Изложенный
выше подход к реализации ОМНК в виде
взвешенного МНК является достаточно
практичным – он просто реализуется и
имеет прозрачную экономическую
интерпретацию. Конечно, это не самый
общий подход и в контексте математической
статистики, служащей теоретической
основой эконометрики, нам предлагается
значительно более строгий метод,
реализующий ОМНК в самом общем виде. В
нем необходимо знать ковариационную
матрицу вектора ошибок (столбца остатков).
А это в практических ситуациях как
правило несправедливо, и отыскать эту
матрицу как таковую бывает невозможно.
Поэтому приходится, вообще говоря,
каким-то образом оценивать искомую
матрицу, чтобы использовать вместо
самой матрицы такую оценку в соответствующих
формулах. Тем самым описанный вариант
реализации ОМНК представляет одну из
таких оценок. Иногда его называют
доступный обобщенный МНК.

Надо
учитывать также, что коэффициент
детерминации не может служить
удовлетворительной мерой качества
подгонки при использовании ОМНК.
Возвращаясь к применению ОМНК отметим
также, что достаточную общность имеет
метод использования стандартных
отклонений (стандартных ошибок) в форме
Уайта (так называемые состоятельные
стандартные ошибки при наличии
гетероскедастичности). Этот метод
применим при
условии диагональности матрицы ковариаций
вектора ошибок.
Если же присутствует автокорреляция
остатков (ошибок), когда в матрице
ковариаций и вне главной диагонали
имеются ненулевые элементы (коэффициенты),
то следует применять более общий метод
стандартных ошибок в форме Невье-Веста.
При этом имеется существенное ограничение:
ненулевые
элементы помимо главной диагонали
находятся только на соседних диагоналях,
отстоящих от главной диагонали не более
чем на определенную величину.

Из
сказанного ясно, что необходимо иметь
возможность проверять данные на
гетероскедастичность. Этой цели служат
приводимые ниже тесты. В них проверяется
основная гипотеза о равенстве дисперсий
остатков против альтернативной гипотезы
(о неравенстве этих гипотез). Кроме того,
имеются априорные структурные ограничения
по поводу характера гетероскедастичности.
В тесте Голдфелда-Куандта как правило
используется предположение о прямой
зависимости дисперсии ошибки (остатка)
от величины некоторой независимой
переменной. Схема применения этого
теста такова. Сначала данные упорядочиваются
по убыванию той независимой переменной,
относительно которой имеется подозрение
на гетероскедастичность. Затем в этом
упорядоченном наборе данных исключаются
несколько средних наблюдений, где слово
«несколько» означает примерно четверть
(25%) от общего количества всех наблюдений.
Далее проводятся две независимые
регрессии для первых из оставшихся
(после выполненного исключения) средних
наблюдений и двух последних из этих
оставшихся средних наблюдений. После
этого строятся два соответствующих
остатка. Наконец, составляется F-статистика
Фишера и если верна исследуемая гипотеза,
то F
действительно является распределением
Фишера с соответствующими степенями
свободы. Тогда большая величина этой
статистики означает, что проверяемую
гипотезу необходимо отвергнуть. Без
шага исключения наблюдений мощность
данного теста уменьшается.

Тест
Бреуша-Пагана применяется в тех случаях,
когда априорно предполагается, что
дисперсии зависят от некоторых
дополнительных переменных. Сначала
проводится обычная (стандартная)
регрессия и получается вектор остатков.
Затем строится оценка дисперсии. Далее
проводится регрессия квадрата вектора
остатков деленного на эмпирическую
дисперсию (оценку дисперсии). Для нее
(регрессии) находят объясненную часть
вариации. А для этой объясненной части
вариации, деленной пополам, строится
статистика. Если верна нулевая гипотеза,
(справедливо отсутствие гетероскедастичности),
то эта величина имеет распределение
хи
-квадрат.
Если же тест, напротив, выявил
гетероскедастичность, то исходная
модель преобразуется делением компонентов
вектора остатков на соответствующие
компоненты вектора наблюдаемых
независимых переменных.

36. Метод стандартных
отклонений в форме Уайта.

Можно
сделать следующие выводы. Применение
ОМНК при наличии гетероскедастичности
сводится к минимизации суммы взвешенных
квадратов отклонений. Использование
доступного ОМНК связано с необходимостью
наличия большого количества наблюдений,
превышающего количество оцениваемых
параметров. Наиболее благоприятным для
применения ОМНК является тот случай,
когда ошибка (остатки) пропорциональна
одной из независимых переменных и
получаемые оценки являются состоятельными.
Если все же в модели с гетероскедастичностью
приходится применять не ОМНК, а стандартный
МНК, то для получения состоятельных
оценок можно использовать оценки ошибок
в формеУайта или Невье-Веста.

При
анализе временных рядов часто приходится
учитывать статистическую зависимость
наблюдений в различные моменты времени.
В этом случае предположение о
некоррелированности ошибок не выполняется.
Рассмотрим простую модель, в которой
ошибки образуют авторегрессионный
процесс первого порядка. В этом случае
ошибки удовлетворяют простому
рекуррентному соотношению, в правой
части которого одно из слагаемых это
последовательность независимых нормально
распределенных случайных величин с
нулевым средним и постоянной дисперсией.
Второе слагаемое это произведение
параметра (коэффициента авторегрессии)
на значения остатков в предыдущий момент
времени. Сама последовательность
значений ошибок (остатков) образует
стационарный случайный процесс.
Стационарный случайный процесс
характеризуется постоянством своих
характристик во времени, в частности,
средней и дисперсии. При этом интересующая
нас ковариационная матрица (ее члены)
легко выписывается с помощью степеней
параметра.

Оценивание
модели с авторегрессией для известного
параметра выполняется с помощью ОМНК.
В этом случае достаточно просто свести
исходную модель нехитрым преобразованием
к модели, ошибки которой удовлетворяют
условиям стандартной регрессионной
модели. Весьма редко, но все же встречается
ситуация, в которой параметр авторегрессии
известен. Следовательно, вообще необходимо
выполнять оценивание при неизвестном
параметре авторегрессии. Существуют
три наиболее употребительные процедуры
такого оценивания. Метод Кохрейна-Оркатта,
процедура Хилдрета-Лу и метод Дарбина.

В
целом справедливы следующие выводы.
Анализ временных рядов требует коррекции
обычного МНК, поскольку ошибки в этом
случае, как правило, коррелированы.
Часто эти ошибки образуют стационарный
авторегрессионный процесс первого
порядка. МНК-оценки для авторегрессии
первого порядка несмещены, состоятельны,
но неэффективны. При известном коэффициенте
авторегрессии ОМНК сводится к простым
преобразованиям (коррекции) исходной
системы и затем к применению стандартного
МНК. Если, что чаще имеет место, коэффициент
авторегрессии неизвестен, то имеются
несколько процедур доступного ОМНК,
которые заключаются в оценивании
неизвестного параметра (коэффициента),
после чего применяют те же преобразования,
что и в предыдущем случае известного
параметра.

37.
Понятие о тесте Бреуша-Пагана, тесте
Гольдфельдта-Квандта

Среди различных методов прогнозирования нельзя не выделить аппроксимацию. С её помощью можно производить приблизительные подсчеты и вычислять планируемые показатели, путем замены исходных объектов на более простые. В Экселе тоже существует возможность использования данного метода для прогнозирования и анализа. Давайте рассмотрим, как этот метод можно применить в указанной программе встроенными инструментами.

Наименование данного метода происходит от латинского слова proxima – «ближайшая» Именно приближение путем упрощения и сглаживания известных показателей, выстраивание их в тенденцию и является его основой. Но данный метод можно использовать не только для прогнозирования, но и для исследования уже имеющихся результатов. Ведь аппроксимация является, по сути, упрощением исходных данных, а упрощенный вариант исследовать легче.

Главный инструмент, с помощью которого проводится сглаживания в Excel – это построение линии тренда. Суть состоит в том, что на основе уже имеющихся показателей достраивается график функции на будущие периоды. Основное предназначение линии тренда, как не трудно догадаться, это составление прогнозов или выявление общей тенденции.

Но она может быть построена с применением одного из пяти видов аппроксимации:

  • Линейной;
  • Экспоненциальной;
  • Логарифмической;
  • Полиномиальной;
  • Степенной.

Рассмотрим каждый из вариантов более подробно в отдельности.

Способ 1: линейное сглаживание

Прежде всего, давайте рассмотрим самый простой вариант аппроксимации, а именно с помощью линейной функции. На нем мы остановимся подробнее всего, так как изложим общие моменты характерные и для других способов, а именно построение графика и некоторые другие нюансы, на которых при рассмотрении последующих вариантов уже останавливаться не будем.

Прежде всего, построим график, на основании которого будем проводить процедуру сглаживания. Для построения графика возьмем таблицу, в которой помесячно указана себестоимость единицы продукции, производимой предприятием, и соответствующая прибыль в данном периоде. Графическая функция, которую мы построим, будет отображать зависимость увеличения прибыли от уменьшения себестоимости продукции.

Сглаживание, которое используется в данном случае, описывается следующей формулой:

В конкретно нашем случае формула принимает такой вид:

y=-0,1156x+72,255

Величина достоверности аппроксимации у нас равна 0,9418
, что является довольно приемлемым итогом, характеризующим сглаживание, как достоверное.

Способ 2: экспоненциальная аппроксимация

Теперь давайте рассмотрим экспоненциальный тип аппроксимации в Эксель.

Общий вид функции сглаживания при этом такой:

где e
– это основание натурального логарифма.

В конкретно нашем случае формула приняла следующую форму:

y=6282,7*e^(-0,012*x)

Способ 3: логарифмическое сглаживание

Теперь настала очередь рассмотреть метод логарифмической аппроксимации.

В общем виде формула сглаживания выглядит так:

где ln
– это величина натурального логарифма. Отсюда и наименование метода.

В нашем случае формула принимает следующий вид:

y=-62,81ln(x)+404,96

Способ 4: полиномиальное сглаживание

Настал черед рассмотреть метод полиномиального сглаживания.

Формула, которая описывает данный тип сглаживания, приняла следующий вид:

y=8E-08x^6-0,0003x^5+0,3725x^4-269,33x^3+109525x^2-2E+07x+2E+09

Способ 5: степенное сглаживание

В завершении рассмотрим метод степенной аппроксимации в Excel.

Данный способ эффективно используется в случаях интенсивного изменения данных функции. Важно учесть, что этот вариант применим только при условии, что функция и аргумент не принимают отрицательных или нулевых значений.

Общая формула, описывающая данный метод имеет такой вид:

В конкретно нашем случае она выглядит так:

y = 6E+18x^(-6,512)

Как видим, при использовании конкретных данных, которые мы применяли для примера, наибольший уровень достоверности показал метод полиномиальной аппроксимации с полиномом в шестой степени (0,9844
), наименьший уровень достоверности у линейного метода (0,9418
). Но это совсем не значит, что такая же тенденция будет при использовании других примеров. Нет, уровень эффективности у приведенных выше методов может значительно отличаться, в зависимости от конкретного вида функции, для которой будет строиться линия тренда. Поэтому, если для этой функции выбранный метод наиболее эффективен, то это совсем не означает, что он также будет оптимальным и в другой ситуации.

Если вы пока не можете сразу определить, основываясь на вышеприведенных рекомендациях, какой вид аппроксимации подойдет конкретно в вашем случае, то есть смысл попробовать все методы. После построения линии тренда и просмотра её уровня достоверности можно будет выбрать оптимальный вариант.

Средняя ошибка аппроксимации
– среднее отклонение расчетных значений от фактических:

Где y x – расчетное значение по уравнению.

Значение средней ошибки аппроксимации до 15% свидетельствует о хорошо подобранной модели уравнения.

По семи территориям Уральского района за 199Х г. известны значения двух признаков.

Требуется:

1. Для характеристики зависимости у от х рассчитать параметры следующих функций:

а) линейной;

б) степенной;

в) показательной;

г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).

2. Оценить каждую модель через среднюю ошибку аппроксимации
А ср и F-критерий Фишера.

Решение проводим при помощь онлайн калькулятора Линейное уравнение регрессии .

а) линейное уравнение регрессии;

Использование графического метода
.

Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс – индивидуальные значения факторного признака X.

Совокупность точек результативного и факторного признаков называется полем корреляции
.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a + ε

Здесь ε – случайная ошибка (отклонение, возмущение).

Причины существования случайной ошибки:

1. Невключение в регрессионную модель значимых объясняющих переменных;

2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.

3. Неправильное описание структуры модели;

4. Неправильная функциональная спецификация;

5. Ошибки измерения.

Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:

1) по наблюдениям x i и y i можно получить только оценки параметров α и β

2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;

Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

Для оценки параметров α и β – используют МНК (метод наименьших квадратов).

Получаем b = -0.35, a = 76.88

Уравнение регрессии:

y = -0.35 x + 76.88

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 |y – y x |:y
45,1 68,8 2034,01 4733,44 3102,88 61,28 119,12 56,61 0,1094
59 61,2 3481 3745,44 3610,8 56,47 10,98 22,4 0,0773
57,2 59,9 3271,84 3588,01 3426,28 57,09 4,06 7,9 0,0469
61,8 56,7 3819,24 3214,89 3504,06 55,5 1,41 1,44 0,0212
58,8 55 3457,44 3025 3234 56,54 8,33 2,36 0,0279
47,2 54,3 2227,84 2948,49 2562,96 60,55 12,86 39,05 0,1151
55,2 49,3 3047,04 2430,49 2721,36 57,78 73,71 71,94 0,172
384,3 405,2 21338,41 23685,76 22162,34 405,2 230,47 201,71 0,5699

Примечание: значения y(x) находятся из полученного уравнения регрессии:


y(45.1) = -0.35*45.1 + 76.88 = 61.28

y(59) = -0.35*59 + 76.88 = 56.47

… … …

Ошибка аппроксимации


Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации
– среднее отклонение расчетных значений от фактических:

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.

F-статистики. Критерий Фишера.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

б) степенная регрессия ;

Решение проводится с помощью сервиса Нелинейная регрессия . При выборе укажите Степенная y = ax b

в) показательная регрессия;

г) модель равносторонней гиперболы.

Система нормальных уравнений.

Для наших данных система уравнений имеет вид

7a + 0.1291b = 405.2

0.1291a + 0.0024b = 7.51

Из первого уравнения выражаем а и подставим во второе уравнение

Получаем b = 1054.67, a = 38.44

Уравнение регрессии:

y = 1054.67 / x + 38.44

Ошибка аппроксимации.


Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.

Критерий Фишера.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.

2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.

Табличное значение критерия со степенями свободы k1=1 и k2=5, Fkp = 6.61

Поскольку фактическое значение F < Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *