Розділ XII Основні положення комплексного статистичного аналізу даних у правовій статистиці - § 2. Виявлення залежності та встановлення її характеру
§ 2. Виявлення залежності та встановлення її характеру
За допомогою кореляційного аналізу вирішують такі основні завдання: виявляють наявність та вибирають форми зв’язку результативної ознаки з одним або комплексом факторів; кількісно оцінюють зміни залежної величини від факторів, що впливають на неї; встановлюють щільність зв’язку результативного показника з одним факторним чи їх комплексом; аналізують загальний обсяг варіації залежної величини та визначають вплив окремих факторів у цьому варіюванні.
Ознаки одиниць сукупності відбирають логіко-теоретичним шляхом залежно від змісту співвідношення результативної та факторної ознак. При цьому важливу роль відіграє попередній аналіз досліджуваного явища, який є основою для визначення завдання кількісного вивчення зв’язку. Такий попередній аналіз передбачає порівняння взаємозалежних статистичних рядів, побудову таблиць розподілу, застосування простих і комбінованих групувань за факторними або результативними ознаками.
Як уже відзначалось у розділі 6 підручника, графічне зображення статистичних показників дає наочне уявлення про наявність або відсутність зв’язку між досліджуваними ознаками. При побудові графіка на горизонтальній осі відкладають значення факторної ознаки (x), а на вертикальній — значення результативної ознаки (у). Відмітивши на перетині відповідних значень точки, отримують кореляційне поле.
За характером розміщення точок на кореляційному полі роблять висновок про характер та форму зв’язку. Якщо точки безладно розкидані по всьому полю, то це свідчить про відсутність залежності між досліджуваними ознаками. Якщо точки концентруються навколо уявної осі, напрям якої від нижнього лівого кута до верхнього правого, то зв’язок між факторною та результативною ознакою прямий. Коли ж точки концентруються навколо уявної осі, напрям якої з верхнього лівого кута до нижнього правого, то існує обернений зв’язок між ознаками. Характер розподілу точок по кореляційному полю також вказує і на наявність прямолінійної або криволінійної залежності між факторною та результативною ознаками.
За допомогою графіка співвідношення досліджуваних ознак роблять висновок про можливість застосування того чи іншого способу кількісної оцінки зв’язку. Рівняння, за допомогою яких визначають статистичний зв’язок між корелюючими величинами, називають рівняннями регресії (кореляційними рівняннями), а лінії, побудовані на їх основі, — лініями регресії.
Широко застосовується для встановлення зв’язку між явищами, які пов’язані між собою, метод порівняння паралельних рядів. Сутність його полягає в тому, що дані ряду факторної ознаки розміщуються за принципом її зростання, або зменшення, або за якимось іншим принципом, і паралельно наводиться ряд даних результативної ознаки, яка залежить від факторної. Шляхом порівняння наведених рядів виявляються наявність і напрямок зміни результативної ознаки залежно від зміни факторної ознаки. У тих випадках, коли зростання факторної ознаки приводить до зростання і величини результативної ознаки, можна говорити про наявність прямої кореляційної залежності. Якщо ж із збільшенням факторної ознаки величина результативної ознаки має тенденцію до зменшення, то можна припустити наявність оберненого зв’язку між ознаками.
Наявність великої кількості різних значень результативної ознаки ускладнює сприйняття таких паралельних рядів, особливо при наявності значної кількості одиниць, які складають статистичну сукупність. У цьому випадку для встановлення факту наявності або відсутності зв’язку доцільно використовувати групові таблиці.
Паралельні ряди можна порівнювати як у статиці, тобто за один і той же час порівняння, так і в динаміці, — порівнювати дані за окремі хронологічні періоди. Якщо необхідно порівняти ряди динаміки однойменних показників на різних територіях, то можна порівнювати не тільки абсолютні прирости і темпи зростання, а й рівні на однакові дати, щоб одержати відповідь на питання, наскільки рівень одного ряду більший або менший за інший. Можна порівнювати ряди динаміки середніх і відносних величин, що робить статистичний аналіз більш глибоким та всебічним.
Ряди розподілу можна використовувати для порівняння розподілу всього населення і осіб, які вчинили злочини, за віком, статтю, соціальним, родинним станом тощо. При цьому порівнянні можна встановити наскільки часто за той чи інший проміжок часу зустрічається та чи інша група серед осіб, які вчинили злочини, ніж серед усього населення.
Краще порівнювати ряди динаміки, ніж ряди розподілу. При порівняльному аналізі рядів динаміки з метою наочного встановлення взаємозалежності між явищами доцільно привести ряди до однієї основи, до загальної бази порівняння. За загальну базу порівняння може бути прийнято не тільки який-небудь безпосередній рівень ряду, а й середній рівень. Приводити ряди динаміки до однієї основи треба тоді, коли ряди характеризують динаміку різних, безпосередньо не сумісних, але взаємопов’язаних рядів. Цей метод використовується в статистичній практиці для виявлення щільності між показниками досліджуваних явищ. За допомогою цього методу можна аналізувати однойменні дані, які відносяться до різних територій, наприклад порівнювати динаміку коефіцієнта злочинності в різних країнах за певний проміжок часу.
Аналіз кореляційних зв’язків у динамічних рядах має певні методичні особливості, зумовлені взаємозалежністю рівнів, або їх авто- кореляцією, тобто кореляцією значень у і у t + h, де t — початковий момент часу, h — період часу. Автокореляція впливає на незалежність результатів спостережень і призводить до викривлення результатів аналізу. Найпростішим та найпоширенішим способом усунення авто- кореляції є спосіб кореляції по різницях, сутність якого полягає в заміні первинних рівнів взаємопов’язаних рядів динаміки xt та у t абсолютними приростами, тобто різницями.
Дисперсійний аналіз, або метод статистичної обробки спостережень, у загальному вигляді являє собою метод оцінки впливу однієї чи кількох факторних ознак, що одночасно діють на певну результативну ознаку. Застосовується під час обробки даних, отриманих унаслідок статистичного спостереження, з метою виявлення впливу окремих факторів на результативну ознаку та їх взаємодії. Дисперсійний аналіз дає змогу кількісно характеризувати вплив на результативну ознаку не тільки кількісних факторів, а й атрибутивних.
Розробка методу дисперсійного аналізу пов’язана з ім’ям англійського статистика Р. А. Фішера, який уперше застосував його при обробці результатів досліджень у 1925 р. Цей метод можна застосувати для оцінки щільності взаємозв’язку між рівнем споживання алкоголю на душу населення та кількістю зареєстрованих хуліганств у стані алкогольного сп’яніння.
Дисперсійний метод аналізу найчастіше використовують при оцінюванні результатів багатоваріантних досліджень, групуючи дані дослідження за однією або кількома факторними ознаками, а також для визначення взаємодії двох, трьох або більшої кількості факторів.
У зв’язку з тим, що на варіацію досліджуваних ознак впливають різноманітні фактори, розрізняють систематичну та випадкову варіації. Систематична варіація — це частина загальної варіації результативної ознаки, зумовлена систематичною дією факторних ознак. Випадкова ж варіація зумовлюється дією випадкових факторів. Вона ще має назву залишкової, оскільки відображає варіацію результативної ознаки, не враховану в обсязі систематичної варіації.
При дисперсійному аналізі кожне вимірювання залежить від певної кількості параметрів, які можуть набувати або дискретних, або неперервних значень. Залежність розглядають у вигляді лінійної комбінації параметрів із коефіцієнтами:
де x — параметри; b — коефіцієнти; e — випадкова похибка вимірювання.
Коефіцієнти b називають факторами. Рівняння такого виду називають лінійною багатофакторною моделлю.
У дисперсійному аналізі параметри x зазвичай беруть рівними 0 або 1, що вказує на те, які з факторів враховують при такому аналізі.
Дисперсійний аналіз здійснюють за певним алгоритмом, суворо дотримуючись такої послідовності дій:
1) визначення джерел вимірювання досліджуваної ознаки і добір моделі аналізу. Обрання певної моделі дисперсійного аналізу залежить у першу чергу від кількості досліджуваних факторів, а також від способу групування даних статистичного спостереження;
2) обчислення обсягів варіації за джерелами утворення;
3) розрахунок дисперсії та показників співвідношень між ними;
4) аналіз співвідношень між дисперсіями і загальні висновки.
У статистиці частіше провадяться дослідження, результати яких побудовані за декількома факторними ознаками, тобто в них досліджується одночасно вплив на результативну ознаку двох і більше факторів.
Зазначені вище правила дисперсійного аналізу кількісних ознак можна застосовувати також при порівнянні кількох вибірок якісних альтернативних ознак. У цьому випадку групування одиниць досліджуваної сукупності відбувається за принципом «або — або», тобто одні одиниці сукупності мають певну ознаку, а інші — ні.
Наступний метод статистичного аналізу — це регресійний аналіз. Цей метод покликаний вирішити два основних завдання:
1) у результаті економічного аналізу встановити форму зв’язку і дати його математичне вираження за допомогою кореляційних рівнянь;
2) установити щільність зв’язку між факторною (х) і результативною ознакою (у).
Перше завдання вирішується в ході аналізу того чи іншого явища. Залежно від форми зв’язку, який визначено на основі попереднього якісного аналізу, кореляційні рівняння можуть мати різний вигляд. У статистиці використовуються прямолінійні та криволінійні кореляційні рівняння.
Теоретичною лінією регресії називають ту лінію, навколо якої групуються точки кореляційного поля і яка вказує основний напрямок, основну тенденцію зв’язку. Теоретична лінія регресії повинна відображати зміни середніх величин результативної ознаки ух відповідно до зміни факторної ознаки х.
Якщо попередній аналіз явищ, зв’язок між якими вивчається, показує, що рівним змінам середніх значень факторної ознаки відповідають приблизно рівні зміни середніх значень результативної ознаки, то для вираження форми кореляційного зв’язку можна використати прямолінійне кореляційне рівняння:
де ух—ординати шуканої прямої, або вирівнювані значення результативної ознаки; х — факторна ознака; а0 і а1 — параметри рівняння.
Перший параметр рівняння а0 — ордината лінії при х = 0. Параметр а1, який називається коефіцієнтом регресії, — це показник середньої зміни ознаки у на одиницю ознаки х у межах даного дослідження.
Якщо ми маємо обернену залежність між результативною та факторною ознакою, то рівняння лінійної залежності буде мати такий вигляд:
Якщо ця формула лінійна, ідеться про лінійну регресію. Формула статистичного зв’язку двох змінних називається парною регресією, а кількох змінних — множинною регресією.
Для оцінювання невідомих параметрів за результатами вимірювань використовують метод найменших квадратів. За його допомогою спочатку визначають функціональну залежність представлення даних дослідження, а потім для цієї залежності добирають параметри.
Друге завдання кореляційного аналізу — це вимірювання щільності зв’язку. Щільність кореляційного зв’язку оцінюється за допомогою індексу кореляції (коефіцієнта кореляції, або кореляційного відношення). Коефіцієнт кореляції — це числова характеристика, що виражає взаємозв’язок і спільний розподіл двох випадкових величин. Він достатньо точно оцінює ступінь щільності взаємозв’язку при наявності лінійної залежності між факторною та результативною ознаками. При наявності криволінійної залежності обчислюється кореляційне відношення.
Індекс кореляції завжди повинен знаходитися в межах від 0 до 1. Якщо індекс кореляції дорівнює 0, то немає ніякого взаємозв’язку між досліджуваними явищами, якщо індекс кореляції дорівнює 1, то це свідчить про наявність повного функціонального зв’язку між явищами. Вважається, що він обов’язково повинен бути більше 0,75, щоб більше ніж на три чверті зміна результативної ознаки складалась під впливом факторної.
Індекс кореляції може мати як знак плюс, так і знак мінус. Якщо залежність між показниками пряма, то індекс кореляції має знак плюс; якщо залежність між показниками обернена, то індекс кореляції буде мати знак мінус.
Поряд із традиційними статистичними методами аналізу даних при дослідженні реальних соціально-економічних, у тому числі й правових, явищ і процесів широко застосовуються математико-статистичні методи. Їх застосування передбачає найбільш повне розкриття суті, закономірностей і тенденцій розвитку конкретних явищ і процесів з метою більш адекватного відображення їх властивостей та особливостей, резервів і перспектив розвитку та шляхів удосконалення.
У практиці аналізу економічних явищ і процесів використовуються також кластерний аналіз, метод головних компонент, факторний аналіз.
Також при статистичному аналізі даних набули застосування й методи та засоби, засновані на використанні здобутків інформатики та програмування. Такими, зокрема, є програмні електронні пакети статистичного аналізу STATISTICA та SPSS, що є інтегрованими системами аналізу й управління даними, сучасними інструментами розробки пропозицій користувачеві в бізнесі, економіці, фінансах та інших галузях. Їх використання дозволяє встановлювати не тільки взаємозв’язки між явищами, визначати щільність цих зв’язків та їх істотність, а й визначати точні значення вірогідностей та отримати практичні рекомендації з удосконалення практичної діяльності.
Вивчення цих відносно складних проблем виходить за рамки підручника з правової статистики. Однак базова підготовка юристів при необхідності дає змогу опанувати ці методи встановлення та оцінки взаємозв’язків між явищами, встановлення щільності цих зв’язків та їх істотності, встановлення та вимірювання закономірностей масових суспільних явищ і процесів, правових у тому числі.
Питання та завдання для самоконтролю
1. Обґрунтуйте наявність взаємозв’язку між показниками різних галузей статистики.
2. Розкрийте види та форми взаємозв’язків між явищами.
3. Охарактеризуйте різницю між кореляційним і функціональним зв’язками.
4. Охарактеризуйте суть і форми причинної залежності.
5. Перерахуйте прийоми виявлення залежності між явищами у правовій статистиці.
Завдання 1. За допомогою яких найбільш поширених статистичних методів можна встановити взаємозв’язок між злочинністю й іншими соціальними явищами та процесами, які впливають на неї?
Завдання 2. У чому полягає сутність методу паралельних рядів і які завдання можуть бути вирішені за його допомогою при аналізі злочинності? Поясніть це на прикладах.
Завдання 3. За допомогою яких методів і яким чином можна встановити взаємозв’язок між злочинністю та рівнем вживання алкоголю?
Завдання 4. За допомогою яких методів і яким чином можна встановити взаємозв’язок між злочинністю та рівнем міграції?
Завдання 5. За допомогою яких методів і яким чином можна встановити взаємозв’язок між злочинністю та рівнем освіти злочинців і рівнем освіти всього населення?