Розділ XII Основні положення комплексного статистичного аналізу даних у правовій статистиці Печать
Рейтинг пользователей: / 0
ХудшийЛучший 
Учебные материалы - Правова статистика (В.В. Голіна)

Розділ XII Основні положення комплексного статистичного аналізу даних у правовій статистиці

 

§ 1. Види та форми зв’язків між явищами

Статистичний аналіз є найбільш відповідальним етапом статистич­ного дослідження. Аналіз полягає у встановленні й оцінці взаємозв’язків між явищами, встановленні щільності цих зв’язків та їх істотності, встановленні та вимірюванні закономірностей масових суспільних процесів тощо. Вихідним положенням для статистичного аналізу є твердження, що всі явища в природі й суспільстві перебувають у вза­ємозалежності та взаємозумовленості.

Застосування прийомів і методів статистичного аналізу до діяль­ності органів внутрішніх справ, прокуратури, суду та інших правоохо­ронних і правозастосовчих органів дозволяє виявити позитивні момен­ти та зрушення в їх діяльності, висвітлити певні недоліки. Але це не є тільки констатацією певних фактів. Статистичний аналіз у вищеназ­ваних органах покликаний виявляти та допомагати усуненню недоліків та прогалин в їх діяльності й натомість сприяти поширенню позитив­них напрацювань і досвіду.

У попередніх розділах підручника ми вже розглядали прийоми і способи статистичного зведення та групування даних, способи отримання та дослідження узагальнюючих показників, абсолютних і від­носних величин, середніх величин і показників варіації, основні пра­вила побудови статистичних рядів і статистичних графіків. Усі пере­лічені прийоми та способи обробки результатів статистичного дослі­дження також дозволяють виявити певні властивості досліджуваної сукупності явищ або процесів, встановити й оцінити взаємозв’язки між ними. Однак існує декілька спеціальних методів виявлення взаємозв’язків між явищами, встановлення щільності цих зв’язків та їх істотності, що дає змогу з більшою долею ймовірності та вірогід­ності проаналізувати результати статистичного дослідження певної сукупності.

Розглянемо спочатку види та форми зв ’язку і залежності між явищами, що можуть бути побудовані за різними критеріями.

За ступенем залежності одного явища від іншого розрізняють два види зв’язку: функціональний (повний) і стохастичний (неповний, або статистичний).

Функціональним називають такий зв’язок, при якому кожному значенню факторної ознаки x (аргументу), що характеризує певне явище, у всіх випадках відповідає одне або кілька значень результа­тивної ознаки у (функції). Така залежність виявляється в кожному окремому випадку абсолютно точно і виражається за допомогою ана­літичних формул. Отже, знаючи значення x (аргументу) в кожному конкретному випадку можна точно визначити значення у (функції). У соціально-економічних, у тому числі й правових, явищах до функ­ціонального типу належать адаптивні (у = x1 + x2) або мультиплікатив- ні зв’язки (у = x1 х x2; у = x1 / x2), а також залежності середніх величин від структури сукупності.

Функціональний зв’язок найчастіше зустрічається в природничих науках: математиці, фізиці, астрономії тощо. Він виражається точною математичною формулою, яка може бути використана в будь-якому випадку для розглядуваного явища. Функціональна залежність про­являється з однаковою силою в усіх одиницях сукупності незалежно від зміни інших ознак даного явища.

Функціональна залежність має місце і в суспільних явищах, але дуже рідко; ці зв’язки є одиничними, відображають взаємозв’язок тільки окремих сторін явища. Зокрема, таким є зв’язок тарифної за­робітної плати та відпрацьованого робітником робочого часу і т. ін. У правових явищах функціональна залежність, як правило, не зустрі­чається.

На відміну від функціонального стохастичний зв’язок є неодноз­начним, адже при ньому кожному значенню ознаки x відповідає певна множина значень ознаки у, які утворюють так званий умовний розпо­діл. Якщо умовні розподіли замінюють одним параметром (середнім значенням у), то такий зв’язок називають кореляційним. При такому зв’язку немає суворої відповідності між значеннями залежних ознак: кожному певному значенню аргументу (факторної ознаки) відповідає кілька різних значень функції (результативної ознаки).

Кореляційний зв’язок виявляється не в кожному окремому випадку, а лише при великій кількості спостережень під час порівняння серед­ніх значень взаємозалежних ознак. Він ґрунтується на законі великих чисел, що виявляється при масовому спостереженні як тенденція до зростання чи зменшення результативної ознаки залежно від відповід­ної зміни факторної ознаки.

Кореляційні зв’язки найбільш поширені серед суспільних явищ. Так, наприклад, існує залежність між учиненням хуліганських дій і злочинами проти особи. Засуджені за хуліганство частіше виявляють­ся винними у злочинах проти життя, здоров’я та гідності громадян, ніж особи, які засуджені за корисливі чи посадові злочини. Проте цю залежність можна виявити лише під час аналізу даних про значну кількість засуджених. Що ж стосується окремих осіб, то їх злочинна діяльність може не мати такої залежності і навіть бути протилежною.

Візьмемо зворотну залежність між насильницькою злочинністю й освітою осіб, що вчинили злочини. Така залежність є, але на рівень злочинності в різних напрямках діють багато інших факторів (вживан­ня алкоголю, моральні якості особи, матеріально-побутові умови тощо). Тому в кожному конкретному випадку залежність між освітою і зло­чинністю може не проявитися, і для виявлення такої неповної залеж­ності треба взяти велику кількість явищ, які слід розглядати в сукуп­ності.

У цивільно-правовій статистиці можна вивчати: залежність між зростанням житлового будівництва і зниженням кількості судових справ відповідної категорії (справ, які виникали на ґрунті сімейно- побутових конфліктів); залежність між кількістю розлучень на 10 тис. населення і умовами життя населення, між кількістю укладених шлю­бів на 10 тис. населення і соціально-демографічними показниками всього населення тощо.

Отже, наявність багатьох факторних ознак, ступінь впливу яких на результативну ознаку невідомий, є однією з характерних особливостей кореляційних зв’язків. Кореляційний зв’язок між результативною озна­кою та одиницею з певної кількості факторних ознак може проявитися лише в загальному, у середньому, за інших однакових умов. Вплив факторів, які не є об’єктом дослідження, усувається шляхом заміни їх на середні показники. Відповідно до закону великих чисел це досяга­ється на підставі взаємопогашення відхилень ознак певних одиниць у той чи інший бік від середньої при достатньо великій кількості оди­ниць, що вивчаються. Чим більша статистична сукупність, тим точні­ше встановлюване співвідношення виражає закономірність кореляцій­них зв’язків. Кореляційний зв’язок не виражається певною математич­ною формулою, він може бути виражений лише приблизно за допо­могою аналітичних формул.

Кореляційний аналіз — це визначення взаємозалежностей між статистичними ознаками, які характеризують окремі соціально- економічні явища і процеси.

За напрямком зв’язок між корелюючими величинами може бути прямим або оберненим. При прямому зв’язку зміна факторної ознаки зумовлює зміну результативної ознаки в тому ж самому напрямку. Якщо ж зі збільшенням факторної ознаки результативна ознака змен­шується або, навпаки, із зменшенням факторної зростає результативна, то такий зв’язок називають оберненим. Наприклад, між пияцтвом і злочинністю є пряма залежність, а між освітою і злочинністю — обер­нена.

За формою зв’язку розрізняють прямолінійні та криволінійні коре­ляційні залежності. Прямолінійний кореляційний зв’язок характе­ризується рівномірним зростанням або зменшенням результативної ознаки під впливом відповідної зміни факторної ознаки. Графічно його можна представити на лінійному графіку у вигляді прямої лінії. При криволінійному кореляційному зв’язку однаковим змінам середніх значень факторної ознаки відповідають різні зміни середніх значень результативної ознаки. Графічно його можна представити на лінійному графіку у вигляді кривої лінії.

Залежно від кількості досліджуваних ознак розрізняють парну (просту) та множинну кореляцію. При парній кореляції аналізують зв’язок між факторною та результативною ознаками; при множинній кореляції — залежність результативної ознаки від двох і більше фак­торних ознак. У суспільних явищах найчастіше зустрічаються мно­жинні кореляційні зв’язки. Так, на рішення розірвати шлюб впливають багато факторів; на вчинення автотранспортного злочину впливають різні фактори: природні умови, стан дороги, стан транспортних засобів, кваліфікація водія, додержання правил дорожнього руху водіями та іншими учасниками руху тощо.


§ 2. Виявлення залежності та встановлення її характеру

За допомогою кореляційного аналізу вирішують такі основні за­вдання: виявляють наявність та вибирають форми зв’язку результативної ознаки з одним або комплексом факторів; кількісно оцінюють зміни за­лежної величини від факторів, що впливають на неї; встановлюють щільність зв’язку результативного показника з одним факторним чи їх комплексом; аналізують загальний обсяг варіації залежної величини та визначають вплив окремих факторів у цьому варіюванні.

Ознаки одиниць сукупності відбирають логіко-теоретичним шля­хом залежно від змісту співвідношення результативної та факторної ознак. При цьому важливу роль відіграє попередній аналіз досліджу­ваного явища, який є основою для визначення завдання кількісного вивчення зв’язку. Такий попередній аналіз передбачає порівняння вза­ємозалежних статистичних рядів, побудову таблиць розподілу, засто­сування простих і комбінованих групувань за факторними або резуль­тативними ознаками.

Як уже відзначалось у розділі 6 підручника, графічне зображення статистичних показників дає наочне уявлення про наявність або від­сутність зв’язку між досліджуваними ознаками. При побудові графіка на горизонтальній осі відкладають значення факторної ознаки (x), а на вертикальній — значення результативної ознаки (у). Відмітивши на перетині відповідних значень точки, отримують кореляційне поле.

За характером розміщення точок на кореляційному полі роблять висновок про характер та форму зв’язку. Якщо точки безладно роз­кидані по всьому полю, то це свідчить про відсутність залежності між досліджуваними ознаками. Якщо точки концентруються навколо уяв­ної осі, напрям якої від нижнього лівого кута до верхнього правого, то зв’язок між факторною та результативною ознакою прямий. Коли ж точки концентруються навколо уявної осі, напрям якої з верхнього лівого кута до нижнього правого, то існує обернений зв’язок між озна­ками. Характер розподілу точок по кореляційному полю також вказує і на наявність прямолінійної або криволінійної залежності між фак­торною та результативною ознаками.

За допомогою графіка співвідношення досліджуваних ознак ро­блять висновок про можливість застосування того чи іншого способу кількісної оцінки зв’язку. Рівняння, за допомогою яких визначають статистичний зв’язок між корелюючими величинами, називають рів­няннями регресії (кореляційними рівняннями), а лінії, побудовані на їх основі, — лініями регресії.

Широко застосовується для встановлення зв’язку між явищами, які пов’язані між собою, метод порівняння паралельних рядів. Сутність його полягає в тому, що дані ряду факторної ознаки розміщуються за принципом її зростання, або зменшення, або за якимось іншим прин­ципом, і паралельно наводиться ряд даних результативної ознаки, яка залежить від факторної. Шляхом порівняння наведених рядів виявля­ються наявність і напрямок зміни результативної ознаки залежно від зміни факторної ознаки. У тих випадках, коли зростання факторної ознаки приводить до зростання і величини результативної ознаки, можна говорити про наявність прямої кореляційної залежності. Якщо ж із збільшенням факторної ознаки величина результативної ознаки має тенденцію до зменшення, то можна припустити наявність оберне­ного зв’язку між ознаками.

Наявність великої кількості різних значень результативної ознаки ускладнює сприйняття таких паралельних рядів, особливо при наяв­ності значної кількості одиниць, які складають статистичну сукупність. У цьому випадку для встановлення факту наявності або відсутності зв’язку доцільно використовувати групові таблиці.

Паралельні ряди можна порівнювати як у статиці, тобто за один і той же час порівняння, так і в динаміці, — порівнювати дані за окре­мі хронологічні періоди. Якщо необхідно порівняти ряди динаміки однойменних показників на різних територіях, то можна порівнювати не тільки абсолютні прирости і темпи зростання, а й рівні на однакові дати, щоб одержати відповідь на питання, наскільки рівень одного ряду більший або менший за інший. Можна порівнювати ряди динаміки середніх і відносних величин, що робить статистичний аналіз більш глибоким та всебічним.

Ряди розподілу можна використовувати для порівняння розподілу всього населення і осіб, які вчинили злочини, за віком, статтю, соці­альним, родинним станом тощо. При цьому порівнянні можна встано­вити наскільки часто за той чи інший проміжок часу зустрічається та чи інша група серед осіб, які вчинили злочини, ніж серед усього на­селення.

Краще порівнювати ряди динаміки, ніж ряди розподілу. При порівняльному аналізі рядів динаміки з метою наочного встановлення взаємозалежності між явищами доцільно привести ряди до однієї осно­ви, до загальної бази порівняння. За загальну базу порівняння може бути прийнято не тільки який-небудь безпосередній рівень ряду, а й середній рівень. Приводити ряди динаміки до однієї основи треба тоді, коли ряди характеризують динаміку різних, безпосередньо не сумісних, але взаємопов’язаних рядів. Цей метод використовується в статистич­ній практиці для виявлення щільності між показниками досліджуваних явищ. За допомогою цього методу можна аналізувати однойменні дані, які відносяться до різних територій, наприклад порівнювати динаміку коефіцієнта злочинності в різних країнах за певний проміжок часу.

Аналіз кореляційних зв’язків у динамічних рядах має певні мето­дичні особливості, зумовлені взаємозалежністю рівнів, або їх авто- кореляцією, тобто кореляцією значень у і у t + h, де t — початковий момент часу, h — період часу. Автокореляція впливає на незалежність результатів спостережень і призводить до викривлення результатів аналізу. Найпростішим та найпоширенішим способом усунення авто- кореляції є спосіб кореляції по різницях, сутність якого полягає в за­міні первинних рівнів взаємопов’язаних рядів динаміки xt та у t абсо­лютними приростами, тобто різницями.

Дисперсійний аналіз, або метод статистичної обробки спостере­жень, у загальному вигляді являє собою метод оцінки впливу однієї чи кількох факторних ознак, що одночасно діють на певну результативну ознаку. Застосовується під час обробки даних, отриманих унаслідок статистичного спостереження, з метою виявлення впливу окремих факторів на результативну ознаку та їх взаємодії. Дисперсійний аналіз дає змогу кількісно характеризувати вплив на результативну ознаку не тільки кількісних факторів, а й атрибутивних.

Розробка методу дисперсійного аналізу пов’язана з ім’ям англій­ського статистика Р. А. Фішера, який уперше застосував його при об­робці результатів досліджень у 1925 р. Цей метод можна застосувати для оцінки щільності взаємозв’язку між рівнем споживання алкоголю на душу населення та кількістю зареєстрованих хуліганств у стані алкогольного сп’яніння.

Дисперсійний метод аналізу найчастіше використовують при оці­нюванні результатів багатоваріантних досліджень, групуючи дані дослідження за однією або кількома факторними ознаками, а також для визначення взаємодії двох, трьох або більшої кількості факторів.

У зв’язку з тим, що на варіацію досліджуваних ознак впливають різноманітні фактори, розрізняють систематичну та випадкову варіації. Систематична варіація — це частина загальної варіації результативної ознаки, зумовлена систематичною дією факторних ознак. Випадкова ж варіація зумовлюється дією випадкових факторів. Вона ще має назву залишкової, оскільки відображає варіацію результативної ознаки, не враховану в обсязі систематичної варіації.

При дисперсійному аналізі кожне вимірювання залежить від певної кількості параметрів, які можуть набувати або дискретних, або непе­рервних значень. Залежність розглядають у вигляді лінійної комбінації параметрів із коефіцієнтами:

де x — параметри; b — коефіцієнти; e — випадкова похибка вимірю­вання.

Коефіцієнти b називають факторами. Рівняння такого виду назива­ють лінійною багатофакторною моделлю.

У дисперсійному аналізі параметри x зазвичай беруть рівними 0 або 1, що вказує на те, які з факторів враховують при такому аналізі.

Дисперсійний аналіз здійснюють за певним алгоритмом, суворо дотримуючись такої послідовності дій:

1)  визначення джерел вимірювання досліджуваної ознаки і добір моделі аналізу. Обрання певної моделі дисперсійного аналізу залежить у першу чергу від кількості досліджуваних факторів, а також від спо­собу групування даних статистичного спостереження;

2)  обчислення обсягів варіації за джерелами утворення;

3)  розрахунок дисперсії та показників співвідношень між ними;

4)  аналіз співвідношень між дисперсіями і загальні висновки.

У статистиці частіше провадяться дослідження, результати яких по­будовані за декількома факторними ознаками, тобто в них досліджуєть­ся одночасно вплив на результативну ознаку двох і більше факторів.

Зазначені вище правила дисперсійного аналізу кількісних ознак можна застосовувати також при порівнянні кількох вибірок якісних альтернативних ознак. У цьому випадку групування одиниць дослі­джуваної сукупності відбувається за принципом «або — або», тобто одні одиниці сукупності мають певну ознаку, а інші — ні.

Наступний метод статистичного аналізу — це регресійний аналіз. Цей метод покликаний вирішити два основних завдання:

1)  у результаті економічного аналізу встановити форму зв’язку і дати його математичне вираження за допомогою кореляційних рів­нянь;

2)  установити щільність зв’язку між факторною (х) і результатив­ною ознакою (у).

Перше завдання вирішується в ході аналізу того чи іншого явища. Залежно від форми зв’язку, який визначено на основі попереднього якісного аналізу, кореляційні рівняння можуть мати різний вигляд. У статистиці використовуються прямолінійні та криволінійні кореля­ційні рівняння.

Теоретичною лінією регресії називають ту лінію, навколо якої групуються точки кореляційного поля і яка вказує основний напрямок, основну тенденцію зв’язку. Теоретична лінія регресії повинна відо­бражати зміни середніх величин результативної ознаки ух відповідно до зміни факторної ознаки х.

Якщо попередній аналіз явищ, зв’язок між якими вивчається, по­казує, що рівним змінам середніх значень факторної ознаки відповіда­ють приблизно рівні зміни середніх значень результативної ознаки, то для вираження форми кореляційного зв’язку можна використати пря­молінійне кореляційне рівняння:

 

де ух—ординати шуканої прямої, або вирівнювані значення результа­тивної ознаки; х — факторна ознака; а0 і а1 — параметри рівняння.

Перший параметр рівняння а0 — ордината лінії при х = 0. Параметр а1, який називається коефіцієнтом регресії, — це показник середньої зміни ознаки у на одиницю ознаки х у межах даного дослідження.

Якщо ми маємо обернену залежність між результативною та фак­торною ознакою, то рівняння лінійної залежності буде мати такий вигляд:

 

Якщо ця формула лінійна, ідеться про лінійну регресію. Формула статистичного зв’язку двох змінних називається парною регресією, а кількох змінних — множинною регресією.

Для оцінювання невідомих параметрів за результатами вимірювань використовують метод найменших квадратів. За його допомогою спо­чатку визначають функціональну залежність представлення даних дослідження, а потім для цієї залежності добирають параметри.

Друге завдання кореляційного аналізу — це вимірювання щільнос­ті зв’язку. Щільність кореляційного зв’язку оцінюється за допомогою індексу кореляції (коефіцієнта кореляції, або кореляційного відношен­ня). Коефіцієнт кореляції — це числова характеристика, що виражає взаємозв’язок і спільний розподіл двох випадкових величин. Він до­статньо точно оцінює ступінь щільності взаємозв’язку при наявності лінійної залежності між факторною та результативною ознаками. При наявності криволінійної залежності обчислюється кореляційне від­ношення.

Індекс кореляції завжди повинен знаходитися в межах від 0 до 1. Якщо індекс кореляції дорівнює 0, то немає ніякого взаємозв’язку між досліджуваними явищами, якщо індекс кореляції дорівнює 1, то це свідчить про наявність повного функціонального зв’язку між явищами. Вважається, що він обов’язково повинен бути більше 0,75, щоб більше ніж на три чверті зміна результативної ознаки складалась під впливом факторної.

Індекс кореляції може мати як знак плюс, так і знак мінус. Якщо залежність між показниками пряма, то індекс кореляції має знак плюс; якщо залежність між показниками обернена, то індекс кореляції буде мати знак мінус.

Поряд із традиційними статистичними методами аналізу даних при дослідженні реальних соціально-економічних, у тому числі й правових, явищ і процесів широко застосовуються математико-статистичні ме­тоди. Їх застосування передбачає найбільш повне розкриття суті, за­кономірностей і тенденцій розвитку конкретних явищ і процесів з ме­тою більш адекватного відображення їх властивостей та особливостей, резервів і перспектив розвитку та шляхів удосконалення.

У практиці аналізу економічних явищ і процесів використовують­ся також кластерний аналіз, метод головних компонент, факторний аналіз.

Також при статистичному аналізі даних набули застосування й ме­тоди та засоби, засновані на використанні здобутків інформатики та програмування. Такими, зокрема, є програмні електронні пакети ста­тистичного аналізу STATISTICA та SPSS, що є інтегрованими систе­мами аналізу й управління даними, сучасними інструментами розроб­ки пропозицій користувачеві в бізнесі, економіці, фінансах та інших галузях. Їх використання дозволяє встановлювати не тільки взаємозв’язки між явищами, визначати щільність цих зв’язків та їх істотність, а й визначати точні значення вірогідностей та отримати практичні рекомендації з удосконалення практичної діяльності.

Вивчення цих відносно складних проблем виходить за рамки під­ручника з правової статистики. Однак базова підготовка юристів при необхідності дає змогу опанувати ці методи встановлення та оцінки взаємозв’язків між явищами, встановлення щільності цих зв’язків та їх істотності, встановлення та вимірювання закономірностей масових суспільних явищ і процесів, правових у тому числі.

 

Питання та завдання для самоконтролю

1. Обґрунтуйте наявність взаємозв’язку між показниками різних галузей статистики.

2. Розкрийте види та форми взаємозв’язків між явищами.

3. Охарактеризуйте різницю між кореляційним і функціональним зв’язками.

4. Охарактеризуйте суть і форми причинної залежності.

5. Перерахуйте прийоми виявлення залежності між явищами у правовій статистиці.

 

Завдання 1. За допомогою яких найбільш поширених статистичних методів можна встановити взаємозв’язок між злочинністю й іншими со­ціальними явищами та процесами, які впливають на неї?

Завдання 2. У чому полягає сутність методу паралельних рядів і які завдання можуть бути вирішені за його допомогою при аналізі злочиннос­ті? Поясніть це на прикладах.

Завдання 3. За допомогою яких методів і яким чином можна встановити взаємозв’язок між злочинністю та рівнем вживання алкоголю?

Завдання 4. За допомогою яких методів і яким чином можна встановити взаємозв’язок між злочинністю та рівнем міграції?

Завдання 5. За допомогою яких методів і яким чином можна встановити взаємозв’язок між злочинністю та рівнем освіти злочинців і рів­нем освіти всього населення?