第三节 次数分布7 j5 ?5 R3 C; O3 W4 Z- z
一、次数分配的概念( A5 c) z) p* t, O3 N
在统计分组的基础上,将总体中所有单位按组归类整理,形成总体中各单位数在各组间的分配称为次数分配。
9 n/ N, r9 f% h3 [, V) L$ K' B 分配在各组的单位数叫次数或频数。* M4 j: y+ J: B* V9 {
各组次数与总次数的比率叫频率或比率。各比率之和为100或1即Σ=1。
& a' h; I$ |& ]3 j7 }. i 将各组组别与次数依次排列而形成的数列叫次数分配数列,简称分配数列。" N; j% I" s; K5 u1 ^& z! J% C
- t2 q6 p+ ]8 d
二、分配数列的编制# u+ V% j I% H
1.种类- b0 C7 C6 S0 Z
①属性分配数列:: Y1 I+ g3 ]1 I' e
按品质标志分配而形成的数列叫属性分配数列,简称品质数列,如上例内蒙古自治区人口分布。
9 j+ ]2 q I6 Q$ g" {, @6 p' a" o ②变量分配数列# ~5 |3 l$ M9 a) j7 s- G
按数量标志分组而形成的数列叫变量分配数列,简称变量数列。
3 `2 F0 o& p& G1 ~) I1 K% N3 Z+ H 1)单项式变量分组数列
* d. ^; Y0 e& I 是按每个变量值分别列组而形成的数列。- J$ s$ t; s! ~! z% M% v2 Z- T
2)组距式变量数列
+ c& L* z8 s6 \ 把各变量值按照一定组距进行分组而形成的数列。如:上例某班学生统计考试成绩表。9 F2 a8 r$ u& K: G( W" @5 H
在组距数列中,表示各组界限的变量值称为组限,50—60,60—70等。其中较小的变量值称为下限,50,60等,较大的变量值为上限,60,70等,各组上限与下限之差即为组距, 组距=上限-下限,60-50,70-60等,各组上限与下限的中点称为组中值,即组中值=(上限+下限)/2,(50+60)/2=55,(60+70)/2=65,组中值具有一定的假定性,即假定次数在各组内的分布是均匀的,代表了各组内的一般水平。
+ D% {; l; K5 C3 I8 X& f a.等距分组) l9 s( ~; ^* M& b" X" m5 A6 ~1 c6 P
各组的组距均相等。& }% t' b! V' U" w* K1 v7 `
特点:由于各组组距相等,各组次数的分布不受组距大小的影响,它和消除了组距影响,与次数密度的分布是一致的,一般呈正态分布。
- w/ p. W& u" U 次数密度=次数/组距,其作用 主要用于消除各组组距不相等而造成的现象分布的影响。
/ P; g' u& j# f) j b.不等距分组
8 \ [5 r! t% h) S0 y3 \* b 各组组距不相等。! v% ~' r" \& S8 z2 }9 v$ i+ l
特点:不等距分组各组的次数多少受组距不同的影响,组距大次数可能多,组距小,则次数可能少,因此必须消除组距对其分布的影响即需计算次数密度。6 W4 x' r. G% _/ o+ D
在编制组距式变量数列时,常常会遇到这样的情况,如:学生成绩的分布, q! z0 n+ n1 G4 t# @/ Q
60分以下( ]1 C& O/ l4 M% ~; x7 L' e
60—70
8 F! A/ Q2 K$ `1 L 70—80等+ }! @2 T) p1 E* d" j
又如:学生人数的分布0 w5 @* I7 H0 ^( M7 c3 n. E0 Y
30人以下
4 Z, \9 P! l) r' W6 i L# s* O 30—60& ?) Y! E4 f X# D; C+ R. m
60人以上等5 x1 X0 e- t' w, z: i
这种具有不确定组距的组称为“开口组”,包括上开口和下开口,其组中值如何计算?
( g- b* b- M) y( O# ^+ C 下开口的组中值=上限-1/2邻组组距* r+ l2 u% I/ w
上开口的组中值=下限+下限1/2邻组组距
/ L: t2 u; J6 T' ~ q1 ?; |0 Z 2.变量数列的编制' f. c/ u2 h2 S' a5 l
程序:①原始数据②序列化(编制由小到大简单数列)③求出组距等④分组归类合计(形成次数分布)⑤制成统计表(变量数列)
7 x$ Y7 R& d) q: C! t+ E* r8 T a.离散型变量
7 n' f- G5 d7 Z8 a 由于离散型变量各变量值之间以整数断开,变量值之间有明显的界限,上下限都可以用准确的数值表示,组限非常清楚。
' n5 N: W5 ^- X; J' x 如:某校按学生人数分组,其组限为:
2 A. l/ {) K/ M 100人以下
5 g* i0 D7 U3 V; \5 M& x. w; L0 ] 101—200/ A( Q& A7 S5 _: S7 V6 p# y e8 u2 `
201—300
8 N8 l' h8 c. W 301—400 H3 Z* w2 r1 H$ u
401人以上7 h* v% ~( @6 h% t4 c& w* A: L+ A
b.连续型变量: r! w$ t4 q* ?/ a- t
由于连续型变量各变量值之间可做无限分割,有小数存在,上下限不能用两个确定的值表示,只能用前一组的上限与本组的下限为同一数值表示。如:上例考试成绩
. U7 R1 H0 ] E: H1 M3 c" Q( p 统计实际工作中,虽然变量区分连续型变量与离散型变量,但为了计算,绘图等的方便,保证整体单位不出现重复、遗漏。可采用连续型变量的形式代替离散型变量。* x% G( T- U3 ]! E! h" A+ s
对于连续型变量,在确定组限时,有一原则可循,即“上组限不在内”原则:各组只包括本组下限变量值的单位,不包括本组上限变量值的单位。/ p& y" R( J+ C6 S1 q9 c
3.编制统计表
" A& X% l& m4 N9 c) y6 D6 p4 Z6 [ 如上例40人考试成绩分为5组,组距为10,组限可以为:
# z" K6 g. }( S3 r3 n! N9 ^ 50—60,60—70,…,90—100 |