- 相關(guān)推薦
統(tǒng)計學知識要點匯總2017
統(tǒng)計學知識要點有哪些你知道嗎?你對統(tǒng)計學的知識要點了解嗎?下面是yjbys小編為大家?guī)淼慕y(tǒng)計學知識要點匯總的知識,歡迎閱讀。
一、主成分和因子分析
1.(1)概念:在研究實際問題時,往往需要收集多個變量。但這樣會使多個變量間存在較強的相關(guān)關(guān)系,即這些變量間存在較多的信息重復,直接利用它們進行分析,不但模型復雜,還會因為變量間存在多重共線性而引起較大的誤差。為能夠充分利用數(shù)據(jù),通常希望用較少的新變量代替原來較多的舊變量,同時要求這些新變量盡可能反映原變量的信息。主成分分析和因子分子正是解決這類問題的有效方法。它們能夠提取信息,使變量簡化降維,從而使問題更加簡單直觀
(2)主成分分析:研究如何通過少數(shù)幾個主成分(principal component)來解釋多個變量間的內(nèi)部結(jié)構(gòu)。即從原始變量中導出少數(shù)幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān)
主成分分析的目的:數(shù)據(jù)的壓縮;數(shù)據(jù)的解釋。常被用來尋找判斷事物或現(xiàn)象的綜合指標,并對綜合指標所包含的信息進行適當?shù)慕忉尅?主成分所代表的原始變量的信息用其方差來表示,一般要求所選主成分的方差總和占全部方差的80%以上就可以了。如果原來的變量之間的相關(guān)程度高,降維的效果就會好一些,所選的主成分就會少一些。特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息。特征根又叫方差,某個特征根占總特征根的比例稱為主成分方差貢獻率。一般情況下,當特征根小于1時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大。)
(3)因子分析:與主成分分析類似,它們都是要找出少數(shù)幾個新的變量來代替原始變量。
不同之處:主成分分析中的主成分個數(shù)與原始變量個數(shù)是一樣的,即有幾個變量就有幾個主成分,只不過最后我們確定了少數(shù)幾個主成分而已。而因子分析則需要事先確定要找?guī)讉成分,也稱為因子(factor),然后將原始變量綜合為少數(shù)的幾個因子,以再現(xiàn)原始變量與因子之間的關(guān)系,一般來說,因子的個數(shù)會遠遠少于原始變量的個數(shù)。
因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上,主成分分析可以看作是因子分析的一個特例
簡言之,因子分析是通過對變量之間關(guān)系的研究,找出能綜合原始變量的少數(shù)幾個因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因此,因子分析屬于多元統(tǒng)計中處理降維的一種統(tǒng)計方法,其目的就是要減少變量的個數(shù),用少數(shù)因子代表多個原始變量
(4)因子數(shù)量的確定
用公因子方差貢獻率提取:與主成分分析類似,一般累計方差貢獻率達到80%以上的前幾個因子可以作為最后的公因子
用特征根提。阂话阋笠蜃訉(yīng)的特征根要大于1,因為特征根小于1說明該共因子的解釋力度太弱,還不如使用原始變量的解釋力度大
實際應(yīng)用中,因子的提取要結(jié)合具體問題而定,在某種程度上,取決于研究者自身的知識和經(jīng)驗
(5)主成分分析和因子分析都是多元分析中處理降維的兩種統(tǒng)計方法。只有當原始數(shù)據(jù)中的變量之間具有較強的相關(guān)關(guān)系時,降維的效果才會明顯,否則不適合進行主成分分析和因子分析
主成分和因子的選擇標準應(yīng)結(jié)合具體問題而定。在某種程度上取決于研究者的知識和經(jīng)驗,而不是方法本身
即使得到了滿意的主成分或因子,在運用它們對實際問題進行評價、排序等分析時,仍然要保持謹慎,因為主成分和因子畢竟是高度抽象的量,無論如何,它們的含義都不如原始變量清晰
因子分析可以看作是主成分分析的推廣和擴展,而主成分分析則可以看作是因子分析的一個特例。目前因子分析在實際中被廣泛應(yīng)用,而主成分分析通常只作為大型統(tǒng)計分析的中間步驟,幾乎不再單獨使用
二、多元回歸
1.多重共線性
回歸模型中兩個或兩個以上的自變量彼此相關(guān)
多重共線性帶來的問題有
可能會使回歸的結(jié)果造成混亂,甚至會把分析引入歧途
可能對參數(shù)估計值的正負號產(chǎn)生影響,特別是各回歸系數(shù)的正負號有可能同我們預期的正負號相反
2.多重共線性的識別
檢測多重共線性的最簡單的一種辦法是計算模型中各對自變量之間的相關(guān)系數(shù),并對各相關(guān)系數(shù)進行顯著性檢驗
若有一個或多個相關(guān)系數(shù)顯著,就表示模型中所用的自變量之間相關(guān),存在著多重共線性
如果出現(xiàn)下列情況,暗示存在多重共線性
模型中各對自變量之間顯著相關(guān)。
當模型的線性關(guān)系檢驗(F檢驗)顯著時,幾乎所有回歸系數(shù)的t檢驗卻不顯著
回歸系數(shù)的正負號與預期的相反。
3.變量選則過程
在建立回歸模型時,對自變量進行篩選
選擇自變量的原則是對統(tǒng)計量進行顯著性檢驗
將一個或一個以上的自變量引入到回歸模型中時,是否使得殘差平方和(SSE)有顯著地減少。如果增加一個自變量使SSE的減少是顯著的,則說明有必要將這個自變量引入回歸模型,否則,就沒有必要將這個自變量引入回歸模型
確定引入自變量是否使SSE有顯著減少的方法,就是使用F統(tǒng)計量的值作為一個標準,以此來確定是在模型中增加一個自變量,還是從模型中剔除一個自變量
變量選擇的方法主要有:向前選擇、向后剔除、逐步回歸、最優(yōu)子集等
4.向前選擇
從模型中沒有自變量開始
對k個自變量分別擬合對因變量的一元線性回歸模型,共有k個,然后找出F統(tǒng)計量的值最高的模型及其自變量(P值最小的),并將其首先引入模型
分別擬合引入模型外的k-1個自變量的線性回歸模型
如此反復進行,直至模型外的自變量均無統(tǒng)計顯著性為止
5.向后剔除
先對因變量擬合包括所有k個自變量的回歸模型。然后考察p(p
考察p-1個再去掉一個自變量的模型(這些模型中每一個都有k-2個的自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除
如此反復進行,一直將自變量從模型中剔除,直至剔除一個自變量不會使SSE顯著減小為止
6.逐步回歸
將向前選擇和向后剔除兩種方法結(jié)合起來篩選自變量
在增加了一個自變量后,它會對模型中所有的變量進行考察,看看有沒有可能剔除某個自變量。如果在增加了一個自變量后,前面增加的某個自變量對模型的貢獻變得不顯著,這個變量就會被剔除
按照方法不停地增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經(jīng)不能導致SSE顯著減少
在前面步驟中增加的自變量在后面的步驟中有可能被剔除,而在前面步驟中剔除的自變量在后面的步驟中也可能重新進入到模型中
7.虛擬自變量
用數(shù)字代碼表示的定性自變量
虛擬自變量可有不同的水平
只有兩個水平的虛擬自變量。比如,性別(男,女)
有兩個以上水平的虛擬自變量,貸款企業(yè)的類型(家電,醫(yī)藥,其他)
虛擬變量的取值為0,1
回歸模型中使用虛擬自變量時,稱為虛擬自變量的回歸
當虛擬自變量只有兩個水平時,可在回歸中引入一個虛擬變量,比如,性別
一般而言,如果定性自變量有k個水平,需要在回歸中模型中引進k-1個虛擬變量
例:引進虛擬變量時,回歸方程可寫:
E(y) =b0+ b1x1+ b2x2
女( x2=0):E(y|女性) =b0 +b1x1
男(x2=1):E(y|男性) =(b0 + b2 ) +b1x1
b0的含義表示:女性職工的期望月工資收入
(b0+ b2)的含義表示:男性職工的期望月工資收入
b1含義表示:工作年限每增加1年,男性或女性工資的平均增加值
b2含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值 (b0+ b2) - b0= b2
三、簡單回歸
1.相關(guān)分析:對兩個變量之間線性關(guān)系的描述與度量,它要解決的問題包括
§ 變量之間是否存在關(guān)系?
§ 如果存在關(guān)系,它們之間是什么樣的關(guān)系?
§ 變量之間的強度如何?
§ 樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系?
2.回歸分析:從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學關(guān)系式;對這些關(guān)系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著;利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度
3.回歸分析與相關(guān)分析的區(qū)別
相關(guān)分析中,變量 x 變量 y 處于平等的地位;回歸分析中,變量 y 稱為因變量,處在被解釋的地位,x 稱為自變量,用于預測因變量的變化
相關(guān)分析中所涉及的變量 x 和 y 都是隨機變量;回歸分析中,因變量 y 是隨機變量,自變量 x 可以是隨機變量,也可以是非隨機的確定變量
相關(guān)分析主要是描述兩個變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量 x 對變量 y 的影響大小,還可以由回歸方程進行預測和控制
4.一元線性回歸模型
描述因變量 y 如何依賴于自變量 x 和誤差項e 的方程稱為回歸模型
一元線性回歸模型可表示為
y = b0 +b1 x + e
y 是 x 的線性函數(shù)(部分)加上誤差項
線性部分反映了由于 x 的變化而引起的 y 的變化
誤差項 e 是隨機變量
l 反映了除 x 和 y 之間的線性關(guān)系之外的隨機因素對 y 的影響
l 是不能由 x 和 y 之間的線性關(guān)系所解釋的變異性
b0 和 b1 稱為模型的參數(shù)
5.利用回歸方程預測時應(yīng)注意
1. 在利用回歸方程進行估計或預測時,不要用樣本數(shù)據(jù)之外的x值去預測相對應(yīng)的y值
2. 因為在一元線性回歸分析中,總是假定因變量y與自變量x之間的關(guān)系用線性模型表達是正確的。但實際應(yīng)用中,它們之間的關(guān)系可能是某種曲線
3. 此時我們總是要假定這條曲線只有一小段位于x測量值的范圍之內(nèi)。如果x的取值范圍是在xL和xU之間,那么可以用所求出的利用回歸方程對處于xL和xU之間的值來估計E(y)和預測y。如果用xL和xU之間以外的值得出的估計值和預測值就會很差
6.離差平方和
總平方和(SST)
反映因變量的 n 個觀察值與其均值的總離差
回歸平方和(SSR)
反映自變量 x 的變化對因變量 y 取值變化的影響,或者說,是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化,也稱為可解釋的平方和
殘差平方和(SSE)
反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩余平方和
7.估計標準誤差
實際觀察值與回歸估計值離差平方和的均方根(自由度n-2)
反映實際觀察值在回歸直線周圍的分散狀況
對誤差項e的標準差s的估計,是在排除了x對y的線性影響后,y隨機波動大小的一個估計量
反映用估計的回歸方程預測y時預測誤差的大小
四、方差分析
1. 通過分析數(shù)據(jù)的誤差判斷各總體均值是否相等;研究一個或多個分類型自變量對一個數(shù)值型因變量的影響
單因素方差分析:涉及一個分類的自變量
雙因素方差分析:涉及兩個分類的自變量
2.(1)僅從散點圖上觀察還不能提供充分的證據(jù)證明不同行業(yè)被投訴的次數(shù)之間有顯著差異
這種差異也可能是由于抽樣的隨機性所造成的
需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析
所以叫方差分析,因為雖然我們感興趣的是均值,但在判斷均值之間是否有差異時則需要借助于方差
這個名字也表示:它是通過對數(shù)據(jù)誤差來源的分析判斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數(shù)據(jù)誤差的來源
(2)隨機誤差
因素的同一水平(總體)下,樣本各觀察值之間的差異
比如,同一行業(yè)下不同企業(yè)被投訴次數(shù)是不同的
這種差異可以看成是隨機因素的影響,稱為隨機誤差
系統(tǒng)誤差
因素的不同水平(不同總體)下,各觀察值之間的差異
比如,不同行業(yè)之間的被投訴次數(shù)之間的差異
這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業(yè)本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差
(3) 數(shù)據(jù)的誤差用平方和(sum of squares)表示
組內(nèi)平方和(within groups)
因素的同一水平(同一個總體)下樣本數(shù)據(jù)的平方和
比如,零售業(yè)被投訴次數(shù)的誤差平方和
組內(nèi)平方和只包含隨機誤差
組間平方和(between groups)
因素的不同水平(不同總體)下各樣本之間的平方和
比如,四個行業(yè)被投訴次數(shù)之間的誤差平方和
組間平方和既包括隨機誤差,也包括系統(tǒng)誤差
3.方差分析的基本假定
正態(tài)性:每個總體都應(yīng)服從正態(tài)分布
對于因素的每一個水平,其觀察值是來自服從正態(tài)分布總體的簡單隨機樣本
比如,每個行業(yè)被投訴的次數(shù)必需服從正態(tài)分布
方差齊性:各個總體的方差必須相同
各組觀察數(shù)據(jù)是從具有相同方差的總體中抽取的
比如,四個行業(yè)被投訴次數(shù)的方差都相等
獨立性:觀察值是獨立的(該假定不滿足對結(jié)果影響較大)
4.問題的一般提法:(1)設(shè)因素有k個水平,每個水平的均值分別用m1 , m2, ¼, mk 表示
(2)要檢驗k個水平(總體)的均值是否相等,需要提出如下假設(shè):
H0 : m1 = m2 = …= mk
H1 : m1 , m2 , ¼,mk 不全相等
5.SST:全部觀察值xij與總平均值的離差平方和,反映全部觀察值的離散狀況
SSA:各組平均值xi與總平均值xij的離差平方和;反映各總體的樣本均值之間的差異程度,又稱組間平方和;該平方和既包括隨機誤差,也包括系統(tǒng)誤差
SSE:每個水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和;反映每個樣本各觀察值的離散狀況,又稱組內(nèi)平方和;該平方和反映的是隨機誤差的大小
總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和 (SSA) 之間的關(guān)系:
SST = SSA + SSE
如果原假設(shè)成立,則表明沒有系統(tǒng)誤差,組間平方和SSA除以自由度后的均方與組內(nèi)平方和SSE和除以自由度后的均方差異就不會太大;如果組間均方顯著地大于組內(nèi)均方,說明各水平(總體)之間的差異不僅有隨機誤差,還有系統(tǒng)誤差
判斷因素的水平是否對其觀察值有影響,實際上就是比較組間方差與組內(nèi)方差之間差異的大小
6.均方
各誤差平方和的大小與觀察值的多少有關(guān),為消除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差
計算方法是用誤差平方和除以相應(yīng)的自由度
三個平方和對應(yīng)的自由度分別是
SST 的自由度為n-1,其中n為全部觀察值的個數(shù)
SSA的自由度為k-1,其中k為因素水平(總體)的個數(shù)
SSE 的自由度為n-k
7.構(gòu)造檢驗統(tǒng)計量
將MSA和MSE進行對比,即得到所需要的檢驗統(tǒng)計量F
當H0為真時,二者的比值服從分子自由度為k-1、分母自由度為 n-k 的 F 分布
將統(tǒng)計量的值F與給定的顯著性水平a的臨界值Fa進行比較,作出對原假設(shè)H0的決策
² 根據(jù)給定的顯著性水平a,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k 相應(yīng)的臨界值 Fa
² 若F>Fa ,則拒絕原假設(shè)H0 ,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響
² 若F
8.關(guān)系強度
變量間關(guān)系的強度用自變量平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小來反映
自變量平方和占總平方和的比例記為R2 ,即
3、其平方根R就可以用來測量兩個變量之間的關(guān)系強度
五、假設(shè)檢驗
(一)概念
先對總體的參數(shù)(或分布形式)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過程
有參數(shù)檢驗和非參數(shù)檢驗
邏輯上運用反證法,統(tǒng)計上依據(jù)小概率原理
什么小概率?
1. 在一次試驗中,一個幾乎不可能發(fā)生的事件發(fā)生的概率
2. 在一次試驗中小概率事件一旦發(fā)生,我們就有理由拒絕原假設(shè)
3. 小概率由研究者事先確定
怎樣通過假設(shè)檢驗去掉偶然性
利用P值進行檢驗就可以去掉偶然性。因為P值告訴我們在某個總體的許多樣本中,某一類數(shù)據(jù)出現(xiàn)的經(jīng)常程度,P值是當原假設(shè)正確的情況下,得到所觀測的數(shù)據(jù)的概率。如果原假設(shè)是正確的,P值若很小,則告訴我餓們得到這樣的觀測數(shù)據(jù)是多么的不可能,相當不可能得到的數(shù)據(jù),就是原假設(shè)不對的合理證據(jù),偶然性也就消除了。
(二)原假設(shè)
1. 研究者想收集證據(jù)予以反對的假設(shè)。是關(guān)于總體參數(shù)的表述,它是接受檢驗的假設(shè)。
2. 總是有符號 =, £ 或 ³
3. 表示為 H0
n H0 : m = 某一數(shù)值
n 指定為符號 =,£ 或 ³
(三)備擇假設(shè)
研究者想收集證據(jù)予以支持的假設(shè)。黨員假設(shè)被否定時另一種可成立的假設(shè)。
總是有符號 ¹, < 或 >
表示為 H1
n H1 : m <某一數(shù)值,或m >某一數(shù)值
(四)結(jié)論與總結(jié)
原假設(shè)和備擇假設(shè)是一個完備事件組,而且相互對立
n 在一項假設(shè)檢驗中,原假設(shè)和備擇假設(shè)必有一個成立,而且只有一個成立
先確定備擇假設(shè),再確定原假設(shè)
等號“=”總是放在原假設(shè)上
因研究目的不同,對同一問題可能提出不同的假設(shè)(也可能得出不同的結(jié)論)
(五)兩類錯誤
1. 第Ⅰ類錯誤(棄真錯誤)
原假設(shè)為真時拒絕原假設(shè)
第Ⅰ類錯誤的概率記為a。被稱為顯著性水平。常用的 a 值有0.01, 0.05, 0.10
2. 第Ⅱ類錯誤(取偽錯誤)
原假設(shè)為假時未拒絕原假設(shè)
第Ⅱ類錯誤的概率記為b (Beta)
影響b錯誤的因素:1. 總體參數(shù)的真值。隨著假設(shè)的總體參數(shù)的減少而增大
2. 顯著性水平 a。當 a 減少時增大 3. 總體標準差 s。當 s 增大時增大 4.樣本容量 n。當 n 減少時增大
控制:進行假設(shè)檢驗時總希望犯兩類錯誤的可能性都很小,然而,在其他條件不變的情況下,a與b是此消彼長的關(guān)系,二者不可能同時減小。若要同時減小a與b,只能是增大樣本量。一般總是控制a,是犯錯誤的概率不大于a,即a是允許犯棄真錯誤的最大概率值(而P值相當于根據(jù)樣本計算的犯棄真錯誤的概率值,故P值又稱為觀測的顯著性水平)。但確定a時必須注意,如果犯棄真錯誤的代價較大,a可取小些,相反,如果返取偽錯誤的代價較大,則a宜取大些(以使b較小)
(六)假設(shè)檢驗的結(jié)論表述
假設(shè)檢驗的目的就在于試圖找到拒絕原假設(shè),而不在于證明什么是正確的
拒絕原假設(shè)時結(jié)論是清楚的
例如,H0:m=10,拒絕H0時,我們可以說¹m10
當不拒絕原假設(shè)時
并未給出明確的結(jié)論
不能說原假設(shè)是正確的,也不能說它不是正確的
例如, 當不拒絕H0:m=10,我們并未說它就是10,但也未說它不是10。我們只能說樣本提供的證據(jù)還不足以推翻原假設(shè)
(七)統(tǒng)計上的顯著與實際意義
1. 當拒絕原假設(shè)時,我們稱樣本結(jié)果是統(tǒng)計上顯著的(statistically Significant)
2. 當不拒絕原假設(shè)時,我們稱樣本結(jié)果是統(tǒng)計上不顯著的
3. 在“顯著”和“不顯著”之間沒有清除的界限,只是在P值越來越小時,我們就有越來越強的證據(jù),檢驗的結(jié)果也就越來越顯著
4. “顯著的”(Significant)一詞的意義在這里并不是“重要的”,而是指“非偶然的”
5. 一項檢驗在統(tǒng)計上是“顯著的”,意思是指:這樣的(樣本)結(jié)果不是偶然得到的,或者說,不是靠機遇能夠得到的
6. 如果得到這樣的樣本概率(P)很小,則拒絕原假設(shè)
在這么小的概率下竟然得到了這樣的一個樣本,表明這樣的樣本經(jīng)常出現(xiàn),所以,樣本結(jié)果是顯著的
7. 在進行決策時,我們只能說P值越小,拒絕原假設(shè)的證據(jù)就越強,檢驗的結(jié)果也就越顯著
8. 但P值很小而拒絕原假設(shè)時,并不一定意味著檢驗的結(jié)果就有實際意義
因為假設(shè)檢驗中所說的“顯著”僅僅是“統(tǒng)計意義上的顯著”
一個在統(tǒng)計上顯著的結(jié)論在實際中卻不見得就很重要,也不意味著就有實際意義
9. 因為值與樣本的大小密切相關(guān),樣本量越大,檢驗統(tǒng)計量的P值也就越大,P值就越小,就越有可能拒絕原假設(shè)
10.如果你主觀上要想拒絕原假設(shè)那就一定能拒絕它
這類似于我們通常所說的“欲加之罪,何患無詞”
只要你無限制擴大樣本量,幾乎總能拒絕原假設(shè)
11.當樣本量很大時,解釋假設(shè)檢驗的結(jié)果需要小心
在大樣本情況下,總能把與假設(shè)值的任何細微差別都能查出來,即使這種差別幾乎沒有任何實際意義
12.在實際檢驗中,不要刻意追求“統(tǒng)計上的”顯著性,也不要把統(tǒng)計上的顯著性與實際意義上的顯著性混同起來
n一個在統(tǒng)計上顯著的結(jié)論在實際中卻不見得很重要,也不意為著就有實際意義
六、參數(shù)估計
(一)點估計
用樣本的估計量直接作為總體參數(shù)的估計值
2. 缺點:沒有給出估計值接近總體參數(shù)程度的信息,它與真摯的誤差、估計可靠性怎么樣無法知道。區(qū)間估計可以彌補這種不足。
點估計的方法有矩估計法、順序統(tǒng)計量法、最大似然法、最小二乘法等
(二) 區(qū)間估計
在點估計的基礎(chǔ)上,給出總體參數(shù)估計的一個區(qū)間范圍,該區(qū)間由樣本統(tǒng)計量加減抽樣誤差而得到的。
根據(jù)樣本統(tǒng)計量的抽樣分布能夠?qū)颖窘y(tǒng)計量與總體參數(shù)的接近程度給出一個概率度量。
(三)置信水平
將構(gòu)造置信區(qū)間的步驟重復很多次,置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平
表示為 (1 - a% )
常用的置信水平值有 99%, 95%, 90%;相應(yīng)的 a 為0.01,0.05,0.10
(四)置信區(qū)間
ü 由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間稱為置信區(qū)間;
ü 統(tǒng)計學家在某種程度上確信這個區(qū)間會包含真正的總體參數(shù),所以給它取名為置信區(qū)間
ü 用一個具體的樣本所構(gòu)造的區(qū)間是一個特定的區(qū)間,我們無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值,我們只能是希望這個區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個,但它也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個
置信區(qū)間的表述:
總體參數(shù)的真值是固定的,而用樣本構(gòu)造的區(qū)間則是不固定的,因此置信區(qū)間是一個隨機區(qū)間,它會因樣本的不同而變化,而且不是所有的區(qū)間都包含總體參數(shù)
實際估計時往往只抽取一個樣本,此時所構(gòu)造的是與該樣本相聯(lián)系的一定置信水平(比如95%)下的置信區(qū)間。我們只能希望這個區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個,但它也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個
當抽取了一個具體的樣本,用該樣本所構(gòu)造的區(qū)間是一個特定的常數(shù)區(qū)間,我們無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值,因為它可能是包含總體均值的區(qū)間中的一個,也可能是未包含總體均值的那一個
一個特定的區(qū)間總是“包含”或“絕對不包含”參數(shù)的真值,不存在“以多大的概率包含總體參數(shù)”的問題
置信水平只是告訴我們在多次估計得到的區(qū)間中大概有多少個區(qū)間包含了參數(shù)的真值,而不是針對所抽取的這個樣本所構(gòu)建的區(qū)間而言的
使用一個較大的置信水平會得到一個比較寬的置信區(qū)間,而使用一個較大的樣本則會得到一個較準確(較窄)的區(qū)間。直觀地說,較寬的區(qū)間會有更大的可能性包含參數(shù)
但實際應(yīng)用中,過寬的區(qū)間往往沒有實際意義
區(qū)間估計總是要給結(jié)論留點兒余地
影響置信區(qū)間寬度的因素:
1.總體數(shù)據(jù)的離散程度,用 s 來測度;2.樣本容量;3. 置信水平 (1- a),影響 zα/2 的大小
(五) 參數(shù)估計標準:
無偏性:估計量抽樣分布的數(shù)學期望等于被估計的總體參數(shù)
有效性:對同一總體參數(shù)的兩個無偏點估計量,有更小標準差的估計量更有效
一致性:隨著樣本容量的增大,估計量的值越來越接近被估計的總體參數(shù)
七、數(shù)據(jù)特征
(一)集中趨勢:表明同類現(xiàn)象在一定時間、地點條件下,所達到的一般水平與大量單位的綜合數(shù)量特征,有以下3個特點:
1. 用一個代表數(shù)值綜合反映個體某種標志值的一般水平。
2. 將個體標志值之間的差異抽象掉了。
3. 計量單位與標志值的計量單位一致。
集中趨勢
1. 一組數(shù)據(jù)向其中心值靠攏的傾向和程度
2. 測度集中趨勢就是尋找數(shù)據(jù)水平的代表值或中心值
3. 不同類型的數(shù)據(jù)用不同的集中趨勢測度值
4. 低層次數(shù)據(jù)的測度值適用于高層次的測量數(shù)據(jù),但高層次數(shù)據(jù)的測度值并不適用于低層次的測量數(shù)據(jù)
集中趨勢的作用:
比較若干總體的某種標志數(shù)值的平均水平
研究總體某種標志數(shù)值的平均水平在時間上的變化
分析社會經(jīng)濟現(xiàn)象的依存關(guān)系
研究和評價事物優(yōu)劣的數(shù)量指標
計算和估算其他重要的經(jīng)濟指標
(二)離中趨勢:
數(shù)據(jù)分布的另一個重要特征
反映各變量值遠離其中心值的程度(離散程度)
從另一個側(cè)面說明了集中趨勢測度值的代表程度
不同類型的數(shù)據(jù)有不同的離散程度測度值
離中趨勢度量的目的:
描述總體內(nèi)部差異程度;衡量和比較均值指標的代表性高低;為抽選樣本單位數(shù)提供依據(jù)
區(qū)別與聯(lián)系:
區(qū)別:集中趨勢是對頻數(shù)分布資料的集中狀況和平均水平的綜合測度;是一組數(shù)據(jù)向其中心值靠攏的傾向和程度;測度集中趨勢就是尋找數(shù)據(jù)水平的代表值或中心值。離中趨勢是對頻數(shù)分布資料的差異程度和離散程度的測度,用來衡量集中趨勢所測數(shù)據(jù)的代表性,或者反應(yīng)變量值的穩(wěn)定性與均勻性;是用來描述總體內(nèi)部差異程度及衡量和比較均值指標的代表性高低。偏度是用來反應(yīng)變量數(shù)列分布偏斜程度的指標,有對稱分布和非對稱分布,非對稱分布也即為偏態(tài)分布,包括左偏分布和右偏分布。峰度是用來反應(yīng)變量數(shù)列曲線頂端尖峭或扁平程度的指標。
聯(lián)系:為了反面描述研究對象的情況,僅僅用集中趨勢方法來測度集中性和共性是不夠的,還要用離散趨勢方法來測度其離散性和差異性,因此,而這需要結(jié)合使用。集中趨勢和離中趨勢是變量數(shù)列分布的兩個重要特征,但要全面了解變量數(shù)列分布的特點,還需要知道數(shù)列的形狀是否對稱、偏斜程度以及分布的扁平程度等。偏度和峰度就是從分布特征作進一步的描述。
八、數(shù)據(jù)質(zhì)量
1. 數(shù)據(jù)的誤差:(1)抽樣誤差;
a、 在用樣本數(shù)據(jù)進行統(tǒng)計推斷時所產(chǎn)生的誤差(樣本統(tǒng)計量與相應(yīng)總體參數(shù)之間的偏差)
b、由于抽樣的隨機性所帶來的誤差
c、 影響抽樣誤差的大小的因素:抽樣方法;樣本量的大小;總體的變異性
(2) 非抽樣誤差(抽樣框誤差;回答誤差;無回答誤差;調(diào)查員誤差)
a、 調(diào)查過程中由于調(diào)查者和被調(diào)查者的人為因素所造成的誤差(除抽樣誤差之外的,由于其他原因造成的樣本觀察結(jié)果與總體真值之間的差異)
b、理論上可以消除
c、 存在于所有的調(diào)查之中:概率抽樣,非概率抽樣,全面性調(diào)查
(3) 誤差的控制
a、 抽樣誤差可計算和控制
b、非抽樣誤差的控制:調(diào)查員的挑選;調(diào)查員的培訓;督導員的調(diào)查專業(yè)水平:調(diào)查過程控制(調(diào)查結(jié)果進行檢驗、評估;現(xiàn)場調(diào)查人員進行獎懲的制度)
(4)統(tǒng)計數(shù)據(jù)質(zhì)量的要求;
1. 精 度:最低的抽樣誤差或隨機誤差
2. 準 確 性:最小的非抽樣誤差或偏差
3. 關(guān) 聯(lián) 性:滿足用戶決策、管理和研究的需要
4. 及 時 性:在最短的時間里取得并公布數(shù)據(jù)
5. 一 致 性:保持時間序列的可比性
6. 最低成本:以最經(jīng)濟的方式取得數(shù)據(jù)
九、統(tǒng)計數(shù)據(jù)
對現(xiàn)象進行測量的結(jié)果;不是指單個的數(shù)字,而是由多個數(shù)據(jù)構(gòu)成的數(shù)據(jù)集;不僅僅是指數(shù)字,它可以是數(shù)字的,也可以是文字的
分類:按計量
分類數(shù)據(jù)(categorical data)
只能歸于某一類別的非數(shù)字型數(shù)據(jù)
對事物進行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,用文字來表述
順序數(shù)據(jù)(rank data)
只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)
對事物類別順序的測度,數(shù)據(jù)表現(xiàn)為類別,用文字來表述
數(shù)值型數(shù)據(jù)(metric data)
按數(shù)字尺度測量的觀察值
結(jié)果表現(xiàn)為具體的數(shù)值,對事物的精確測度
按收集方法
觀測的數(shù)據(jù)(observational data) :
在沒有對事物人為控制的條件下而得到的,通過調(diào)查或觀測而收集到的數(shù)據(jù)
試驗的數(shù)據(jù)(experimental data) :在試驗中控制試驗對象而收集到的數(shù)據(jù)
按時間狀況
1. 時間序列數(shù)據(jù)(time series data)
在不同時間上收集到的數(shù)據(jù)
描述現(xiàn)象隨時間變化的情況
2截面數(shù)據(jù)(cross-sectional data)
在相同或近似相同的時間點上收集的數(shù)據(jù)
描述現(xiàn)象在某一時刻的變化情況
十、統(tǒng)計學性質(zhì)
統(tǒng)計學: 收集、分析、表述和解釋數(shù)據(jù)的科學 1.數(shù)據(jù)搜集:取得數(shù)據(jù);2.數(shù)據(jù)分析:分析數(shù)據(jù);3.數(shù)據(jù)表述:圖表展示數(shù)據(jù);4.數(shù)據(jù)解釋:結(jié)果的說明
(一)現(xiàn)代統(tǒng)計學的性質(zhì)可歸納為如下幾個方面:
1.統(tǒng)計學是方法論科學,而不是實質(zhì)性科學
它研究的是事物普遍存在的數(shù)量關(guān)系的計量和數(shù)量分析的方法,并通過數(shù)量分析來認識特定事物的內(nèi)在規(guī)律性,但不是研究規(guī)律本身。
2.統(tǒng)計學的應(yīng)用范圍不局限于社會科學,也不局限于自然科學。
由于其方法來自于社會科學也來自于自然科學,所以它可以用于社會現(xiàn)象也可以用于自然現(xiàn)象,即統(tǒng)計學是一種通用的方法論科學。同時統(tǒng)計學也不是依服于實質(zhì)性科學而存在的方法論,它是獨立的方法論科學。
3.統(tǒng)計學的研究對象既包括確定性現(xiàn)象的總體數(shù)量關(guān)系,也包括隨機現(xiàn)象的總體數(shù)量關(guān)系,即統(tǒng)計學是研究各類事物總體數(shù)據(jù)的方法論科學。
統(tǒng)計學是為探索事物數(shù)量所反映的客觀規(guī)律性,而對事物總體的大量數(shù)據(jù)進行收集、整理和分析研究的方法論科學。它以大量的客觀事物的量化描述、特征推算及關(guān)系分析為其主要研究對象。
(二)描述統(tǒng)計學與推斷統(tǒng)計學:
描述統(tǒng)計學(Descriptive Statistics)研究如何取得反映客觀現(xiàn)象的數(shù)據(jù),并通過圖表形式對所收集的數(shù)據(jù)進行加工處理和顯示,進而通過綜合概括與分析得出反映客觀現(xiàn)象的規(guī)律性數(shù)量特征。內(nèi)容包括統(tǒng)計數(shù)據(jù)的收集方法、數(shù)據(jù)的加工處理方法、數(shù)據(jù)的顯示方法、數(shù)據(jù)分布特征的概括與分析方法等。
推斷統(tǒng)計學(1nferential Statistics)則是研究如何根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)量特征的方法,它是在對樣本數(shù)據(jù)進行描述的基礎(chǔ)上,對統(tǒng)計總體的未知數(shù)量特征做出以概率形式表述的推斷。
描述統(tǒng)計學和推斷統(tǒng)計學的劃分,一方面反映了統(tǒng)計方法發(fā)展的前后兩個階段,同時也反映了應(yīng)用統(tǒng)計方法探索客觀事物數(shù)量規(guī)律性的不同過程。
統(tǒng)計研究過程的起點是統(tǒng)計數(shù)據(jù),終點是探索出客觀現(xiàn)象內(nèi)在的數(shù)量規(guī)律性。在這一過程中,如果搜集到的是總體數(shù)據(jù)(如普查數(shù)據(jù)),則經(jīng)過描述統(tǒng)計之后就可以達到認識總體數(shù)量規(guī)律性的目的了;如果所獲得的只是研究總體的一部分數(shù)據(jù)(樣本數(shù)據(jù)),要找到總體的數(shù)量規(guī)律性,則必須應(yīng)用概率論的理論并根據(jù)樣本信息對總體進行科學的推斷。
顯然,描述統(tǒng)計和推斷統(tǒng)計是統(tǒng)計方法的兩個組成部分。描述統(tǒng)計是整個統(tǒng)計學的基礎(chǔ),推斷統(tǒng)計則是現(xiàn)代統(tǒng)計學的主要內(nèi)容。
【統(tǒng)計學知識要點】相關(guān)文章:
小升初的相關(guān)知識要點09-10
CAD工程制圖知識要點08-20
小升初語文知識要點復習10-05
小升初數(shù)學知識要點09-25
土方施工安全知識要點09-04
小升初語文知識要點匯總09-04
安全監(jiān)理交底知識要點07-24
小升初語文知識要點歸納08-22
公文寫作的知識復習要點10-24
建筑資料圖紙知識基本要點09-07