地磅計(jì)量測(cè)試中異常數(shù)據(jù)剔除方法的探討
由于地磅計(jì)量測(cè)試工作屬于一項(xiàng)精細(xì)工作,它要求得到的各項(xiàng)數(shù)據(jù)要盡可能準(zhǔn)確,因此在通過(guò)計(jì)量測(cè)量得到大量數(shù)據(jù)后,還應(yīng)科學(xué),合理的整理數(shù)據(jù)。為盡可能準(zhǔn)確、高效地剔除異常數(shù)據(jù),保證測(cè)得數(shù)據(jù)的有效性,本文在闡述了電子地磅計(jì)量測(cè)試工作意義的基礎(chǔ)上,分析了計(jì)量?jī)x器產(chǎn)生誤差的原因,研究了測(cè)量數(shù)據(jù)異常值判斷準(zhǔn)則,并結(jié)合本人實(shí)際工作經(jīng)驗(yàn),總結(jié)了剔除方法在應(yīng)用中應(yīng)注意的事項(xiàng),以供同行參考。
一、地磅計(jì)量測(cè)試工作的意義
對(duì)日常各類生產(chǎn)實(shí)踐而言,基于使用各種數(shù)據(jù)的需要,應(yīng)評(píng)估檢測(cè)儀器,可借助評(píng)估結(jié)果來(lái)對(duì)檢測(cè)儀器的狀態(tài)能否滿足正常使用要求進(jìn)行判定,檢測(cè)數(shù)據(jù)非常重要,只有參照數(shù)據(jù),才能判定生產(chǎn)工藝穩(wěn)定與否,各環(huán)節(jié)產(chǎn)成品與成品參數(shù)符合使用需要與否。通過(guò)計(jì)量測(cè)試工作,可對(duì)生產(chǎn)工藝的改進(jìn)與變革進(jìn)行指導(dǎo),促進(jìn)產(chǎn)品質(zhì)量的不斷提高,若計(jì)量測(cè)試不準(zhǔn)確、不科學(xué),得到的數(shù)據(jù)就很難令人信服,那么想借助數(shù)據(jù)控制工藝過(guò)程、評(píng)定產(chǎn)品質(zhì)量,持續(xù)改善產(chǎn)品質(zhì)量就很難實(shí)現(xiàn)。
二、地磅計(jì)量?jī)x器產(chǎn)生誤差的原因
從統(tǒng)計(jì)學(xué)的角度來(lái)看,我們通常會(huì)把一組重復(fù)測(cè)量數(shù)據(jù)中,明顯與其它數(shù)據(jù)有差異的數(shù)據(jù)稱為可疑數(shù)據(jù),與組內(nèi)其它數(shù)據(jù)差異非常明顯是這種數(shù)據(jù)的主要特點(diǎn),這一特點(diǎn)也就是我們通常所說(shuō)的數(shù)據(jù)發(fā)生了變異,那么實(shí)際這種變異究竟合理與否,要想得出結(jié)論,必須得借助進(jìn)一步判斷。
計(jì)量?jī)x器具有一定的高精密性,有嚴(yán)格的外界環(huán)境要求。若外界環(huán)境變化劇烈,實(shí)際計(jì)量?jī)x器的測(cè)試很可能會(huì)有嚴(yán)重偏差出現(xiàn),造成檢測(cè)儀器的結(jié)果誤差較大。一般情況下,下列原因通常會(huì)造成計(jì)量?jī)x器產(chǎn)生誤差:
1.有機(jī)械或外界震動(dòng)沖擊檢測(cè)儀器。
2.電網(wǎng)供電電壓發(fā)生變化或存在電磁干擾使檢測(cè)儀器的正常工作受到影響。
3.檢測(cè)人員工作素質(zhì)不高,工作技能不達(dá)標(biāo)。工作疏忽、缺乏足夠的工作經(jīng)驗(yàn),不正當(dāng)操作。
4.測(cè)量?jī)x器自身存在故障,如部分零件存在松動(dòng),內(nèi)部有損壞的電子元件等。
異常值通常偏差正常合理值較大,若在計(jì)算中或判定過(guò)程中應(yīng)用了異常值,通常會(huì)嚴(yán)重干擾計(jì)算結(jié)果,對(duì)人們正確決策的做出造成影響。因此我們必須盡力把異常值剔除,若在剔除過(guò)程中應(yīng)用的剔除方法不正確,異常值造成的影響不但會(huì)很難消除,有時(shí)還會(huì)誤以為測(cè)量重復(fù)性較好,影響到數(shù)據(jù)判斷的真實(shí)性,只有正確剔除異常數(shù)據(jù),最終的測(cè)量才能與人們的使用需求相符。
三、異常值判斷準(zhǔn)則
在計(jì)量實(shí)踐中,下列幾種準(zhǔn)則是我們常用來(lái)判斷異常值的準(zhǔn)則:1)3∑準(zhǔn)則;2)格拉布斯準(zhǔn)則;3)肖維勒準(zhǔn)則;4)t 檢驗(yàn)法。
雖然以上幾種準(zhǔn)這的實(shí)際內(nèi)容存在差異,但置信概率在這幾種準(zhǔn)則中都要用到,置信概率主要指隨機(jī)變量在置信區(qū)間內(nèi)所落的概率,我們用 X 表示置信區(qū)間內(nèi)測(cè)量數(shù)據(jù)的實(shí)際取值范圍,則以上幾種準(zhǔn)則可進(jìn)行如下表示:
1)3∑準(zhǔn)則:
|Xd-X|>3σ
這個(gè)式子的含義是可疑數(shù)據(jù)與整組數(shù)據(jù)算數(shù)平均值的差的絕對(duì)值比 3 倍的標(biāo)準(zhǔn)偏差大,則應(yīng)舍棄此數(shù)值。我們可把測(cè)得數(shù)據(jù)代入上式,若符合上式,我們可判定這個(gè)值屬于異常值,應(yīng)剔除該值。
2)肖維勒準(zhǔn)則:|Xd-X|>w·nσ在使用這個(gè)公式時(shí),若獨(dú)立測(cè)量得到的數(shù)據(jù),帶入上式后,上式成立,則我們可判斷異常值為 Xd,我們應(yīng)把 Xd 剔除。
3)格布拉斯準(zhǔn)則:
|Xd-X|≥G(α,n)s式中,測(cè)量數(shù)據(jù)用 Xd 表示,s 為貝塞爾公式計(jì)算的標(biāo)準(zhǔn)差,至于后面的G(α,n)查表可得到。
4)t 檢驗(yàn)法。這種檢驗(yàn)法主要是把可疑數(shù)值 Xi 外的數(shù)值來(lái)作為一個(gè)數(shù)據(jù)集合總體,我們可把這個(gè)數(shù)據(jù)集總體假定為正態(tài)分布,雖然這只是假定了一個(gè)數(shù)據(jù)分布,到底是正態(tài)分布與否,還需進(jìn)行進(jìn)一步判定,但在具體應(yīng)用時(shí),對(duì)于樣本實(shí)際符合正態(tài)分布與否通常都不進(jìn)行深入判定,而將樣本近似看做是正態(tài)分布,可把可疑數(shù)值 Xi 看作樣本總?cè)萘繛?nbsp;1 的一個(gè)特殊替,在比較兩個(gè)總體時(shí),若兩者在一個(gè)總體中包涵,那么顯著差異不應(yīng)在兩者間存在,統(tǒng)計(jì)量 k 便可由此計(jì)算出來(lái):
在上式中,我們用X表示樣本數(shù)據(jù)算術(shù)平均值;s 表示樣本數(shù)據(jù)標(biāo)準(zhǔn)差。用計(jì)算所得的 k 值,比較查t 分布表所得值,若比較結(jié)果比顯著性水平 a 下的 t 檢驗(yàn)值大,則 Xi 的出現(xiàn)可說(shuō)明只是一個(gè)小概率事件,可把它看作是一個(gè)異常值,進(jìn)而剔除這個(gè)值。
四、實(shí)例判定
下面我們就結(jié)合一個(gè)實(shí)例來(lái)判定一下以上異常值的判斷準(zhǔn)則:
如:等精度測(cè)量某測(cè)量量,得到了下列測(cè)量數(shù)據(jù):10.002,10.204,0.218,10.228,10.230,10.312,10.320,10.342,10.346,可用以上方法進(jìn)行判斷并把異常值剔除,置信概率可取為 95%,也就是 α=0.05。
我們懷疑異常值為 10.346。
通過(guò)計(jì)算可得:這十個(gè)數(shù)的平均值為 10.2317,X1 的平均值為 10.2231,
δ=0.0912,s=0.0888。
綜合計(jì)算異常值為 10.346,應(yīng)把 10.346 剔除。
五、結(jié)語(yǔ)
在實(shí)際應(yīng)用中,為確保測(cè)試精度的足夠,避免誤判現(xiàn)象的出現(xiàn),可對(duì)以上判定準(zhǔn)則的兩種或三種進(jìn)行綜合,同時(shí)判斷,如果應(yīng)用的這幾種判定方法,出現(xiàn)一致的結(jié)論,則應(yīng)把可疑數(shù)據(jù)剔除,這樣可使判斷的可靠性得到大幅提升,而若應(yīng)用這幾種方法后出現(xiàn)了不一致的判定結(jié)果,則對(duì)應(yīng)剔除的數(shù)據(jù)必須進(jìn)行慎重考慮,再次進(jìn)行驗(yàn)證,對(duì)于這種情況,筆者建議保留處理數(shù)據(jù)。這有這樣才能準(zhǔn)確、高效地剔除異常數(shù)據(jù),保證測(cè)得數(shù)據(jù)的有效性。