摘要
本文是介紹新骨齡標(biāo)準(zhǔn)-《中國人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05》系列文章的第12篇。和任何科學(xué)實(shí)驗(yàn)方法一樣,骨齡評價方法也存在有系統(tǒng)誤差和隨機(jī)誤差。檢驗(yàn)骨齡評價的可靠性,不僅對評價的方法學(xué)有深入的了解,更重要的是能夠?qū)驱g評價結(jié)果做出正確的估價,增強(qiáng)不同評價者之間評價結(jié)果的一致性,提高實(shí)踐應(yīng)用的工作質(zhì)量。
關(guān)鍵詞:骨齡,骨齡評價,骨齡讀片質(zhì)量,骨齡評價質(zhì)量控制,中國人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05,RUS-CHN
錄入日期: 2010/2/13
和任何科學(xué)實(shí)驗(yàn)方法一樣,骨齡評價方法也存在有系統(tǒng)誤差和隨機(jī)誤差。檢驗(yàn)骨齡評價的可靠性,不僅對評價的方法學(xué)有深入的了解,更重要的是能夠?qū)驱g評價結(jié)果做出正確的估價,增強(qiáng)不同評價者之間評價結(jié)果的一致性,提高實(shí)踐應(yīng)用的工作質(zhì)量。
一、國際間應(yīng)用G-P圖譜和TW法骨齡評價一致性的檢驗(yàn)研究
骨齡評價方法的可靠性主要表現(xiàn)在兩個的方面,一是評價者本人的讀片重復(fù)性,稱為評價者內(nèi)的重復(fù)性;二是多名評價者之間的讀片重復(fù)性,稱為評價者間的重復(fù)性。
G-P圖譜法和TW計分法是國際上應(yīng)用非常廣泛的骨齡評價方法。二十世紀(jì)六十年代,巴黎國際兒童中心在組織協(xié)調(diào)歐洲8個國家的兒童生長研究時,曾經(jīng)對G-P法和TW1方法進(jìn)行了系統(tǒng)的比較研究(Acheson et al., 1963, 1964, 1966)。來自不同國家的6名評價者,使用G-P圖譜和TW1方法評價50名2~18歲兒童的手腕X線片,結(jié)果發(fā)現(xiàn)G-P方法的系統(tǒng)誤差較小,TW1方法的隨機(jī)誤差較小;但如果排除了腕骨,則TW1方法的系統(tǒng)誤差明顯下降,與G-P方法的差異顯著性消失。比較研究的結(jié)果引起了Tanner et al.的注意,在1975年對TW1方法進(jìn)行了修改而提出TW2法。在TW2 法中取消了評價困難的發(fā)育等級(橈骨、尺骨和頭狀骨、三角骨、月骨、舟骨、大多角骨和小多角骨的最后一個發(fā)育等級),以提高讀片可靠性。
TW2方法的原作者(Tanner et al., 1994),以及長期從事兒童生長發(fā)育研究的工作者(Beunen et al., 1980; Tarabger et al., 1976; Wenzwl and Melsen, 1982)以TW2-RUS方法重復(fù)讀片,等級相同的例數(shù)在81%~94%左右,骨齡讀數(shù)的95%置信區(qū)間為±0.5到±0.6歲;使用TW2–Carpal方法,評價者內(nèi)等級相同的例數(shù)在80.6%~92.3%,骨齡讀數(shù)的95%置信區(qū)間為±0.48歲至±0.72歲。評價者間的讀片重復(fù)性較低,TW2-RUS和TW2-Carpal方法的評價者間的重復(fù)性分別在74.4%~80.5% 和74.1%~88.0%。但是,評價者間的重復(fù)性在不同個體間也有很大的差異,比利時的Beunen G.(1980)通過自學(xué)掌握TW2方法后,與TW2方法原作者Whitehouse R.H., Cameron N.進(jìn)行了比較研究,以TW-20方法重復(fù)閱讀112張X線片,評價者之間骨發(fā)育等級相同的例數(shù)在83%以上。但在Baughan et al.(1979)和Medicus et al.(1971)的研究中,2名或3名評價者間重復(fù)讀片的一致性則較低,TW-RUS骨在76%~82%,腕骨在72%~74%之間。
二、《中國人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05》 RUS-CHN法和TW3-C Carpal法的讀片可靠性檢驗(yàn):
在國內(nèi),《中國人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05》課題組首次對骨齡評價方法可靠性進(jìn)行了較為全面的研究(張紹巖等,2006)。他們根據(jù)從事骨齡評價工作年限、是否參加過讀片培訓(xùn)、以及每年閱讀X線片的數(shù)量將11名評價者分為三類:
有經(jīng)驗(yàn)者:從事骨齡評價工作在5年以上,曾經(jīng)參加原《中國人骨發(fā)育標(biāo)準(zhǔn)-CHN法》培訓(xùn)1次以上,平均每年讀片數(shù)量在1000例以上者。
較有經(jīng)驗(yàn)者:從事骨齡評價工作在3年以上,曾經(jīng)參加CHN法培訓(xùn)或有自學(xué)經(jīng)歷,平均每年讀片數(shù)量在1000例以下者;
無經(jīng)驗(yàn)者:無骨齡評價經(jīng)歷者;或使用G-P方法讀片者;或雖然參加過原《中國人骨發(fā)育標(biāo)準(zhǔn)-CHN法》培訓(xùn)或自學(xué),但日常讀片數(shù)量較少者。
所有評價者集中培訓(xùn)3天,然后在不知兒童年齡、性別的情況下,11名評價者使用RUS-CHN法以隨機(jī)順序獨(dú)自閱讀75名正常兒童的左手腕部X線片,其中6名評價者同時評價TW3-C Carpal法的骨發(fā)育等級。20天后,所有評價者使用相同的評價方法,在一天時間內(nèi)獨(dú)自重復(fù)閱讀同一組兒童的手腕部X線片。檢驗(yàn)結(jié)果如下:
1、評價者內(nèi)的可靠性:
(1)RUS-CHN法:
各評價者使用RUS-CHN法重復(fù)讀片,等級相同例數(shù)的百分?jǐn)?shù)平均在63.4%~82.2%之間。重復(fù)讀片不一致的等級主要出現(xiàn)在相鄰等級上,相差2個等級的例數(shù)很少,相差2個等級例數(shù)的百分?jǐn)?shù)的平均數(shù)在1.3%~2.9%。根據(jù)重復(fù)率可將評價者分為三類:
有經(jīng)驗(yàn)者、較有經(jīng)驗(yàn)者和部分無經(jīng)驗(yàn)者,等級相同的重復(fù)率相似,在78.0%~82.2%;
1名無經(jīng)驗(yàn)者,等級相同的例數(shù)為74%;
2名無經(jīng)驗(yàn)者等級相同的例數(shù)在63.4%~67.6%。
所有評價者骨齡讀數(shù)的95%置信區(qū)間在±0.40歲~±0.76歲,除了幾名無經(jīng)驗(yàn)者外,大部分評價者本人重復(fù)讀片的隨機(jī)誤差在±0.6歲以下的適當(dāng)范圍之內(nèi)。
(2)TW3-C Carpal法:
6名評價者參加了TW3-C Carpal法的可靠性檢驗(yàn)。也可將評價者分為三類:
有經(jīng)驗(yàn)者的重復(fù)性較高,82.1%~83.2%;
較有經(jīng)驗(yàn)者和部分無經(jīng)驗(yàn)者的讀片重復(fù)性在72.1%~74.4%;
2名無經(jīng)驗(yàn)者等級相同的例數(shù)在65.6%~70.1%。
所有評價者骨齡讀數(shù)的95%置信區(qū)間為±0.32~±0.71歲,有5名評價者的隨機(jī)誤差在±0.60歲以下,2名無經(jīng)驗(yàn)者在±0.60歲以上,分別為±0.68和±0.72,分別有評價偏低和偏高的系統(tǒng)誤差。
2、評價者間的可靠性:
(1)RUS-CHN法:
各評價者與制訂中華05標(biāo)準(zhǔn)的讀片員相比,骨發(fā)育等級相同的例數(shù)平均在61.3%~77.3%。由此可見評價者間的等級重復(fù)性均低于評價者內(nèi)的重復(fù)性。評價者間的重復(fù)性分為3類:
有經(jīng)驗(yàn)者、較有經(jīng)驗(yàn)者和1名無經(jīng)驗(yàn)者,其評價者間的重復(fù)性在73%~77%;
部分無經(jīng)驗(yàn)者評價者間的重復(fù)性在69%~70%;
部分無經(jīng)驗(yàn)者評價者間的重復(fù)性在65%左右(61%~66%)。
在各評價者骨齡讀數(shù)的95%置信區(qū)間為±0.42~±0.96歲。評價者間等級重復(fù)性在75%左右的5名評價者的隨機(jī)誤差在±0.60歲以下(±0.41~±0.58歲);評價者間等級重復(fù)性在61%~70%的評價者(無經(jīng)驗(yàn)者)的隨機(jī)誤差大于±0.60歲(±0.64~±0.96歲)。
(2)TW3-C Carpal法:
各評價者與制訂中華05標(biāo)準(zhǔn)的讀片員相比,評價者間腕骨等級的重復(fù)率在77.4%~88.0%,普遍高于RUS-CHN方法:
有經(jīng)驗(yàn)者和1名較有經(jīng)驗(yàn)者,評價者間等級相同例數(shù)的平均數(shù)在86%~88%;
部分無經(jīng)驗(yàn)者。等級相同例數(shù)平均在82%~84%;
一名無經(jīng)驗(yàn)者,等級相同例數(shù)的平均數(shù)在77%。
有經(jīng)驗(yàn)者、較有經(jīng)驗(yàn)者以及1名無經(jīng)驗(yàn)者骨齡讀數(shù)的95%置信區(qū)間在±0.60歲以下,1名無經(jīng)驗(yàn)者在±0.60歲以上。
通過上述的檢驗(yàn)說明,RUS-CHN法與TW3-C Carpal法的可靠性與TW3-RUS法基本相同。在有不同經(jīng)驗(yàn)的評價者之間,骨齡評價的可靠性有顯著性差異;有經(jīng)驗(yàn)者讀片可靠性水平較高,少數(shù)無經(jīng)驗(yàn)者通過一次學(xué)習(xí)培訓(xùn)可以達(dá)到較有經(jīng)驗(yàn)者的類似水平,但大部分無經(jīng)驗(yàn)者可靠性水平較低。這些研究不經(jīng)說明讀片練習(xí)與經(jīng)驗(yàn)是取得可靠骨齡結(jié)果的基礎(chǔ),而且也說明了通過可靠性檢驗(yàn),實(shí)行讀片質(zhì)量控制的重要性。
三、骨齡讀片質(zhì)量控制方法
(一)、評價者內(nèi)的讀片可靠性檢驗(yàn):
(1)計算重復(fù)率:應(yīng)用者應(yīng)選擇、閱讀一定數(shù)量的手腕骨部X線片(最好在50張以上),年齡范圍應(yīng)包括所欲應(yīng)用年齡段。相隔一段時間后(應(yīng)至少15天以上),重復(fù)讀片,比較兩次讀片結(jié)果,統(tǒng)計相同等級例數(shù)的百分?jǐn)?shù),判斷重復(fù)性。如果分別統(tǒng)計每塊骨的重復(fù)率,還可以分析出那一塊骨,或哪些發(fā)育等級的重復(fù)性較差,使用圖譜法時,通過檢驗(yàn)可發(fā)現(xiàn)重復(fù)讀片差異較大的年齡范圍,然后重點(diǎn)學(xué)習(xí)、練習(xí),以提高重復(fù)性。
(2)計算骨齡讀數(shù)95%的置信區(qū)間:該統(tǒng)計量說明了所評價骨齡的隨機(jī)誤差范圍,計算公式為: ±t0.05√(∑d2/2n),其中∑d2為兩次讀片骨齡差值的平方和,n為X線片的數(shù)量,t0.05為t檢驗(yàn)中0.05水平上的t值。
(3)系統(tǒng)誤差:分別計算兩次讀片骨齡的平均數(shù)和標(biāo)準(zhǔn)差,比較平均數(shù)的差異,觀察系統(tǒng)誤差的大小,并同時進(jìn)行兩相關(guān)樣本的差異顯著性檢驗(yàn)。
(二)、評價者間的讀片可靠性檢驗(yàn):
在不同評價者之間重復(fù)閱讀一定數(shù)量的手腕部X線片,使用上述相同的統(tǒng)計方法計算,即可得出評價者間的隨機(jī)誤差和系統(tǒng)誤差。評價者之間的讀片可靠性檢驗(yàn)也同樣重要,但在施行起來,其難度大于評價者內(nèi)的可靠性檢驗(yàn),最好是在應(yīng)用領(lǐng)域內(nèi),定期組織、交流經(jīng)驗(yàn),討論、統(tǒng)一評價尺度,是提高讀片質(zhì)量,保證臨床和科研工作可比性的重要措施。
參考文獻(xiàn)
張紹巖, 吳真列, 沈勛章, 等. 中國人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05 II. RUS-CHN 和TW3-C腕骨方法的讀片可靠性.中國運(yùn)動醫(yī)學(xué)雜志, 2006, 25(6): 641-646.
Acheson RM, Vicinus JH and Fowler GB. Studies in the reliability of assessing skeletal maturity from X-ray. Part II. The Bone-Specific Approach. Hum Biol, 1964, 36:211-228.
Acheson RM, Vicinus JH and Fowler GB. Studies in the reliability of assessing skeletal maturity from X-ray.
Part III. Greulich-Pyle atlas and Tanner-Whitehouse method contrasted. Hum Biol, 1966, 38:205-218.
Acheson RM, Fowler GB, Fry EI, et al. Studies in the reliability of assessing skeletal maturity from X-ray. I. Greulich-Pyle atlas. Hum Biol, 1963, 35:317-349.
Baughan B, Demirjian A, and Levesque GY. Skeletal maturity standards for French-Canadian children of school-age with a discussion of the reliability and validity of such measures. Hum Biol, 1979, 51(3): 353-370.
Beunen G. and Cameron N. The reproducibility of TW2 skeletal age assessments by a self-taught assessor.Ann Hum Biol, 1980,7(2): 155-162.
Beunen G. and Cameron N. The reproducibility of TW2 skeletal age assessments by a self-taught assessor.Ann Hum Biol, 1980,7(2): 155-162.
Medicus H, Gron AM andMoorees CFA. Reproducilibity of rating stages of osseous development. Am J Phys Anthropol, 1971, 35:359-372.
Wenzel A. and Melsen B. Replicability of assessing radiographs by the Tanner and Whitehouse-2 method. Hum Biol, 1982, 54(3):575-581.
Taranger J, Burning B, Claesson I, et al. Skeletal development from birth to 7 years. Acta Paediatr Scand, 1976,258 (Suppl.):98-108.
Tanner, JM and Gibbons RD. A computerized image analysis system for estimating Tanner-Whitehouse 2 bone age. Horm Res, 1994, 42:282-287.