資料文獻(xiàn)

《中國人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05》II. RUS-CHN 和TW3-C腕骨方法的讀片可靠性


時(shí)間: 2021/8/18 9:22:08 瀏覽量:1126 字號選擇: 分享到:

在體育、醫(yī)學(xué)、生物學(xué)等領(lǐng)域中,廣泛使用骨齡來評價(jià)兒童少年的發(fā)育程度。因此,檢驗(yàn)骨齡評價(jià)的可靠性,不僅對評價(jià)方法的方法學(xué)有深入的了解,更重要的是能夠?qū)驱g評價(jià)結(jié)果做出正確的估價(jià),提高應(yīng)用實(shí)踐的工作質(zhì)量,增強(qiáng)不同評價(jià)者之間評價(jià)結(jié)果的可比性。

和任何科學(xué)實(shí)驗(yàn)方法一樣,骨齡評價(jià)方法也存在有系統(tǒng)誤差和隨機(jī)誤差。G-P圖譜法和TW計(jì)分法是國際上應(yīng)用非常廣泛的骨齡評價(jià)方法。人們在長期的臨床應(yīng)用過程中,也對這兩種方法的可靠性進(jìn)行了廣泛的研究[1, 2]。Tanner et al.根據(jù)可靠性研究結(jié)果,對TW1方法進(jìn)行了修改,去掉了一些評價(jià)困難的手腕骨發(fā)育等級,并分別建立了RUS骨(橈尺骨、掌指骨)和腕骨的評價(jià)標(biāo)準(zhǔn),提高了TW法的讀片可靠性[3]

在中國兒童生長發(fā)育加速長期趨勢的背景環(huán)境下,我們參照TW3方法修訂了中國人手腕骨發(fā)育標(biāo)準(zhǔn),并根據(jù)體育領(lǐng)域的需求,提出一種新的RUS-CHN評價(jià)方法。因?yàn)?/span>TW2-RUS方法的可靠性已經(jīng)有較多地研究,所以本文主要檢驗(yàn)《中國人手腕骨發(fā)育標(biāo)準(zhǔn)—中華05》的RUS-CHN以及TW3-C腕骨成熟度評價(jià)的可靠性。

1.材料與方法

1.1 檢驗(yàn)樣本

使用75名正常兒童(骨齡在3歲-18歲)左手腕后前位X線片進(jìn)行讀片可靠性檢驗(yàn)。因?yàn)橥蠊前l(fā)育成熟較早,所以在排除腕骨發(fā)育成熟的兒童后,腕骨的讀片可靠性檢驗(yàn)的兒童(骨齡3歲-13.5歲)樣本為46名。

1.2 骨齡評價(jià)者

共有11名(其中1名為修訂標(biāo)準(zhǔn)的讀片員)評價(jià)者參加可靠性檢驗(yàn),根據(jù)下述條件將評價(jià)者分為三類:

有經(jīng)驗(yàn)者:從事骨齡評價(jià)工作在5年以上,曾經(jīng)參加原《中國人骨發(fā)育標(biāo)準(zhǔn)-CHN法》培訓(xùn)1次以上,平均每年讀片數(shù)量在1000例以上者。

較有經(jīng)驗(yàn)者:從事骨齡評價(jià)工作在3年以上,曾經(jīng)參加CHN法培訓(xùn)或有自學(xué)經(jīng)歷,平均每年讀片數(shù)量在1000例以下者;

無經(jīng)驗(yàn)者:無骨齡評價(jià)經(jīng)歷者;或使用G-P方法讀片者;或雖然參加過原《中國人骨發(fā)育標(biāo)準(zhǔn)-CHN法》培訓(xùn)或自學(xué),但日常讀片數(shù)量較少者。

根據(jù)參加研究的評價(jià)者的基本情況,2名評價(jià)者(1,2號)為有經(jīng)驗(yàn)者,2名評價(jià)者(3、4號)為較有經(jīng)驗(yàn)者,6名(5、6、7、8、9、10號)評價(jià)者為無經(jīng)驗(yàn)者;0號評價(jià)者為制訂標(biāo)準(zhǔn)的讀片員。

1.3 讀片檢驗(yàn)過程

所有評價(jià)者集中培訓(xùn)3天,由制訂《中國人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05》的讀片員講解RUS-CHN法和TW3-C腕骨發(fā)育等級的定義,然后各評價(jià)者根據(jù)骨發(fā)育等級文字描述與圖示進(jìn)行學(xué)習(xí),使用統(tǒng)一的觀片燈練習(xí)讀片(每人的讀片數(shù)量約200張左右),并交流和討論。第四天,在無兒童年齡、性別資料的情況下,11名評價(jià)者(P0-P10)使用RUS-CHN法以隨機(jī)順序獨(dú)自閱讀75名正常兒童的X線片,其中7名評價(jià)者(0、1、2、4、5、6、8號)同時(shí)評價(jià)TW3-C腕骨發(fā)育等級。

20天后,通過郵寄資料,各評價(jià)者(7號評價(jià)者因故未重復(fù)評價(jià))使用相同的評價(jià)方法,在一天時(shí)間內(nèi)獨(dú)自重復(fù)閱讀同一組兒童的手腕部X線片。

1.4 可靠性檢驗(yàn)方法

1.4.1 手腕骨發(fā)育等級的重復(fù)性:計(jì)算每名評價(jià)者本人重復(fù)讀片、以及與標(biāo)準(zhǔn)制訂讀片員之間的手腕各骨發(fā)育等級相同例數(shù)的百分?jǐn)?shù)。

1.4.2 重復(fù)讀片的系統(tǒng)誤差和隨機(jī)誤差:以重復(fù)讀片的骨齡平均數(shù)差值,比較評價(jià)者內(nèi)和評價(jià)者間骨齡評價(jià)的系統(tǒng)誤差;以重復(fù)讀片的骨齡差值計(jì)算一次讀片骨齡差值的標(biāo)準(zhǔn)差和95%的置信區(qū)間,比較評價(jià)者內(nèi)和評價(jià)者之間骨齡評價(jià)的隨機(jī)誤差。計(jì)算公式如下:

                 ±t0.05 × 

其中d為重復(fù)讀片的骨齡差值;nX線片數(shù)量;t0.05為顯著性為0.05水平時(shí)的t值。

根據(jù)以往文獻(xiàn)對TW2方法的檢驗(yàn)結(jié)果,我們?nèi) ?.60歲作為單一讀數(shù)的95%置信區(qū)間是否適宜的分界值。

2.4.3 統(tǒng)計(jì)分析:使用SPSS11.0應(yīng)用軟件統(tǒng)計(jì)分析。采用多個(gè)相關(guān)樣本非參數(shù)檢驗(yàn),檢驗(yàn)評價(jià)者間各骨等級相同例數(shù)百分?jǐn)?shù)的組間差異顯著性,如差異顯著,則以兩相關(guān)樣本非參數(shù)檢驗(yàn)來檢驗(yàn)兩兩評價(jià)者之間的差異顯著性;使用配對t檢驗(yàn),檢驗(yàn)評價(jià)者本人重復(fù)讀片骨齡平均數(shù)的差異顯著性;以多變量方差分析檢驗(yàn)評價(jià)者與標(biāo)準(zhǔn)制訂者之間骨齡讀數(shù)的組間差異顯著性,如果方差分析存在顯著性,則以配對樣本t檢驗(yàn)來進(jìn)一步檢驗(yàn)各評價(jià)者與標(biāo)準(zhǔn)制定者平均數(shù)間的差異顯著性。

    2、結(jié)果

    2.1 評價(jià)者內(nèi)的可靠性

各評價(jià)者使用RUS-CHN法重復(fù)讀片,等級相同例數(shù)百分?jǐn)?shù)的平均數(shù)在63.4%-82.2%之間,表1。根據(jù)表1和表2,可將評價(jià)者分為三類:一類是有經(jīng)驗(yàn)者(1、2號)、較有經(jīng)驗(yàn)者(3、4號)和部分無經(jīng)驗(yàn)者(5、10號),等級相同的重復(fù)率相似,在78.0%-82.2%,相互之間的差異大都無統(tǒng)計(jì)學(xué)顯著性;二類是一名無經(jīng)驗(yàn)者,等級相同的例數(shù)為74%,與6號和8號之間的差異顯著;三類是兩名無經(jīng)驗(yàn)者(68號),等級相同的例數(shù)在63.4%-67.6%,與上述評價(jià)者的差異均有統(tǒng)計(jì)學(xué)的顯著性,而二者之間差異無顯著性。重復(fù)讀片不一致的等級主要出現(xiàn)在相鄰等級上,相差2個(gè)等級的例數(shù)很少,相差2個(gè)等級例數(shù)的百分?jǐn)?shù)的平均數(shù)在1.3%-2.9%。

各評價(jià)者重復(fù)讀片,骨齡平均數(shù)差值的絕對值在0.01歲- 0.24歲之間。雖然2號、3號重復(fù)讀片的骨齡平均數(shù)差異有統(tǒng)計(jì)學(xué)的顯著性,但是骨齡平均數(shù)差值的絕對值很小,僅8號評價(jià)者的系統(tǒng)誤差較大。各評價(jià)者重復(fù)讀片,單一讀數(shù)的95%置信區(qū)間在±0.40歲-±0.76歲,除了6號、8號、9號評價(jià)者以外,大部分評價(jià)者本人重復(fù)讀片的隨機(jī)誤差在±0.6歲以下的適當(dāng)范圍之內(nèi)(表1)。

7名評價(jià)者參加了TW3-C腕骨評價(jià)的可靠性檢驗(yàn)。由表3和表4可見,有經(jīng)驗(yàn)者(1、2號)的重復(fù)性較高,82.1%-83.2%,與其它評價(jià)者的差異顯著;較有經(jīng)驗(yàn)者(4號)和無經(jīng)驗(yàn)者(5、6、8號)的讀片重復(fù)性在65.6%-74.4%,相互之間的差異無顯著性。多數(shù)評價(jià)者相差2個(gè)等級的例數(shù)減少,少數(shù)評價(jià)者(68號)相差2個(gè)等級的例數(shù)增加。僅2名無經(jīng)驗(yàn)者(5號、8號)重復(fù)評價(jià)的腕骨骨齡平均數(shù)有顯著性差異,分別有評價(jià)偏低和偏高的系統(tǒng)誤差。各評價(jià)者單一讀數(shù)95%置信區(qū)間為±0.32-±0.71歲,有5名評價(jià)者的隨機(jī)誤差在±0.60歲以下,2名無經(jīng)驗(yàn)者在±0.60歲以上,分別為±0.68和±0.72。

 image.png

image.png

image.png

image.png

 

2.2 評價(jià)者間的可靠性

由表5可見,各評價(jià)者與制訂標(biāo)準(zhǔn)讀片員之間,RUS-CHN法骨等級相同例數(shù)百分?jǐn)?shù)的平均數(shù)在61.3%-77.3%,評價(jià)者間的等級重復(fù)性均低于其評價(jià)者內(nèi)的重復(fù)性。根據(jù)表5和表6,也可以將評價(jià)者間的重復(fù)性分為3類:一類是有經(jīng)驗(yàn)者(1、2號)、較有經(jīng)驗(yàn)者(3、4號)和1名無經(jīng)驗(yàn)者(5號),其評價(jià)者間的重復(fù)性在75%左右(73%-77%),相互之間的差異無顯著性,而與其余評價(jià)者之間的差異大都有顯著性;二類是無經(jīng)驗(yàn)者(9、10號),評價(jià)者間的重復(fù)性在70%左右(69%-70%),二者之間的差異無顯著性,但與第三類無經(jīng)驗(yàn)者(6、7、8號)之間的差異大都有差異顯著性;三類是部分無經(jīng)驗(yàn)者(6、7、8號),評價(jià)者間的重復(fù)性在65%左右(61%-66%),相互之間大都無差異顯著性。

各評價(jià)者與制訂標(biāo)準(zhǔn)讀片員間的骨齡平均數(shù)差值的絕對值在0.10- 0.25歲,57號評價(jià)者骨齡均數(shù)差異有顯著性,其系統(tǒng)誤差分別為-0.15歲和-0.25歲,5各評價(jià)者間的隨機(jī)誤差(單一讀數(shù)95%置信區(qū)間)為±0.42歲—±0.96歲。評價(jià)者間等級重復(fù)性在75%左右的5名評價(jià)者(有經(jīng)驗(yàn)者1、2號、較有經(jīng)驗(yàn)者3、4號以及無經(jīng)驗(yàn)者5號 隨機(jī)誤差在±0.60歲以下(±0.41—±0.58);評價(jià)者間等級重復(fù)性在61%-70%的評價(jià)者(無經(jīng)驗(yàn)者)的隨機(jī)誤差大于±0.60歲(±0.64-±0.96)。

評價(jià)者間腕骨等級的重復(fù)率在77.4%-88.0%,普遍高于RUS-CHN方法。根據(jù)表7和表8,也同樣可將評價(jià)者間的重復(fù)性分為3類:一類是有經(jīng)驗(yàn)者(12號)和1名較有經(jīng)驗(yàn)者(4號),評價(jià)者間等級相同例數(shù)的平均數(shù)在86%-88%,三者之間的差異無顯著性,但與其它評價(jià)者大都差異顯著;二類是等級相同例數(shù)的平均數(shù)在82%-84%的無經(jīng)驗(yàn)者(5號、6號);三類是一名無經(jīng)驗(yàn)者(8號),等級相同例數(shù)的平均數(shù)在77%,與其它評價(jià)者的差異均顯著。

5號和8號評價(jià)者的骨齡均數(shù)與制訂標(biāo)準(zhǔn)讀片員之間的差異達(dá)到顯著性水平,分別有高評和低評的系統(tǒng)誤差。4名評價(jià)者(有經(jīng)驗(yàn)者、較有經(jīng)驗(yàn)者以及1名無經(jīng)驗(yàn)者)的隨機(jī)誤差在±0.60歲以下,2名無經(jīng)驗(yàn)者在±0.60歲以上。

 image.png

image.png

image.png

image.png 

討論 

骨齡能夠評價(jià)正常和異常的生理發(fā)育,應(yīng)用范圍廣泛,因此骨齡評價(jià)的可靠性受到了研究者和應(yīng)用者的關(guān)注。國際間某些有經(jīng)驗(yàn)者[ 4, 5, 6, 7]TW2-RUS法的評價(jià)者內(nèi)和評價(jià)者間的等級重復(fù)性分別為82.7%- 91.4%和74.4%-80.5%;TW2腕骨評價(jià)者內(nèi)和評價(jià)者間的等級重復(fù)性分別為80.6%-92.3%和74.1%-88.0%;TW2-RUS方法的評價(jià)者內(nèi)和評價(jià)者間的隨機(jī)誤差分別為±0.42歲-±0.50歲和±0.58歲±0.76歲;TW2-腕骨評價(jià)者內(nèi)和評價(jià)者間的隨機(jī)誤差分別為±0.48歲-±0.72歲和±0.82歲-±0.84歲。與這些研究結(jié)果相比,本研究中的有經(jīng)驗(yàn)者接近或達(dá)到了國際間的骨齡評價(jià)可靠性水平,但是大部分無經(jīng)驗(yàn)者經(jīng)過一次讀片訓(xùn)練后的讀片可靠性仍然較低。

骨發(fā)育等級是根據(jù)順序出現(xiàn)的成熟度指征將骨發(fā)育的連續(xù)過程所劃分出的若干階段,在每個(gè)階段中,雖然骨的發(fā)育在繼續(xù),但是在骨齡評價(jià)中骨的發(fā)育等級不變。因此,一個(gè)成熟度指征未出現(xiàn)與出現(xiàn)的這個(gè)階段(等級的交界處)的評價(jià)較為困難,這可能是影響重復(fù)性的主要因素之一。RUS-CHN法所評價(jià)的骨的塊數(shù)和TW3-RUS相同,但是評價(jià)等級的數(shù)量由103個(gè)增加到了150個(gè)。在同樣的骨發(fā)育過程中等級數(shù)量增加就增加了等級交界處,因而增加了骨發(fā)育等級不一致的例數(shù)。但是,雖然RUS-CHN法增加了骨發(fā)育等級,可能降低等級重復(fù)性的同時(shí),也減小了不同骨等級的得分差,因而也減小了等級讀數(shù)不同對骨齡數(shù)值的影響,也就降低了RUS-CHN骨齡評價(jià)的隨機(jī)誤差,因而大部分評價(jià)者一次讀片骨齡的95%置信區(qū)間達(dá)到了國際間TW2-RUS方法的可靠性水平。

計(jì)分法分別評價(jià)每塊骨的發(fā)育等級,當(dāng)一塊骨等級評價(jià)不一致時(shí),得分誤差對于骨齡數(shù)值的影響較小,但如果評價(jià)者有普遍高評或低評的傾向時(shí),將隨著骨等級不一致的骨塊數(shù)的增加而加大骨齡評價(jià)的系統(tǒng)誤差。例如,本文的5號和8號評價(jià)者,腕骨評價(jià)者內(nèi)等級重復(fù)率有低評和高評的傾向,而在評價(jià)者間的腕骨可靠性檢驗(yàn)中,和標(biāo)準(zhǔn)制定讀片員之間的等級重復(fù)率又分別有高評和低評的傾向,都出現(xiàn)了顯著的系統(tǒng)誤差。另外,不同骨的權(quán)重差異,或在不同年齡段出現(xiàn)的等級不一致,對于骨齡評價(jià)的系統(tǒng)誤差和隨機(jī)誤差的影響是不同的。所以,在檢驗(yàn)中僅等級重復(fù)率不能完全說明骨齡評價(jià)的可靠性。在應(yīng)用實(shí)踐和研究工作中,過大的系統(tǒng)誤差和隨機(jī)誤差有可能掩蓋了事實(shí)真相而得出錯(cuò)誤的結(jié)論。因此,在定期的可靠性檢驗(yàn)中,不僅要檢驗(yàn)評價(jià)者內(nèi)和評價(jià)者間的重復(fù)性,還應(yīng)當(dāng)計(jì)算檢驗(yàn)系統(tǒng)誤差和隨機(jī)誤差。

在骨齡的應(yīng)用越來越廣泛的情況下,無論使用哪種方法,定期進(jìn)行可靠性檢驗(yàn)是很有必要的??煽啃詸z驗(yàn)不僅可以發(fā)現(xiàn)骨等級評價(jià)重復(fù)性較低的骨,通過進(jìn)一步的學(xué)習(xí)與訓(xùn)練提高重復(fù)性,還可以對骨齡評價(jià)結(jié)果的系統(tǒng)誤差和隨機(jī)誤差得出正確的估價(jià)。評價(jià)者間的可靠性檢驗(yàn)對于保持不同使用者、不同單位、不同系統(tǒng)骨齡評價(jià)工作的一致性和可比性,提高應(yīng)用工作質(zhì)量有重要的作用。


相關(guān)文章推薦

《中國人手腕骨發(fā)育標(biāo)準(zhǔn)—中華05》-TW3-C RUS、TW3-C腕骨和RUS-CHN方法

 

參考文獻(xiàn)

[1] Acheson R. M., Joan H. Vicinus and Gillian B. Fowler Studies in the reliability of Assessing Skeletal Maturity from X-ray. Part II. The Bone-Specific Approach. Hum Biol,1964,36:211-228.

[2] Acheson R. M., Joan H. Vicinus and Gillian B. Fowler Studies in the reliability of Assessing Skeletal Maturity from X-ray. Part III. Greulich-Pyle Atals and Tanner-Whitehouse Method Contrasted. Hum Biol,1966,38:205-218,.

[3] Tanner J. M. and R. H. Whitehouse et al. Assessment of Skeletal Maturity and Prediction of Adult Height (TW2 method).London: Academic Press, 1983.

[4] Wenzel A. and B. Melsen  Replicability of assessing radiographs by the Tanner and Whitehouse-2 method. Hum Biol,1982,54(3):575-581.

[5] Bull R. K, P. D. Edwards, P. M. Kemp et al. Bone age assessment: a large scale comparison of the Greulich and Pyle, and Tanner and Whitehouse (TW2) methods. Arch Dis Child, 1999, 81:172-173.

[6] Beunen G. and N. Cameron The reproducibility of TW2 skeletal age assessments by a self-taught assessor. Ann Hum Biol, 1980,7(2): 155-162.

[7] Medicus,H.,A.M.Gron and C.F.A.Moorees Reproducilibity of rating stages of osseous development. Am J Phys Anthropol,1976,35:359-372.


返回列表