美章網(wǎng) 資料文庫 中國醫(yī)學(xué)語言體系整體進(jìn)度范文

    中國醫(yī)學(xué)語言體系整體進(jìn)度范文

    本站小編為你精心準(zhǔn)備了中國醫(yī)學(xué)語言體系整體進(jìn)度參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

    中國醫(yī)學(xué)語言體系整體進(jìn)度

    1目標(biāo)和意義

    該研究第一階段的目標(biāo)是建立一個基于計算機管理的“統(tǒng)一的中國醫(yī)學(xué)語言系統(tǒng)”,該系統(tǒng)由中國醫(yī)學(xué)用語數(shù)據(jù)庫、中國醫(yī)學(xué)用語語義網(wǎng)絡(luò)系統(tǒng)、中國醫(yī)學(xué)用語與標(biāo)引檢索語言對應(yīng)轉(zhuǎn)換系統(tǒng)3個部分組成。該系統(tǒng)將為實現(xiàn)中文生物醫(yī)學(xué)文獻(xiàn)計算機標(biāo)引和分類,加快文獻(xiàn)處理速度,提高文獻(xiàn)處理的準(zhǔn)確性和一致性提供良好的支撐環(huán)境;同時將最大限度地跨越語言表達(dá)的差異性和相關(guān)信息的分散性,為生物醫(yī)學(xué)信息一體化檢索提供有效的幫助。該系統(tǒng)的實現(xiàn)將使傳統(tǒng)的中文醫(yī)學(xué)文獻(xiàn)處理和檢索發(fā)生根本性的變革。

    2國內(nèi)外研究現(xiàn)狀

    美國國立醫(yī)學(xué)圖書館自1986年開始研制統(tǒng)一的醫(yī)學(xué)語言系統(tǒng)(UnifiedMedicalLanguageSystem,UMLS),其目的在于克服計算機生物醫(yī)學(xué)信息檢索中相同的概念具有不同的表達(dá)方式,有用的信息分散在不同的數(shù)據(jù)庫系統(tǒng)中。該系統(tǒng)由超級敘詞表、語義網(wǎng)絡(luò)、信息資源及專用詞典組成。其中超級敘詞表囊括了“MedicalSubjectHeadings”(醫(yī)學(xué)主題詞表)在內(nèi)的詞表、分類表70余種,涵蓋了生物醫(yī)學(xué)概念73萬項,相關(guān)名稱15萬條。該系統(tǒng)在計算機輔助文獻(xiàn)標(biāo)引、研制開發(fā)相關(guān)文獻(xiàn)的數(shù)據(jù)庫及具有輔助檢索功能的IGM和PubMed信息檢索系統(tǒng)方面發(fā)揮了巨大作用,提高了計算機自動處理的程度,極大地方便了用戶的查詢。國內(nèi)科技信息界自20世紀(jì)90年代后相繼進(jìn)行了分類—主題詞一體化詞表的研制工作,如國家圖書館編制的《中圖法—漢語主題詞對照表》,中國醫(yī)學(xué)科學(xué)院信息所與圖書館編制的《中圖法與MeSH、中醫(yī)藥學(xué)主題詞對照表》等。它們的最大特點是標(biāo)引數(shù)據(jù)時,可同時完成文獻(xiàn)的主題標(biāo)引和分類標(biāo)引,并提高了標(biāo)引的速度和一致性。

    3系統(tǒng)的構(gòu)成與功能

    3.1中國醫(yī)學(xué)用語數(shù)據(jù)庫該數(shù)據(jù)庫來源于10余種生物醫(yī)學(xué)詞表、詞典及分類表,可分為以下幾種類型。

    3.1.1敘詞表。如《醫(yī)學(xué)主題詞表》,《中醫(yī)藥學(xué)主題詞表》,《統(tǒng)一的醫(yī)學(xué)語言系統(tǒng)—超級敘詞表》(UMLSMetathesaurus等。

    3.1.2分類表。如《中國圖書資料分類法》,《國際疾病分類法》等。

    3.1.3辭典。如《中藥大詞典》,《漢英中醫(yī)藥分類辭典》,《英中醫(yī)學(xué)辭海》,《英漢醫(yī)學(xué)詞匯》、《英漢醫(yī)學(xué)縮略語詞典》等。該詞庫的特點是:收詞量大,覆蓋范圍廣,包括醫(yī)學(xué)、藥學(xué)、牙科學(xué)、中醫(yī)藥學(xué)及其他相關(guān)學(xué)科的詞匯約160余萬條;收詞類型豐富,包括主題詞、關(guān)鍵詞、化學(xué)物質(zhì)登記號、酶代碼、分類號、縮略語等;兼容英文詞匯,譯名規(guī)范;實時對詞庫進(jìn)行添加、更新和維護(hù)的動態(tài)性。

    3.2中國醫(yī)學(xué)用語語義網(wǎng)絡(luò)系統(tǒng)運用對比、分析和綜合研究方法,對醫(yī)學(xué)用語數(shù)據(jù)庫的160多萬詞條進(jìn)行概念規(guī)范、表達(dá)方式規(guī)范和語義規(guī)范,并建立反映相應(yīng)關(guān)系的標(biāo)準(zhǔn)代碼,以便于自動化處理。

    3.2.1概念規(guī)范。概念或涵義作為該數(shù)據(jù)庫的基礎(chǔ)和核心,在兩個方面進(jìn)行規(guī)范:確認(rèn)中文醫(yī)學(xué)領(lǐng)域內(nèi)業(yè)已存在的確切概念和概念的規(guī)范化表達(dá)形式(規(guī)范化用語)。

    3.2.2表達(dá)方式規(guī)范。對概念的不同表達(dá)方式進(jìn)行同義規(guī)范。例如對某一疾病的縮略語、單復(fù)數(shù)、不同名稱、疾病代碼等表達(dá)方式的規(guī)范。

    3.2.3語義規(guī)范。通過分析概念的內(nèi)涵和外延,建立概念間的上位—下位(分—屬)及相關(guān)關(guān)系,為智能化的信息檢索和知識分析提供強大的基礎(chǔ)保證。

    3.3中國醫(yī)學(xué)用語數(shù)據(jù)庫與標(biāo)引檢索語言數(shù)據(jù)庫

    轉(zhuǎn)換系統(tǒng)通過建立“中國醫(yī)學(xué)用語—醫(yī)學(xué)主題詞對應(yīng)數(shù)據(jù)庫”及“醫(yī)學(xué)主題詞—分類號對應(yīng)數(shù)據(jù)庫”,完成自然語言與規(guī)范化詞表語言間的轉(zhuǎn)換,實現(xiàn)自然語言與主題、分類檢索語言的一體化。

    3.3.1中國醫(yī)學(xué)用語—醫(yī)學(xué)主題詞對應(yīng)數(shù)據(jù)庫。依據(jù)美國國立醫(yī)學(xué)圖書館2000年《醫(yī)學(xué)主題詞表》MeSH中文版及《中醫(yī)藥學(xué)主題詞表》(第二版),對醫(yī)學(xué)用語進(jìn)行概念、詞匯與主題詞間對應(yīng)關(guān)系的標(biāo)示,建立醫(yī)學(xué)用語—醫(yī)學(xué)主題詞對應(yīng)數(shù)據(jù)庫、關(guān)鍵詞—副主題詞對應(yīng)庫、關(guān)鍵詞—特征詞對應(yīng)庫、禁用詞庫等多個數(shù)據(jù)庫。

    3.3.2醫(yī)學(xué)主題詞—分類號對應(yīng)數(shù)據(jù)庫。以“中國醫(yī)學(xué)用語與醫(yī)學(xué)主題詞對應(yīng)數(shù)據(jù)庫”和《中國圖書館分類法》(第4版)為基礎(chǔ),對主題詞進(jìn)行與分類號間對應(yīng)關(guān)系的處理。

    4系統(tǒng)研究進(jìn)展情況

    4.1建立“中國醫(yī)學(xué)用語—醫(yī)學(xué)主題詞對應(yīng)數(shù)據(jù)庫”及“醫(yī)學(xué)主題詞—分類號對應(yīng)數(shù)據(jù)庫”為適應(yīng)數(shù)據(jù)庫建設(shè)的需要,解決文獻(xiàn)標(biāo)引量大、成本高、人員少的矛盾,1994年在研制CBMdisc的同時開始嘗試建立“中國生物醫(yī)學(xué)文獻(xiàn)計算機輔助標(biāo)引系統(tǒng)”,而基礎(chǔ)詞表的建立是實現(xiàn)該系統(tǒng)的先決條件。首先利用人工方法從中國生物醫(yī)學(xué)期刊的文獻(xiàn)中抽取了近20萬個關(guān)鍵詞,借此建立了關(guān)鍵詞—主題詞對照表(現(xiàn)稱中國醫(yī)學(xué)用語—醫(yī)學(xué)主題詞對應(yīng)數(shù)據(jù)庫),并以《中國圖書館分類法》(R類)、MeSH、《中醫(yī)藥學(xué)主題詞表》為藍(lán)本,擴充了相應(yīng)的類目,建立了含4萬余條記錄的主題詞—分類號對照表(現(xiàn)稱醫(yī)學(xué)主題詞—分類號對應(yīng)數(shù)據(jù)庫),由此形成了一套關(guān)鍵詞到主題詞、主題詞到分類號的自然語言與受控語言的對應(yīng)轉(zhuǎn)換系統(tǒng)。

    4.1.1抽取關(guān)鍵詞的原則。關(guān)鍵詞應(yīng)詞義明確、專指,能反映文獻(xiàn)中論述的某一事物、對象、問題的主要概念;關(guān)鍵詞應(yīng)符合概念邏輯、通用、實用,可以用單字、單詞或復(fù)合詞,一般采用名詞,不用動詞、形容詞等詞類;關(guān)鍵詞應(yīng)考慮副主題詞概念的組配。

    4.1.2關(guān)鍵詞—主題詞對應(yīng)原則。第一,一個關(guān)鍵詞至少對應(yīng)一個主題詞,應(yīng)選用最專指的主題詞,如關(guān)鍵詞“肝內(nèi)膽管”對應(yīng)成主題詞“膽管,肝內(nèi)”。第二,一個關(guān)鍵詞如無相應(yīng)專指主題詞對應(yīng),應(yīng)選用概念最接近的主題詞,或主題詞/副主題詞組配表達(dá),如關(guān)鍵詞“肝囊腫”對應(yīng)成主題詞“肝疾病;囊腫”,關(guān)鍵詞“肝損傷”對應(yīng)成主題詞/副主題詞“肝/損傷”。第三,一個關(guān)鍵詞對應(yīng)兩個以上意義不同的主題詞時,應(yīng)在每個主題詞前做出材料識“$”,如關(guān)鍵詞“HP”可以對應(yīng)成主題詞“螺旋菌,幽門”,也可對應(yīng)成主題詞“觸珠蛋白類”。第四,遇到概念模糊不清的關(guān)鍵詞,不予轉(zhuǎn)換成主題詞。

    4.1.3主題詞—分類號對應(yīng)原則。第一,一個主題詞至少有一個R類(醫(yī)藥衛(wèi)生)相應(yīng)類號對應(yīng),如主題詞“肝疾病”的對應(yīng)分類號為“R575”。第二,必要時,一個主題詞可以對應(yīng)幾個類號,如藥物主題詞可根據(jù)不同的用途和藥理作用對應(yīng)幾個相應(yīng)的類號。第三,社會科學(xué)、生物學(xué)等學(xué)科主題詞與《中國圖書分類法》R類的相應(yīng)類目進(jìn)行擴充或仿分對應(yīng)。第四,采用直接、上位類、靠類、多號及組配等技術(shù)方法對主題語言與分類語言進(jìn)行概念的對應(yīng)處理。第五,副主題詞與臨床醫(yī)學(xué)專用復(fù)分號對應(yīng),地理主題詞與地理復(fù)分號對應(yīng)。

    4.2中國生物醫(yī)學(xué)文獻(xiàn)計算機輔助標(biāo)引系統(tǒng)

    1996年在上述兩個數(shù)據(jù)庫初具規(guī)模的基礎(chǔ)上,采用C++語言和VisualFoxPro開發(fā)成功了“中國生物醫(yī)學(xué)文獻(xiàn)計算機輔助標(biāo)引系統(tǒng)”,該系統(tǒng)已成為我國第一個進(jìn)入實用階段的計算機輔助標(biāo)引系統(tǒng)。它使醫(yī)學(xué)文獻(xiàn)的標(biāo)引深度由原來的每篇文獻(xiàn)3個主題詞增至8-10個,分類號由1個增至3-5個,文獻(xiàn)的處理速度由每年處理4萬條數(shù)據(jù)增至20萬條左右,數(shù)據(jù)的更新速度大大加快,文獻(xiàn)的加工處理費用大大降低。該系統(tǒng)包括主題標(biāo)引系統(tǒng)和分類標(biāo)引系統(tǒng)。

    4.2.1主題標(biāo)引規(guī)程。醫(yī)學(xué)文獻(xiàn)主題標(biāo)引包括主題詞、副主題詞、主要概念主題詞(加權(quán)主題詞)及特征詞的標(biāo)識。

    4.2.1.1確定標(biāo)引源:以科技文獻(xiàn)中的標(biāo)題、文摘、作者、關(guān)鍵詞作為標(biāo)引源。

    4.2.1.2確定切分規(guī)則:采用最大字串匹配法對文獻(xiàn)的標(biāo)題、文摘、作者、關(guān)鍵詞逐字進(jìn)行掃描。

    4.2.1.3確定轉(zhuǎn)換規(guī)則:對主題詞、副主題詞、特征詞分別進(jìn)行轉(zhuǎn)換。

    4.2.1.4確定主題詞數(shù)目:根據(jù)主題詞的出現(xiàn)頻率和出現(xiàn)位置計算每個主題詞、副主題詞、特征詞的得分,選擇得分高的主題詞、副主題詞和特征詞作為標(biāo)引詞。

    4.2.1.5確定主要概念主題詞:根據(jù)主題詞分值的高低,劃分主要概念主題詞(加星號主題詞)和非主要概念主題詞。

    4.2.1.6確定高頻主題詞轉(zhuǎn)換規(guī)則:對主題詞表中的高頻詞不予轉(zhuǎn)換,如“研究”。

    4.2.1.7標(biāo)引人員的干預(yù):標(biāo)引人員對機標(biāo)后的主題詞進(jìn)行審核。

    4.2.1.8標(biāo)引結(jié)果的合法性檢查:計算機對標(biāo)引結(jié)果進(jìn)行檢查,包括主題詞、副主題詞、特征詞的規(guī)范程度,主題詞/副主題詞組配是否正確,等。

    4.2.2分類標(biāo)引規(guī)程。根據(jù)每篇文獻(xiàn)標(biāo)引的主題詞,依據(jù)“主題詞—分類號對應(yīng)數(shù)據(jù)庫”及其一些特定規(guī)則進(jìn)行分類號的轉(zhuǎn)換。

    4.2.2.1主題詞—分類號轉(zhuǎn)換規(guī)則:依據(jù)“主題詞—分類號對應(yīng)數(shù)據(jù)庫”進(jìn)行主題詞到分類號轉(zhuǎn)換。如:主題詞“肝腫瘤”,轉(zhuǎn)為分類號“R735.7”。

    4.2.2.2副主題詞—專用復(fù)分號轉(zhuǎn)換規(guī)則:依據(jù)“副主題詞—復(fù)分號對應(yīng)表”進(jìn)行副主題詞到復(fù)分號的轉(zhuǎn)換,并將復(fù)分號加到主類號后。如:副主題詞“/診斷”轉(zhuǎn)為復(fù)分號“04”,故主題詞“肝腫瘤/診斷”,轉(zhuǎn)為分類號“R735.704”。

    4.2.2.3兒科學(xué)類號轉(zhuǎn)換規(guī)則:依據(jù)“主題詞—分類號對應(yīng)數(shù)據(jù)庫”及“特征詞”進(jìn)行主題詞到分類號的轉(zhuǎn)換。如一篇“兒童高血壓診斷標(biāo)準(zhǔn)探討”的文獻(xiàn),標(biāo)引的主題詞為“高血壓/*診斷;參考值”,特征詞為“兒童;人類”,如僅依據(jù)主題詞則分類號轉(zhuǎn)換為“R544.104;R-05”,而依據(jù)主題詞和特征詞則分類號轉(zhuǎn)換為“R725.441.04;R-05”。

    4.2.2.4外源性和內(nèi)源性物質(zhì)類號轉(zhuǎn)換規(guī)則:一個主題詞既為外源性物質(zhì)又為內(nèi)源性物質(zhì)時,依據(jù)標(biāo)引的副主題詞確定類號的轉(zhuǎn)換。如主題詞“C肽”既可轉(zhuǎn)為外源性物質(zhì)類號“R977.6”又可轉(zhuǎn)為內(nèi)源性物質(zhì)類號“R341.43”,如同時有副主題詞“/治療應(yīng)用”存在時,則主題詞“C肽”僅轉(zhuǎn)為分類號“R977.6”。

    4.2.2.5地理主題詞—地理復(fù)分號轉(zhuǎn)換規(guī)則:依據(jù)“地理主題詞—復(fù)分號對應(yīng)表”進(jìn)行地理主題詞到地理復(fù)分號的轉(zhuǎn)換。為了適應(yīng)計算機檢索的需求,不將地理復(fù)分號一一加到每個主類號后,而是將其設(shè)為單獨的類號,并以“RZ”作為地理復(fù)分類號的標(biāo)識,如地理主題詞“北京”轉(zhuǎn)為分類號“RZ21”。

    4.2.2.6實驗動物類號轉(zhuǎn)換規(guī)則:原則與地理主題詞—地理復(fù)分號轉(zhuǎn)換規(guī)則類似,即不一一將“-332”加到每個主類號后,而是將其設(shè)為單獨的類號“R-332”。

    5展望

    建成后的“統(tǒng)一的中國醫(yī)學(xué)語言系統(tǒng)”對醫(yī)學(xué)詞匯的規(guī)范、統(tǒng)一、標(biāo)準(zhǔn)化及科技信息的交流具有重要價值,可用于英漢醫(yī)學(xué)用語對譯式輔助翻譯系統(tǒng)和基于自然語言、中英文雙語功能的檢索軟件的開發(fā)、研制。該系統(tǒng)在提高文獻(xiàn)標(biāo)引質(zhì)量、處理速度、方便檢索和提高檢索效率,開發(fā)高水平數(shù)據(jù)庫及信息檢索系統(tǒng)等方面都具有重要意義。

    主站蜘蛛池模板: 久久福利一区二区| 嫩B人妻精品一区二区三区| 日本一区二区三区精品国产| 国产高清在线精品一区二区 | 国产乱码精品一区二区三区麻豆| 伊人色综合网一区二区三区| 亚洲视频在线一区| 中文字幕一区二区三区精华液| 中文字幕AV一区二区三区 | 无码人妻视频一区二区三区| 国产精品第一区第27页| 日本一区二区三区日本免费| 3D动漫精品一区二区三区| 国产成人一区二区三区在线观看| 爆乳熟妇一区二区三区霸乳| 在线观看精品一区| 正在播放国产一区| 美女视频一区二区三区| 国产av夜夜欢一区二区三区| 亚洲一区AV无码少妇电影| 日韩免费视频一区二区| 九九久久99综合一区二区| 成人精品视频一区二区三区不卡| 精品一区二区三区高清免费观看| 天码av无码一区二区三区四区| 狠狠爱无码一区二区三区| 日韩少妇无码一区二区三区| 国产无吗一区二区三区在线欢| 老湿机一区午夜精品免费福利| 精品一区二区三区免费毛片 | 99久久国产精品免费一区二区| 亚洲日韩精品一区二区三区无码| a级午夜毛片免费一区二区| 亚洲色大成网站www永久一区| 亚洲AV无码一区二区二三区软件 | 亚洲AV无码一区东京热久久| 日韩人妻精品一区二区三区视频| 精品无码成人片一区二区98| 国产怡春院无码一区二区| 一区二区不卡久久精品| 91久久精一区二区三区大全|