- 相关推荐
谈数据挖掘在中医学术流派研究中的应用
摘要:在中医学术流派研究中存在着大量的数据,利用数据挖掘技术可以获得隐藏在这些数据中的有用信息。文章结合赵炳南学术流派研究的实例,简要阐述了利用数据挖掘进行中医学术流派研究的可行性和先进性,并提出了数据挖掘的实施步骤和具体的工具、算法。关键词: 中医学术流派 数据挖掘 银屑病
自古以来,中医学术流派林立,既互相争鸣,又互相渗透、取长补短。它们的发展和研究促使中医药基础理论逐渐得到了拓展和深化,促使中医药临床实践技术逐渐得到了进步和提升。可以说,中医学术流派的发展和研究促进了中医药事业的发展[1]。
中医学术流派研究的前提是要对其进行科学划分并确定研究内容。随着科学技术进步和中医学术研究的日益广泛深入,中医学术流派的划分方法不断进步、完善。徐江雁等[2]提出的核心分类模式既涵纳纵向的学术思想传承,又兼容横向的学术思想渗透,有一定的先进性,值得借鉴。我们在“中医皮肤科赵炳南学术流派及其传承研究”的课题中,从以下两方面划分学派和确定研究内容:其一,以创新的学术思想为核心:通过对中医皮肤科赵炳南学术流派学术渊源、基础理论、特色经验、技术方法等的系统研究,确立中医皮肤科赵炳南学术流派学术思想体系;其二,以开放的医家群及其著述为核质:不论是赵炳南门户师承所得,还是博采众家之说,也不论是公开发表的论文、论著、会议交流的文字材料,科研成果、发明、专利,还是口述史料, 只要是中医皮肤科赵炳南学术流派有关方面的内容,皆囊括在其核质之中。
针对上述研究内容,按照以往的研究方法,可以以人、以疾病、以方药或以思维方法为线索进行文献整理、分析和总结,或者以临床流行病学的方法进行临床观察和总结[3~7]。这些方法在一定程度上能总结规律,指导临床实践,但存在以下不足之处:①对学术思想和诊疗经验缺乏系统地有机关联研究和比较研究;②难以反映疾病诊疗过程中中医辨证的多维时空和非线性特征;③缺乏符合中医特点的多因素信息处理技术,可能致使研究结果产生混乱和差错;④难以真正反映中医学术流派的内涵和精髓。鉴于以往研究存在的问题,我们引进了数据挖掘技术进行中医学术流派研究。
1 数据挖掘及其在中医药领域的应用
1.1 数据挖掘概述数据挖掘(DM:DataMining)就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[8]。它是一门交叉学科,汇聚了数据库、人工智能、统计学、可视化,并行计算等不同学科和领域。其中的人工智能能模仿人类对非线性、不完全、不精确和不确定信息的智能处理,具有良好的容错性、鲁棒性和高精度等综合技术优势[9,10]。人工智能方法主要包括人工神经网络、模糊系统、进化计算、粗糙集理论、支持向量机(SVM)等。针对不同的挖掘目标,往往要将几种方法综合起来应用,以发挥各自的技术优势。此外,将人工智能和其他数据挖掘方法如聚类分析、决策树、关联规则等优化组合应用,更能发挥数据挖掘技术解决复杂问题的能力。
1.2 数据挖掘在中医药领域的应用数据挖掘技术能针对医学数据多态性、不完整性、时间性和冗余性的特征实施合理的数据处理和知识提取[11]。它应用于中医药领域主要表现在以下几方面[12~16]:
1.2.1 新药开发研究以一种新的、建立在充分利用几千年积累下来的丰富经验及现代科学技术所提供的信息基础上的模式进行研究。
1.2.2 复方配伍规律和方证相应研究数据挖掘技术可以在一定程度上发现和认识临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。
1.2.3 中医药信息化研究对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘来实现。
1.2.4 中医药专家系统研究对中医药专家“只可意会,不可言传”的把握诊治疾病规律的定性描述、模糊概念,采用数据挖掘技术进行多层面智能分析,在一定程度上可将它们以可理解的规则或模式表达出来,从而大大丰富专家系统的知识库。
1.2.5 中医药文献研究数据挖掘技术应用于文献研究可以提高文献研究的水平,提高文献利用的效率,进而能提高中医药科研工作的效率。
2 数据挖掘在中医学术流派研究中的应用
以“中医皮肤科赵炳南学术流派及其传承研究”中的银屑病数据挖掘为例,简要说明挖掘的步骤和挖掘的工具及算法。
2.1 实施数据挖掘的步骤
根据全球首个数据挖掘行业通用的模型标准(CRISP-DM),银屑病数据挖掘过程可分成6个阶段。
2.1.1 理解问题明确和细化研究目标。
2.1.2 理解数据熟悉所采集的有关银屑病数据的类型和存在形式,在此基础上初步进行数据质量鉴定,并建立数据库。
2.1.3 准备数据有关银屑病的数据中存在着大量不完整的、冗余的和不一致的数据。在进行数据挖掘时,首先要对其进行处理。处理过程包括数据抽取、清洗、转换和加载。
2.1.4 建立模型针对研究目标,利用已知的数据和知识建立分析模型,并将该模型有效地应用到未知的数据或相似情况中测试并修正模型,如此反复进行以得到最优模型。
2.1.5 方案评估在模型最后付诸实施以前,彻底地对模型进行评估,再回顾构造该模型的步骤,以确定该模型真正能够达到预定的挖掘目标。
2.1.6 方案实施基于以上5方面的工作,采用相应的数据挖掘工具和算法进行多次反复、多次调整、不断修订完善的数据挖掘。
2.2 数据挖掘的工具和算法
2.2.1 银屑病中医辨证规范研究在银屑病数据库中,存在着许多不确定、不完整、不精确的辨证相关信息,首先利用粗糙集对其进行约简,剔除模糊和歧义信息,保留与挖掘有关的重要症状属性。在此基础上使用关联规则方法挖掘证的分布,证的构成比,从而得到静态关联度。采用FP-growth或加权的Apriori算法找出频繁项目集,确定关联规则。在关联分析的基础上进行相似聚类,通过给定阈值,发现症状的构成以及症状的贡献率,得到症状所属证的聚类。通过遗传算法搜索和K-means局部优化相结合,按照最近基因匹配的交叉算子,在交叉过程中不断产生新个体,保证群体的多样性,减少了K-means算法的早熟现象,解决全局最优的问题。K-means局部聚类可以发现特异症状,利用孤立点算法对其进行特殊处理。所有症状聚类后,会得到N个聚类。因为数据挖掘的结果不带有主观因素,所以这些聚类需要中医皮科专家根据临床实际重新命名。在证候分类的基础上,利用时间序列模式挖掘方法,分析病程中各证基本演变趋势。
2.2.2 银屑病中西医病、证、症及客观检查指标的相关性研究在银屑病数据库中,进行西
【谈数据挖掘在中医学术流派研究中的应用】相关文章:
谈数据挖掘技术在电子商务中的应用03-21
数据挖掘技术在中医亚健康学中应用的思考12-01
数据挖掘在CRM中的应用分析03-22
数据挖掘技术在CRM中的应用03-22
Web数据挖掘在电子商务中的应用研究03-07
数据挖掘技术在企业知识管理中的应用03-19
Web数据挖掘在电子商务中的应用.03-21
客户关系管理中数据挖掘的应用03-08