基于RFID与基因表达式编程的经济统计时序挖掘
摘要:为解决基因表达式编程(GEP)在符号回归、RFID分类及经济领域中对时序数据的挖掘速度和精度还不够的问题,提出了统计基因、统计染色体和统计时序一适应度的定义,并针对传统GEP经济时序模型进行了综合改进;提出了新颖的单变量时序和多变量时序挖掘算法,提高了GEP统计时序挖掘的速度和精度;实验表明,与传统GEP、单变量GEP时序算法相比,多变量GEP时序算法挖掘速度快,其预测精度比单变量时序算法高出5%以上。该算法同样适用于RFID以及其他经济系统中的时序数据挖掘。
关键词:经济统计时序预测模型;单变量时序;多变量时序;GEP函数挖掘
GEP经济统计时序挖掘算法涉及到时序基因、时序染色体和适应度函数等概念,作者提出的GEP时序挖掘模型是针对历年的经济统计时序数据,例如对成都市国民经济和社会发展总量与速度等经济指标时间序列进行预测。针对经济统计时序数据特点,在传统GEP概念的基础上¨。J,提出了Statisti.cal—C,ene、和Statistical—Fitness等新概念和技术。
1、问题描述
为了形式化描述GEP时间序列的统计指标序列数据对象,引入下列定义:
定义l GEP时序中的统计基因是一个5元组。
定义2统计时序一适应度。
2、统计数据的时序GEP算法
目前GEP与遗传算法和遗传编程一样,还存在未成熟收敛和收敛精度差的难题m 8l。为解决其精度差问题,对GEP时间序列模型进行了综合改进。
1)GEP浮点数系数编码在GEP算法中,对于数值编码采用了浮点数编码的方法。经过实际应用,发现浮点数编码能提高了GEP运算效率,适合精度较高应用。
2)改进了适应度函数设计在统计学中,R2是用于表示非线性模型的重要指标,用于评价两组数据符合程度的方法更多的是采用相关系数。
3)GEP多变量经济时序挖掘预测算法在统计系统中,其多个统计变量存在相互影响,因此提出了多维指标的时间序列预测式挖掘。
4)实验与性能分析1)数据来源原始数据来源于(2006成都统计年鉴》,选择了影响GDP增长的6个指标,建立合适的数学模型并预测2003,2004,2005年的GDP。计算得出平均拟合相对误差是0.1579%,平均预测相对误差是一0.09105%。得到模型的拟合/预测精度比单变量的GEP算法高于5%以上。
3、结论
根据经济领域中统计数据挖掘对预测国民经济GDP数据的特点,提出了新颖的经济统计时序GEP函数挖掘与预测方法和技术。主要贡献如下:针对多变量时间序列中各因素之间存在着一定的相关性,所观测到的时序在一定程度上反映的信息有所重叠,提出了基于GEP的.多变量时序预测模型。通过主成分分析方法对影响时间序列的诸多因素进行成分约简,提取影响因子大的几个综合指标作为输入变量,提高了GEP时序挖掘的效率和准确率。通过实验证明,以同一批真实宏观的国民经济统计年鉴GDP数据为研究对象,以后面年度GDP数据为预测目标,分别建立单变量预测模型和多变量预测模型,然后在不同的经济预测模型上进行仿真挖掘预测。通过实验结果和相关性能指标的对比分析,证明多变量GEP经济统计时序预测模型的拟合/预测要比单变量GEP算法的预测精度提高了5%以上。该方法同样适用于RFID应用系统的时序数据挖掘。
参考文献:
[1]贾晓斌,唐常杰,左劫,等.基于基因表达式编程的频繁函数集挖掘[J].计算机学报,2005,28(8):1247—1254
[2]元昌安,唐常杰,温远光,等.基于基因表达式编程的智能模型库系统的实现[J].四川大学学报:工程科学版,2005,37(3):99—104.
[3]黄晓冬,唐常杰,普东航,等.基于基因表达式编程的函数关系发现方法[J].计算机科学,2003,30(增刊):278—182.
[4]钟义啸,唐常杰,陈宇,等.提高基因表达式编程发现知识效率的回溯策略[J].四川大学学报:自然科学版,2006,43(2):299—304.(1):128—133.
[5]胡建军,唐常杰,彭京,等.快速跳出局部最优的VPS.GEP算法[J].四川大学学报:工程科学版,2007,39(1):128—133.
[6]彭京,唐常杰,李川,等.MGEP:基于多层染色体基因表达式编程的遗传进化算法[J].计算机学报,2005,28(9):1459—1466.
[7]刘齐宏,唐常杰,胡建军,等.多样性制导分段进化的基因表达式编程[J].四川大学学报:工程科学版,2006,38(6):108—113.
【基于RFID与基因表达式编程的经济统计时序挖掘】相关文章: