关联规则分析
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。
假设是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。
关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;
置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
在中医药领域,关联规则主要应用在中药-中药,中药-症状等的关联分析。
例:
关联分析表:
前项(LHS) | 后项(RHS) | 支持度/% | 置信度/% |
红花 | 威灵仙 | 82.61 | 100 |
茯苓 | 薏苡仁 | 91.30 | 85.71 |
茯苓 and 陈皮 | 鸡血藤 | 91.30 | 80.95 |
威灵仙 and 茯苓 and 陈皮 | 豨莶草 | 82.61 | 94.74 |
关联分析图: