数据挖掘与知识发现 目前本方向人员所做工作的主要内容、特色和可能取得的突破: 主要研究内容: 研究工作集中在生物信息序列的识别与分析、半监督学习算法的研究及应用上。研究的具体内容包括:生物基因序列中的启动子识别、DNA序列集的相似性分析、混合约束下的半监督学习算法和主动式学习算法的设计与应用。 采用文本分类方法中的潜在语义分析模型对生物基因序列进行分析。将每一段功能序列都以词项向量方式进行表示,利用潜在语义分析方法进行降维。以支持向量机为分类器,得出未知序列中启动子的位置。预测准确率与文献结果进行比较,效果较好。 采用马尔可夫模型表示启动子序列的变化规律,基于EM方法对其中的转移概率等参数进行优化。采用半监督聚类算法,在较少的已知序列和大规模的未知序列混合集合中,对未知序列的类别进行判断,结果发表在《计算机研究与发展》上。 利用拉普拉斯矩阵的特征值的相对大小变化,确定DNA序列数据集的数据分布情况。能有效度量序列数据集之间的相似性,为训练数据的选择提供依据。 在部分类标号点和成对约束都存在的情况下,设计混合约束下的半监督聚类算法,提高先验信息的表达和利用能力,聚类效果好于对比算法。 研究特色: ⑴采用文本分析方法,完成对生物基因功能序列的识别。 ⑵半监督学习是目前机器学习的热点,将主动式学习和半监督学习算法相结合,在更少的训练样本下得出更好的聚类结果。 可能取得的突破: ⑴主动式半监督学习算法方面:找出大规模数据集的主动学习方法,有效解决少量样本标号和成对约束信息对提升聚类效果不明显的问题。 ⑵对互联网上舆情进行分析,发现热点问题,分析网上评论信息的倾向性,评价舆情安全。 预期可在本专业权威期刊发表2~4篇高质量研究论文,并在省级以上重要课题立项上取得突破。 团队负责人:
团队成员:
|
||||||||||||||||||||||||||||||