基于数据场与3-D图形表示的DNA序列分析

郑卓赵佳玲李春

摘要：该文提出了DNA序列的一种3-D图形表示，并且针对此图形表示的非退化性给出了数学证明。然后计算所提3维图形表示的L/L矩阵的ALE指标，并给出了所提3维图形的图半径，从而对DNA序列进行数值刻画。结合物理学中重力场势函数的思想，构造了向量形式的数据对象间的势函数，进而以K-近邻算法为分类器，对208个RIG-I基因进行了分类识别。实验结果证明了该文所提的分类办法是有效的。

关键词：图形表示数值刻画数据场 RIG-I基因序列分析

中图分类号：Q78 文献标识码：A 文章编号：1672-3791（2020）07（c）-0027-03

DNA Sequence Analysis based on Data Field and 3-D Graphical Representation

ZHENG Zhuo1 ZHAO Jialing1 LI Chun2*

（1.School of Mathematics and Physics， Bohai University， Jinzhou， Liaoning Province， 121000 China; 2.College of Mathematics and Statistics， Hainan Normal University， Haikou， Hainan Province， 570000 China）

Abstract： This paper presents a 3-D graphical representation of the DNA sequence， and gives a mathematical proof for the non-degenerate nature of the graphical representation. Then calculate the ALE index of the L/L matrix represented by the proposed 3-dimensional graph， and give the graph radius of the proposed 3-dimensional graph， thereby numerically characterizing the DNA sequence. Combining the idea of the potential function of gravity field in physics， the potential function between data objects in the form of vectors is constructed， and then 208 RIG-I genes are classified and identified using the K-nearest neighbor algorithm as the classifier. The experimental results prove that the classification method proposed in this paper is effective.

Key Words： Graphical representation; Numerical characterization; Data field; RIG-i gene; Sequence analysis

随着现代测序技术的发展和生物序列数据的急剧积累，序列分析已成为生物信息学中的一项重要任务。图形表示为序列数据的定性和定量研究提供了强有力的工具。Gates[1]通过将x轴的正负方向赋予C和G，y轴正负方向赋予T和A，提出了DNA序列的一种2-D图形表示（见图1（a））。类似地，Nandy[2]提出了一种DNA序列的AG/CT图;Leong and Morgenthaler[2]则给出了AC/GT图（见图1）。上述图形表示在生命科学的很多研究领域都得到了应用，然而遗憾的是这些方法都存在严重退化现象。结合Nandy的2-D图，Guo等[3]通过将4个方向翘起一个小的角度进行改进，即进行如下的赋向：这里d取正整数（见图1（d））。文中证明了当d是偶数时，圈的最小长度为4d;当d是奇数时，圈的最小长度为2d。这表明Guo等的改进图形表示并未能完全避免退化现象。

受Guo等改进思想的启发，该文提出了DNA序列的一种3-D图形表示，证明了此种图形表示是非退化的，并给出了其在DNA序列分析中的应用。

1 方法

1.1 DNA序列3-D图形表示及其性质

在3维空间中，将DNA序列4种碱基A、G、C、T分别赋予4个方向向量（见图1（e））：

对任一给定的长度为n的DNA序列 1从左到右每次觀察一个碱基，遇到哪个碱基就按上述规则在当前位置沿着相应方向行走。这样，遍历n个碱基后就得到3维空间中n个点 1将各点依次连接，于是序列S便转化为一条3-D曲线。其中，点1 可以按照如下公式得到：

这里为碱基SK对应的向量的第i个分量。

性质1：该3-D图形表示是无圈的，即非退化。

证明：假设图中存在圈，设圈长为m，且用m、cm、m、tm别表示4种碱基A、C、G、T在该圈中出现的数目，则有：

即：

从而圈长即无圈。性质1得证。

1.2 DNA序列的数值刻画

对于每一个3-D图形表示来说，与Nandy 2-D图形表示类似，可提取其图半径我们规定相应定义如下：

一旦序列的图形表示被给出，文献中另一个进行数值刻画的途径是将图转化为矩阵，然后提取有关不变量[4，5]。该文考虑L/L矩阵，其矩阵元素定义如下：

其中，为图中第i， j两点间的欧式距离，表示它们的图论距离。L/L矩阵有一个很好的特点，就是其元素都被规范到[0，1]区间。在此基础上，该文选择我们提出的ALE指标作为不变量[6]：

其中：

上面我们是把4个方向向量依次赋予A、C、G、T而得到的3-D图形。不难发现，若将这4个方向向量依次赋予G、T、A、C，在对称的意义上，所得的图形是同一个。事实上，基于这样的4个方向向量，本质上有12种不同的3-D曲线与同一条DNA序列相对应。从每一个3-D曲线提取1个ALE指标和1个图半径。于是，一条DNA序列S便与一个24维向量相对应，其中有12个ALE指标，12个。为了方便，将这个24维向量记为特别的，在实际问题中为了剔除序列长度的背景影响，可进一步令

此外，被认为是DNA序列分析中一个重要的量[7]。其中a、c、g、t分别表示序列中碱基A、C、G、T出现的频率。从而，我们便将一条DNA序列S转化为一个带有ρ值的24维向量：

2 应用

2.1 数据场与数据对象间的势函数

场的概念最早是由英国物理学家法拉第于1837年提出，用来描述物质粒子间的非接触性相互作用[8]。参照物理场，如果我们把24维空间中的每一个点都视为一个粒子，便有数据场的概念，进而可定义数据对象X对Y（理解成在Y处）的势函数。参考重力场势函数，并借鉴简艳等[9]的思想，该文定义两个数据对象X、Y之间的势函数关系如下：

其中

显然，二者间的关系越密切，它们的势值越大。

2.2 RIG-I基因的分类识别

当机体感染病毒时，会诱导产生相应免疫反应。RIG-I （维甲酸诱导基因I）是细胞质中的模式识别受体，能够识别病毒复制产生的双链RNA和5三磷酸基团的单链RNA，并通过激活Ⅰ型干扰素来引发抗病毒免疫反应[10]。该文所使用的数据集包括208个RIG-I序列数据，其中147个是脊索动物，其余61个为无脊椎动物。所有数据均来自NCBI数据库。为了叙述方便，我们称数据集中147个脊索动物基因为正样本集，记作S+;称其余61个基因为负样本集，记作S-。

由于两个基因间的势函数值越大，二者间的关系越密切，所以可以根据势函数值大小确定“邻近”关系。该文在前述所构造的势函数的基础上，采用K近邻（K-NN）算法进行分类识别。我们从S+、S-中分别随机选取55%的樣本作为训练集，其余45%作为测试集（共93条序列）。实验中有两个待定参数：最近邻居数K和势函数中的。依次给定K=1，3，5，7，然后测试的不同取值。结果发现，当时，分类识别可达到较理想效果。我们进行了10次交互验证，实验结果见表1。从表1可以看出，每次的识别率（AC）在97%以上。10次实验的平均精度达到了98.51%。

参考文献

[1] 产院东.基于多核和众核平台的并行DNA序列比对算法[D].山东大学，2019.

[2] Dwaipayan Sen，Proyasha Roy，Ashesh Nandy，etal. Graphical representation methods： How well do they discriminate between homologous gene sequences？[J]. Chemical Phgsizs，2018（513）：156-164.

[3] GUO XF， RANDIC M， BASAK SC. A novle 2-D graphical representation of DNA sequences of low degeneracy[J].Chemical Physics Letters，2001， 350：106-112.

[4] 向其林.基于新型表达模式的序列特征获取方法及应用研究[D].湖南大学，2017.

[5] 崔颖，徐泽龙，李建中.基于综合DNA序列特征的支持向量机方法识别核小体定位[J].生物医学工程学杂志，2020，37（31）：1-6.

[6] LiChun，Lz Xueqm，Lin Yan-xia. Numerical Characterization of Protein Sequences based on the Generalized Chou's Pseudo Amino Acid Composition[J]. APPLied Scouces，2016，6（12）：406.

[7] Chun Li，Nadia Helal，Jun Wang. Recognition of protein coding genes in the yeast genome based on the relative-entropy of DNA[J].COmbunatorial Chemistry 8c Higt Throughput Screening，2006，9（1）： 49-54.

[8] 仲茜，李涓子，唐杰，等.基于数据场的大规模本体映射[J].计算机学报，2010，33（6）：955-965.

[9] 简艳，贾洪勇.一种基于数据场的K-均值算法[J].计算机应用研究，2010，27（12）：4498-4501.

[10] 程玉强.鸡MDA5-STING-IFN-β抗病毒天然免疫通路的发现及其信号转导机制[D].上海交通大学，2016.

[11] 费文超.DNA序列的图形表示及其应用[D].渤海大学大学，2016.

[12] 王科.基于图形表示的DNA序列相似性分析[D].河北科技大学，2016.

基于数据场与3-D图形表示的DNA序列分析

科技资讯相关栏目本月热门文章