首页范文学生文化基本特征十篇学生文化基本特征十篇

学生文化基本特征十篇

发布时间:2024-04-25 19:52:02

学生文化基本特征篇1

关键词:计算机应用;中文信息处理;语义关系抽取;支持向量机;组合特征

中图分类号:tp391 文献标识码;a

1 引言

信息抽取就是从文本中抽取特定的事实信息。在大多数的信息抽取系统中,不但要识别文本中的实体,而且还要根据上下文确定和抽取这些实体之间的各种语义关系,即关系抽取。关系抽取已经日益成为自然语言处理研究的一个热门课题。和其他自然语言处理问题的解决方法一样,人们最初也试图使用基于知识库的方法来进行关系抽取。但这种方法需要专家构建大规模的知识库,既费时又费力。因此现在人们转向基于统计的机器学习方法。目前在关系抽取中所使用的机器学习方法一般分两类:基于特征向量的学习方法和基于核函数的学习方法。近期的机器学习方法主要基于特征向量,并取得了较好的成效。

在关系抽取中,典型的基于特征向量的方法包括最大熵模型(maxent)和支持向量机(SVm)。但是基于特征向量的关系抽取的研究重点不在于机器学习方法本身,而在于如何获取各种有效的词法、语法、语义等特征,并把它们有效地集成起来,从而产生描述实体对象关系的各种局部和简单的全局特征。Zhou等系统地研究了如何把包含基本词组块在内的各种特征广泛结合起来,探讨了各种语言特征对关系抽取的贡献,在aCeRDC2003基准数据上5个关系大类和24个子类的抽取中F指数分别达到了68.0和55.5。wang等则又进一步加入了句子的简化谓词语义属性(SQLF),在aCeRDC2004基准数据的7个关系大类和23个关系小类的抽取中F指数分别达到了65.2和56.8。

与基于特征向量的方法不同,基于核函数的方法不需要构造固有的特征向量空间。在关系抽取中,基于核函数的方法直接以结构树为处理对象来计算它们之间的相似度。Zhang等通过聚类算法,探讨了基于树核函数的非指导性关系抽取。虽然核函数可以充分搜索长距离特征和结构化特征,但也导致了基于核函数的方法有一个致命的缺点,即训练和预测的速度太慢,不适于处理大量的数据。目前基于特征的语义关系抽取在选取特征时,对于词法、句法、语义等各部分的特征单独选取,没有考虑到各个部分特征之间的联系,本文并未通过发掘新的特征来提高语义关系抽取的性能,而是在各种基本特征内部以及它们之间对其进行有效的组合,从而产生出很多组合特征,实验证明这些组合特征对提高语义关系抽取性能作出了很大的贡献。

文章第2部分介绍了基于特征向量的关系抽取的基本概念及方法。在第3部分中,介绍了语义关系抽取中的特征选取以及特征之间的组合。第4部分给出了实验的结果以及对结果的分析。最后一部分是本文的结论及展望。

2 基于特征向量的关系抽取

在本文中,关系抽取问题被转化为一个使用机器学习方法的分类问题,和大多数需要人工指导的机器学习方法一样,本文所采取的基于特征向量的关系抽取需要一个较大规模的标注语料库,在本文中我们使用的是aCe2004的英文标注语料库。首先我们将经过标注的命名实体对转化为一个特征的集合:f1,f2,f3…,fn,然后将其映射到一个n维的特征向量空间。在训练时,分类器学习算法使用标注的关系实例来学习得到一个分类器;测试时,又利用学习所得的分类器判断待测试的关系实例所属的关系类别。我们可以将关系抽取的任务表示为如下公式:(Cpre,e1,Cmid,e2,Cpst)r,e1,e2分别代表实体1和实体2,Cpre,Cmid,Cpst分别代表实体1之前实体对中间以及实体2之后的上下文,r代表语义关系类别。

一般的分类器学习算法有最大熵(maxent)和支持向量机(SVm)。研究显示,支持向量机在性能上优于最大熵。在本文中,我们使用的是二元分类学习器SVmlight。SVm是一种基于统计学习理论驱动的有指导的机器学习方法。基于统计学习理论中的结构风险最小化原则,SVm通过寻找一个最佳分类超平面将训练数据分成两类,然后利用从训练集中挑出有效的实例作为支持矢量(SVC)作为决策的依据。由于SVm是一个二元分类器,为了使它能适合我们的多元分类任务,比如说aCeRDC任务,我们需要将其扩展成一个多元分类器,本文中我们采取“一对多”的分类方法。与“两两”分类方法相比,对于K类分类任务,“一对多”的方法只需要构造K个二元分类器,而“两两”的方法则需要构造K×(K-1)/2个二元分类器。

3 关系抽取征的选取及组合

由于实体间的语义关系表达的复杂性和可变性,使得关系抽取成为信息抽取中的一个薄弱环节。由于语法结构在关系识别中起着重要的作用,而语法结构的多样性和复杂性使我们较难提取有效的语法特征,因此关系抽取的成功在于能否有效地集成各种有效的语言特征,包括结构化特征。目前关系抽取研究的最大挑战在于训练数据不足,而且各语义关系的分布很不平衡,而关系小类的问题尤为突出。对于基于特征向量的关系抽取,特征主要选择词法、句法、语义以及结构化信息,词法特征的提取相对简单,而句法、语义以及结构化特征的提取需要对原始语料进行句法分析、短语块标注等预处理工作,受制于这些预处理工作的性能,目前我们无法提取出更多准确而有效的新特征。

本文利用现有的基本语言学特征,通过对各部分特征进行合理的组合,主要有三种组合:词法特征内部的组合;语义特征内部的组合;句法特征和词法特征的组合,并使用机器学习的方法进行训练和预测。本文以aCe2004标注语料库为实验对象,具体阐述如何提取实体之间的特征,以及如何将这些特征有效地集成起来。

3.1 实体词语及其上下文特征

词法特征代表了命名实体对最基本的特征,也是目前我们能够提取的最简单而最准确的特征。在词语及其上下文的特征提取中,上下文窗口不宜设置得过大,否则会引入噪声,导致关系抽取性能的下降,本文中将上下文窗口设为2-3-2,通过对基本词法特征的组合形成组合特征,如图1所示。

基本特征:wm1:实体1的提及(mention);Hm1:实体1的核心词;wm2:实体2的提及;Hm2:实体2的核心词;wBF:实体间第一个词;wBL:实体间最后一个单词;wBo:实体间除了第一个和第二个其他的单词;Bm1F:实体1前的第一个单词;Bm1L:实体1前的第二个单词;am2F:实体2后的第一个单词;am2L:实体2后的第二个单词。

组合特征:Hm12:Hm1+Hm2;wB2L:wBF+wBL;Bwm1:Bm1F+Bm1L;awm2:am2F+am2L。

3.2 实体类别及其组合特征

实体类别特征属于浅层语义特征,目前的实验表明单独加入实体的大类或者子类特征对于关系抽取的作用并不明显,但是通过对这些基本语义特征进行组合形成了更丰富的语义特征。因此本文中提取的实体类别特征主要是组合特征。

et1et2:实体1实体2所属的大类(entitytype)及Gpe角色(Gpe-role)的组合;

eSt1eSt2:实体1实体2所属的大类、子类(entitysubtype)以及Gpe角色的组合;

et1et2X:如果实体对之间存在其他实体,则将其大类子类特征与etiet2进行组合;

eC1eC2:实体1实体2参考类别(entityclass)的组合。

3.3 实体参照方式

实体参照方式(mentionlevel)和参照类别(mentiontype)属于句法信息,对于每一个实体,我们会记录它所有的提及(mention)。而实体提及往往是嵌套的,即它们可能会包含其他实体的提及。实体参照方式和参照类别正是反映这一类信息的。

mL1mL2:实体1实体2参照方式的组合;

mSL1mSL2:实体1实体2参照方式及参照类别的组合。

3.4 交叠特征

实体的交叠特征主要反映实体之间的位置关系,属于结构化信息,实体对之间位置不仅是前后关系,还可能出现包含关系。但是,由于这些交叠特征单独使用并不能起到很好的效果,所以它们必须和别的特征组合起来使用,比如说和实体的类别进行组合。

基本特征:#mB:实体之间其他提及(men

don)的数目,0表示没有;

#wB:实体间词语的数目,-1表示实体之间是包含关系;

组合特征:opnpm1:etlet2+<+Hm1;opnpm2:etlet2+>+Hml;(“<”表示实体1包含实体2,“>”表示实体2包含实体1);opnp:etiet2+能体现实体1实体2之间从属关系的名词;opo:etlet2+。实体1实体2上下文中的情态动词,Be动词;oppp:etlet2+实体1之前的修饰语;opVp:etlet2+实体1实体2之间的动词成分。

3.5 基本短语块及其组合特征

基本短语块特征的提取与词法特征类似,在提取出实体对上下文中的基本短语块后,再进行组合,形成组合特征。

基本特征:CpF:实体之间第一个短语块;CpL:实体之间最后一个短语块:Cpo:实体之间其他的短语块;wm1、wm2:与词语特征中相同;CpnULL:实体之间不存在短语块;BCiF:实体1前第一个短语块;BCiL:实体1前最后一个短语块;aC2F:实体2后第一个短语块;aC2L:实体2之后第二个短语块。

组合特征:CpFL:CpF+CpL;BC1FL:BC1F+BC1L;aC2FL:aC2F+aC2L。具体组合见图2。

4 实验结果及分析

4.1 实验步骤及评测指标

(1)本文使用了aCe2004评测的英文标注语料库作为实验数据进行关系抽取实验。该语料库包含了从广播、新闻、报纸等收集的317篇文章。本文中的关系抽取仅考虑在同一个句子内的命名实体对。表1列出了所有实例的统计信息。包含7个大类和23个子类。

(2)数据预处理阶段主要分以下几个步骤:(图3是一个具体的特征抽取实例)

1、将aCe2004语料文件转化为XmL格式;抽取出已标注的命名实体以及实体关系实例并进行编号。

2、对文本进行语句切分,使用Charniak对语句进行句法分析产生句法树。

3、使用chunklink.p1工具将句法树转化为短语块序列,然后再从中抽取出各种基本特征并进行组合。

在图3的实例中,“jimSCiutto(实体1-peR),abcnews(实体2-oRG),postvilleiowa。”中实体1和实体2之间存在雇佣(emp-oRG)关系。

(3)使用SVmlight6.01进行训练和分类,在进行关系探测,大类抽取,子类抽取时参数c分别设为0.078,0.15,0.203。

(4)对于语义关系抽取的性能评测,本文中使用准确率(precision),召回率(Recall),F值(F-score)作为评测指标。设t为测试数据中实例总数,S为识别出的正例数目,C为正确识别出的正例数目。

4.2 实验结果及分析

利用本文中抽取出的基本特征及组合特征,使用SVmlight进行训练和预测,在关系探测,关系大类抽取,关系子类抽取的最终结果及与wang等的比较如表2所示。表3、表4分别表示了本文系统以及wang等的系统的各个部分特征对语义关系抽取所作的贡献。

由表2的比较可以发现,通过加入组合特征,本文在关系探测、大类抽取、子类抽取任务中的性能均比未加入组合特征的wang等的高。在本文的实验中,加入基本特征后的子类抽取的F值为57.07,而加入了组合特征后F值提高了近2.5个百分点,说明本文所提取的组合特征能够显著地提高语义关系抽取的性能。由表3和表4比较看出,在加入了词法特征后,本文的关系抽取的F值达到了43.29,而wang等的F值为33.38,词法组合特征的加入使得本文的系统性能有较大的提高。实体类型特征的加入使得F值提高了13个百分点,而在wang等的系统中基本实体类别特征的加入使得F值也提高了近13个百分点,因此实体类别特征对于语义关系抽取的影响较大,而本文中实体类别组合特征的加入对语义关系抽取的影响并不显著。引用层次特征的加入使得F值提高了2.3个百分点,而交叠信息和短语块特征分别使得F值提高了0.5个百分点。

实验结果表明句法特征的加入没有显著提高系统的性能,这是因为命名实体对的句法结构比较相似,多为复合名词词组,而词法特征及表征实体语义的实体类别特征则因为具有较高的区分度,因此对语义关系抽取的性能提高比较有效。实验表明本文中所提取的词法组合特征非常有效,这是因为词法特征具有较好的区分度,能够很好地表征命名实体对,因此词法特征的提取在整个特征提取过程中占有很重要的位置,直接影响了关系抽取的性能好坏。而其他类型的组合特征加入并未产生显著的效果,这是因为这些基本特征已经包含了比较丰富的信息,而组合特征是对这些基本特征进行组合,因此包含了很多冗余信息,不具有较好的区分度。

与Zhou等在aCe2003中的实验结果不同的是,我们发现在aCe2004中实体类别特征对关系抽取性能的贡献最大,而在aCe2003中基本短语块特征比实体类别特征更加有效,这是因为在aCe2003数据中,实体类型特征仅包含实体的大类及子类信息,而在aCe2004数据中,实体类型信息中不但包含类别信息,还包含了实体的参考类别、实体的Gpe角色等其他信息,因此具有更高的区分度。Zhou等和wang等的实验结果均显示,解析树、依存树等结构化信息的加入对关系抽取性能的提高并不明显,而从理论上来说语法结构信息在关系抽取中有着重要的作用。导致以上情况的原因可能是:一方面,在aCe的关系抽取任务中,其所定义的大多数关系实例中两个命名实体之间距离较短,而对于这种短距离的关系实例,我们可以通过加入一些简单的词语信息、类别信息就可以进行有效的关系抽取,而结构化信息对于长距离的关系实例的抽取的效果更加明显。另一方面,在我们进行语法结构分析时所提取出的解析树和依存树信息还比较简单,而且准确性也不高,它们不能很好地表征语法结构信息,因此在关系抽取中的作用并不大。为了使结构化信息在语义关系抽取中发挥更大的作用,我们必须深入挖掘隐藏在完全句法树中的各种有效的结构化特征,并尝试将语义信息与结构化信息结合。

5 结束语

学生文化基本特征篇2

那么,怎样运用归纳法总结历史阶段性特征呢?下面,笔者结合教学实践谈谈自己的看法。在运用归纳法总结历史阶段性特征时,需要做好以下三步:

第一步,分类梳理史实。

这是归纳的基础。因为史实浩如烟海,只有依据学习目的将具体史实进行归类整理,才可能进行第一步的研究。在总结历史阶段性特征时,归类整理的方法是,把同一时期、相同性质的重要史实排列在一起,或者按史实的基本分类(如政治类、经济类、思想文化类等)将同类重要史实排列在一起。例如,在总结春秋战国时期的阶段性特征时,把春秋时期诸侯争霸、王室衰微、分封制崩溃等史实与战国时期诸侯争霸、各国变法运动等史实归于政治类;把铁器牛耕的使用推广、井田制的瓦解、封建土地所有制的确立、经济的发展等史实归于经济类;把春秋时期的思想文化和战国时期的“百家争鸣”等史实归于思想文化类。

第二步,分析得出每一类史实的本质特点。

任何一类史实或一个史实都有若干特点,为了最终得出规律性的认识,就要找出其本质的内容,分析得出其本质特点。仍以总结春秋战国时期的阶段性特征为例,在分类梳理的基础上,可以根据经济上铁器、牛耕的使用和推广,井田制的瓦解,私田的出现,各国通过变法将封建土地私有制合法化进而推动经济繁荣发展等史实,总结出这一时期的经济特征:封建土地所有制代替了井田制,经济基础发生了根本性的变化,从而促进了经济的发展;可以根据政治上春秋时期王室衰微、战国时期各诸侯国进行变法确立封建制度等史实,总结出这一时期的政治特征:奴隶制瓦解,封建统治确立,上层建筑发生了根本性的变化;思想文化上从百家争鸣到法家思想备受统治者推崇的变化,反映出这一时期思想文化的变化和政治上中央集权的不断加强是密切相关的。

第三步,概括不同类史实的共同本质,或者通过分析不同类史实的内在联系,揭示历史阶段性特征或发展规律。

学生文化基本特征篇3

行人再识别指的是在非重叠监控视频中,检索某个监控视频中出现的目标是否出现在其它的监控视频中.最近几年,行人再识别问题引起了广大科研人员的兴趣与研究.监控视频中的目标图像分辨率低、场景中存在着光照变化、视角变化、行人姿态变化以及摄像机自身属性的问题,导致同一目标在不同的监控视频中外观区别很大,使得行人再识别问题遇到了很大的挑战。为了有效的解决这些挑战,广大的研究者提出了很多解决方法.目前的行人再识别算法可以简单概括为四种:直接法、基于深度学习的方法、显著性学习的方法和间接法.

直接法利用视觉特征对行人建立一个鲁棒性和区分性的表示,不需要通过学习直接利用行人特征然后根据传统的相似性度量算法(欧式距离、巴氏距离等等)来度量行人之间的相似度.文献[1]首次提出了利用直方图特征来表征目标并通过度量直方图的相似度来识别不同的目标.文献[2]将行人图像粗略分为头部、上半身和下半身3部分,然后串联每一部分的颜色直方图对行人描述.文献[3]采用分割的技术提取人的前景,并利用行人区域的对称性和非对称性将人的前景划分成不同的区域.对于每个区域,提取带权重的颜色直方图特征、极大稳定颜色区域(maximallystablecolorregions)特征和重复度高的结构区域(recurrenthighlystructuredpatches)特征描述它们.文献[4]提出了一种结合gabor特征和协方差矩阵描述的BiCov描述子来对行人描述.文献[5]采用图案结构(pictorialstruc-ture)算法定位图像中人的各个部件所在的区域.对于每个部件的区域,提取与文献[3]类似的颜色直方图特征、极大稳定颜色区域特征来描述它们.文献[6]利用lbp特征和21个滤波器特征(8个gabor滤波器和13个schmid滤波器)来描述图像中的行人.文献[7]通过共生矩阵对行人的形状和外形特征进行描述.虽然直接法的算法模型简单,但由于在光照变化、视角变化以及姿态变化等情况下,同一个人的外观变化往往很大,很难提取出鲁棒性和区分性的特征描述.因此在光照变化、视角变化以及姿态变化等情况下,直接法的效果很差.

深度学来在计算机视觉中得到了广泛的应用,因此不少学者研究并提出了基于深度学习的行人再识别算法.文献[8]Liwei等人提出了一种六层的Fpnn神经网络,它能有效解决行人再识别中出现的光照变化、姿态变化、遮挡和背景粘连等问题,从而提高了识别率.文献[9]ahmed等人提出了一种深层卷积结构能够同时自动学习特征和相应的相似性测度函数.但基于深度学习的行人再识别算法需要非常大的训练数据库,导致训练时间长,此外还需要针对特定问题搭建相应的模型,因此不利于方法的推广.同时,深度学习方法中还存在调置参数缺乏理论性指导,具有较大主观性的问题.基于显著性学习的行人再识别方法近年来也受到研究者的广泛兴趣.人们可以通过行人的一些显著信息来识别行人,但传统的方法在比较两张图片的相似性的时候,往往忽略了行人身上的显著性特征.对此,文献[10]赵瑞等人提出了一种通过学习行人图像的显著性信息来度量两张行人图像的相似性的方法.但显著性学习的行人再识别算法在行人姿态变化的情况下,显著性区域会出现偏移或者消失,导致识别效果较差.间接法主要是学习得到一个分类器或一个排序模型.间接法代表性的算法有距离测度学习、支持向量机、迁移学习和流形排序算法.距离测度学习算法作为间接法中的一种,最近几年在行人再识别中得到了广泛的应用.本文提出的算法也是基于距离测度学习,所以下面着重介绍基于距离测度学习的行人再识别算法.

与手动设计特征的直接法不同,距离测度学习方法是一种利用机器学习的算法得出两张行人图像的相似度度量函数,使相关的行人图像对的相似度尽可能高,不相关的行人图像对的相似度尽可能低的方法.代表性的测度学习算法有文献[11]郑伟诗等人把行人再识别问题当成距离学习问题,提出了一种基于概率相对距离的行人匹配模型,文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量两张行人图像的相似度,以及文献中提出的相应测度学习算法.距离测度算法是将原始特征空间投影到另一个更具区分性的特征空间.与其它的算法相比,距离测度学习算法具有更好的效果.距离测度学习算法即使只使用简单的颜色直方图作为特征,算法的性能往往优于其它算法.文献[12]提出了一种基于统计推断的方法学习测度矩阵来度量行人对的相似度,但作者直接在原始特征空间训练得到测度矩阵,进而得到样本之间的相似性函数.原始特征空间的线性不可分性导致通过原始特征空间直接训练得到的测度矩阵不能很好的表征样本之间的相似性和差异性.本文提出基于核学习的方法,首先通过相应的核函数将原始特征空间投影到非线性空间,然后在非线性空间中学习得到相应的测度矩阵.投影后的非线性特征空间具有很好的可分性,这样学习得到的测度矩阵能准确的表征样本之间的相似性和差异性.另外,基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法,学习得到一个测度矩阵.然而这种特征融合往往忽略了不同属性特征之间的差别,这样学习得到的测度矩阵不能准确的表征样本之间的相似性与差异性.对此,本文提出在不同的特征空间中学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表征样本之间的相似性.本文算法在公共实验数据集上的实验效果优于目前主流的行人再识别算法,尤其是第一匹配率(Rank1).本文其余章节的组织安排如下.第1节介绍本文提出的行人再识别算法.第2节介绍本文算法在公共数据集上的实验.第三节总结全文以及展望.

1基于多特征子空间与核学习的行人再识别算法

1.1基于核学习的相似度量函数的学习文献[12]中提出了一种KiSSme的算法,文中指出,从统计学角度考虑,一对有序行人对(i,j)的相似度可以表示为式。文献[12]中提出的算法是直接在原始线性特征空间中训练得到测度矩阵,进而得到表示样本之间相似性的相似度函数.由于原始特征空间的线性不可分,上述方法得到的测度矩阵不能准确表达样本之间的相似性和差异性,导致识别效果差.本文提出基于核学习的算法首先通过相应的核函数将原始特征空间投影到更易区分的非线性空间,然后在非线性空间中训练得到测度矩阵m.这样得到的测度矩阵具m有很好的区分性,能使同类样本之间的距离尽可能小,异类样本之间的距离尽可能大.核学习的主要思想是将原始线性特征空间投影到区分性好的非线性空间.原始特征空间中的特征xxi通过函数Φ投影到非线性空间,则非线性空间的特征表示为Φ(xxi).非线性映射函数一般是隐性函数,则很难得到显示表达式,可以利用核函数求解特征空间中样本点的内积来解决。

1.2基于多特征子空间的测度学习基于测度学习的行人再识别算法一般是把多特征融合并建立特征模型,然后基于相应的测度学习算法得到测度矩阵.这种方法忽略了不同属性特征之间的差别,导致学习得到的测度矩阵不能准确的体现样本之间的相似性与差异性.对此,本文提出对于不同的特征空间单独学习相应的测度矩阵,进而得到表示不同特征空间的相似性函数,最后根据不同的权重结合这些相似性函数来表示样本之间的相似性.

1.3行人图像的特征表示本文采用颜色特征和LBp特征对行人目标进行描述,生成两种特征子空间.颜色空间有很多种,用不同的色彩空间描述一图片的效果是不同的.依据文献[20]和文献[21],本文采用的颜色特征从RGS、HSV、YCbCr和CieLab4种颜色空间中提取.RGS空间的定义为R=R/(R+G+B)、G=G/(R+G+B)、S=(R+G+B)/3.为了获取具有鲁棒性和区分性的颜色特征表示,本文将上述四种颜色特征空间融合.融合后的颜色特征描述对于光照变化的场景具有良好的鲁棒性.图1给出了一张被平均分成6个水平条带的行人图像,对于每个水平条带的每种颜色空间的每个通道,提取16维的颜色直方图特征,将所有的颜色直方图特征串联形成行人图像的颜色特征,从而得到行人图像颜色特征的维数为1152维(4*6*3*16).原始特征空间的1152维特征经过核函数投影后的特征维度较高且大部分信息都是冗余的.因此实验中利用pCa将核空间中的特征维数降到保持大于90%的能量。为了更好的描述图像的局部信息,本文中提取的局部特征来自于LBp等价模式中邻域点数为8半径为1和邻域点数为16半径为2两种模式的特征.上面两种LBp等价模式的维度分别为59维和243维.类似于颜色特征的提取,一张行人图像被平均分成6个水平条带,对于每个水平条带提取LBp两种模式的特征,将所有的LBp特征串联形成行人图像的局部特征,从而得到行人图像局部特征的维数为1812维((59+243)*6).同理,原始特征空间的1812维特征经过核函数投影后的特征维度同样较高并且大部分信息也都是冗余的.因此实验中同样利用pCa将核空间的特征维度降到保持90%以上的能量.

1.4本文算法的具体操作步骤利用步骤3得到不同核空间中的测度矩阵计算样本在不同核空间的相似度,然后将样本在不同核空间中的相似度按照一定的权值结合来表示样本之间的相似性.

2实验测试与结果

本节首先介绍实验中所使用的测试数据和算法性能的评测准则,其次介绍本文算法在不同公共实验集上与已有的行人再识别算法的性能比较,然后在不同公共实验集上对比核映射前后的算法性能,最后在不同公共实验集上分析权值不同时对算法性能的影响.文中所有的实验是基于vs2010+opencv2.4.9实现的,实验平台是24G内存的intel(R)Xeon(R)CpUe5506@2.13GHz(2处理器)pC台式机.

2.1测试数据和算法性能的评测准则为了与已有算法公正比较,实验中,采用先前工作普遍采用的评价框架.如文献[22]所述,随机选择p对行人图像对作为测试集,余下的行人图像对作为训练集.测试集由查询集和行人图像库两部分组成.每对行人图像,随机选择一张图像并入查询集,另一张则并入行人图像库.当给定一个行人再识别算法,衡量该算法在行人图像库中搜索待查询行人的能力来评测此算法的性能.为了测试算法在只有少量的训练样本时的性能,p分别取316,432,532进行实验.p取值越大,则测试样本越多(匹配越困难),训练样本越少(训练越困难).对于每组实验,以上产生测试集和训练集的过程重复10次,10次实验结果的平均值作为本组实验的结果.已有的行人再识别算法大部分采用累积匹配特性(CumulativematchCharacteristic,CmC)曲线评价算法性能.给定一个查询集和行人图像库,累积匹配特征曲线描述的是在行人图像库中搜索待查询的行人,前r个搜索结果中找到待查询人的比率.第1匹配率(r=1)很重要,因为它表示的是真正的识别能力.但是当r取值很小时,第r匹配率也很有现实意义.因为在实际应用中,反馈的前r个搜索结果中,可以通过人眼判断找到查询目标.

2.2不同公共实验集上实验对比本文算法选择在VipeR[23]数据集、iLiDS[24]数据集、etHZ[25]数据集和CUHK01[26]数据集上进行实验.VipeR数据集中相关行人对来自两个不同的摄像机.相关行人对的外观由于姿态、视角、光照和背景的变化而差异大.iLiDS数据集包含119个行人的476张图像,每个行人的图像从两张到八张不等.iLiDS数据集是从机场收集的,数据集有严重遮挡和光照变化的问题.etHZ数据集包含146个行人的8555张图像.数据集中的图像来自移动摄像机拍摄的三个视频序列.etHZ数据集中的图像由同一摄像机拍摄,则数据集中行人姿态变化和视角变化的程度没有VipeR数据集那么明显.为了使etHZ数据集具有挑战性,实验中相关行人提取两张图像,一张近景和一张远景.远景图像含有大量无用的背景信息,使选用的数据集有明显的遮挡情况和光照变化.CUHK01数据集是由两个摄像机在校园环境中拍摄得到,包含971个行人的3884张图像.每个行人包含四张图像,前两张图像是摄像机拍摄的行人前后景图像,两张图像是摄像机拍摄的行人侧面图像.每个行人的前两张图像只是姿态上有稍许的变化,前两张图像与后两张图像在视角上、姿态上差异较大以及有明显的光照变化.实验中,每个行人前后景图像随机选择一张,侧面图像随机选择一张,这样得到的实验集具有显著的视角变化、姿态变化和光照变化.

2.2.1VipeR数据集VipeR数据集是由632对相关行人对图像组成.如图2所示,同一列中的行人图像为同一个人,为了对比本文算法基于不同核函数的实验效果,下表1给出了该算法基于不同核函数的实验对比.实验中测试样本集和训练样本集均为316对相关行人图像.VipeR数据集上的其它实验,如果没明确表明测试样本集和训练样本集的个数,都默认有316对相关行人图像.从表1可知,本文算法基于RBF-χ2核函数的效果最优.为了充分体现算法的效果,在后面的实验效果对比中都是基于RBF-χ2核函数.下表2给出了该算法与当前主流算法的效果对比.从表2可知,该算法性能有较大的提升,尤其是Rank1,Rank1比表中最好的结果提高了约8(%).此外,该算法与表中的pCCa、rpCCa、kLFDa和mFa等算法都是基于RBF-χ2核函数;但该算法整体效果明显优于它们.值得一提的是,对于Rank1,该算法的效果相对主流的行人再识别算法有了显著的提高.第1匹配率很重要,因为它表示的是真正的识别能力.行人再识别技术一个典型的应用是刑事侦查;若Rank1越高,则在刑事侦查中,搜集与嫌疑人有关的线索的效率就会提高.为了充分说明本文算法的优越性,表3给出该算法在仅用HSV特征情况下与其它算法效果对比.由表3可知,该算法虽然只使用了HSV特征,但是效果比采用多特征的算法(SDaLF、pS、RDC和KiSSme)更好.KiSSme融合了HSV、LaB和LBp等特征,Rank1仅有20(%);该算法只用HSV特征,Rank1就达到了28.4(%).另外,该算法与同样只使用HSV特征的算法(如itmL、euclidean、nRDV和KRmCa等)相比,仍然优于它们.其中,itmL和euclidean算法整体效果都比该算法差.nRDV算法虽然Rank1与该算法相近,但是Rank10和Rank20较低,且nRDV算法模型比该算法复杂得多.KRmCa算法效果总体上都不如该算法且KRmCa的代价函数收敛很慢,算法训练时间很长.当测试集规模为p=432和p=532时,该算法与已有行人再识别算法的性能比较如表4和表5.从表中可知,在只有少量的训练样本情况下,该算法性能同样优于已有算法.由此可见,该算法有效解决了学习相似度度量函数中出现的过拟合问题.

2.2.2iLiDS数据集iLiDS数据集中每个行人包含两张到八张照片不等.实验中,从每个行人所包含的图像中随机取两张作为实验集,最后得到的实验集为119对相关行人图像.最终实验效果是多次随机取得的实验集效果的平均值.数据集中的图像尺寸是不尽相同的,实验中统一把图像的尺寸设置为高128宽48.实验中训练集为59对行人图像,测试集为60对行人图像.本文算法在iLiDS数据集上与其它算法的效果对比如下。该算法与表中基于测度学习的算法pCCa、rpCCa、mFa和kLFDa都是基于RBF-χ2核函数.但从表6可知,该算法整体性能优于pCCa、rpCCa和mFa等算法;该算法虽然与kLFDa算法性能接近,但总体上还是优于kLFDa算法.由此可见,该算法比使用相同核函数的其它算法效果更好.另外,该算法整体性能也优于KiSSme、SVmmL和LFDa算法.

2.2.3etHZ数据集数据集中的图像尺寸是不相同的,实验中统一把图像尺寸设置为高128宽48.实验中训练集为76对行人图片,测试集为70对行人图片.表7分析了本文算法在etHZ数据集上与其它算法的效果对比.从表7可知,该算法在etHZ数据集上的整体性能优于同样基于RBF-χ2核函数的pCCa、rpCCa、mFa和kLFDa等算法.在etHZ数据集上,同样证明了该算法比使用相同核函数的其它算法效果更好.值得一提的是,该算法的rank1较于其它算法显著提升了.另外,该算法整体性能也优于KiSSme、SVmmL和LFDa算法.

2.2.4CUHK01数据集数据集中的图片的尺寸是不相同的,实验中统一把图片的尺寸设置为高128宽48大小.实验中训练集为486对行人图片,测试集为485对行人图片.本文算法在CUHK01数据集上与其它算法的效果对比如下表8:从表8可知,该算法在CUHK01数据集上的整体性能同样优于KiSSme和SVmmL算法以及基于测度学习的算法pCCa、LFDa、rpCCa、mFa和kLFDa.该算法与midLevel算法效果接近,但midLevel算法模型复杂.该算法与其它算法效果对比可知,该算法可以学习得到具有良好区分性的相似性度量函数.通过在CUHK01数据集上的效果对比,进一步说明该算法与使用相同核函数的其它算法相比效果更好.

2.3特征核映射前后算法性能的比较为了分析特征经过核映射后对算法的影响,表9、表10、表11和表12分别给出在四种数据集上特征经过核映射前后算法效果的对比实验.通过在四个公共数据集上实验对比可知,特征经过核映射后算法效果在VipeR、iLiDS和CUHK01数据集上整体上都得到了显著的提升,在etHZ数据集上虽然提高不明显,但还是优于已有算法.总的来说,该算法在特征经过核映射后,学习得到的相似度度量函数更具有区分性,能够得到较好的识别效果.

2.4权值a取值不同时算法的性能比较为了分析权值a对算法性能的影响,图3、图4、图5和图6分别给出在四种数据集上不同的权值a下,本文算法性能的对比实验.其中SC为颜色特征子空间的相似度函数,St为LBp特征子空间的相似度函数.权值a越大,代表相似度函数中颜色特征子空间的相似度函数比重越大.通过在四种数据集上不同的权值a下算法性能的对比实验可知,a取值对算法效果的影响较大.当a取值很小时,算法效果不是很理想,当a增大时,算法性得到一定程度的提升,当a在0.5到0.7范围内取相应的值时,算法性能能达到最优,当a继续增大后,算法性能有一定程度的下降.

3结论

学生文化基本特征篇4

一、问题的提出

随着计算机技术与网络技术的普及和发展,数字图书馆在我国高校、政府以及科研机构都得到了有效发展。数字图书馆来源于图书馆馆藏的数字化从而充分地高效地利用图书馆信息资源。现有的图书馆资料主要是书籍、杂志、报刊、技术报告等。人们希望利用因特网把所有的数字化的资源站点连接起来,这样要管理的信息除了图书馆中的文本信息外,还希望管理博物馆、展览馆、档案馆、学术组织以及其它web站点上千差万别的信息。

面对浩瀚无边的数字化信息使得数字图书馆关键核心技术之一的文本分类成为一个日益重要的研究领域。文本分类技术是人工智能和信息获取技术的结合,是基于内容的自动信息管理的核心技术。

二、文本分类技术的基本原理

数字图书馆是一个巨大的知识宝库。数字图书馆的服务重点是以人为主,而不是以馆以书为主。数字图书馆的特点使得其服务要深入到知识的层次,通过对信息内容的组织和加工的自动化,把资源组织成一个知识系统。文本的自动分类是为提高信息内容服务的质量而产生的文本处理技术。它们的出现使得信息内容服务出现了新的局面。

文本分类是指根据文本的内容或属性,将大量的文本归到一个或多个类别的过程。文本分类算法是有监督学习的算法,它需要有一个己经手工分好类的训练文档集,文档的类别已标识,在这个训练集上构造分类器,然后对新的文档分类。如果训练集的类别未标识,就是无监督的学习算法,无监督学习算法从数据集中找出存在的类别或者聚集。

从数学角度来看文本分类是个映射程,它将未标明类别的文本映射到已有的类别中,用数学公式表示如下:

f:aB其中,a为待分类的文本集合,B为分类体系中的类别集合

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。但是由于大量的文本信息是一维的线性字符流,因此文本自动分类首先要解决的问题就是文本信息的结构化。在模式识别领域里,把文本信息的结构化称为"特征提取"。在文本信息内容处理领域,这项工作被称为文本的"向量空间表示"。其基本流程如图1所示:

系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征将待分类的输入样本形式化,然后输入到分类器进行类别判定,得到输入样本所属的类别。

三、文本分类技术在数字图书馆中的应用分析

为了提高数字图书馆中分类准确率,加快系统运行速度,需要对文本特征进行选择和提取。两者的差别在于,特征选择的结果是初始特征项集合的子集,而特征提取的结果不一定是初始特征项集合的子集(例如初始特征项集合是汉字,而结果可能是汉字组成的字符串)。特征选择、提取和赋权方法对分类结果都有明显影响。

(一)文本特征项

文本的特征项应该具有以下特点:特征项是能够对文本进行充分表示的语言单位;文本在特征项空间中的分布具有较为明显的统计规律;文本映射到特征项空间的计算复杂度不太大。对于计算机来说,文本就是由最基本的语言符号组成的字符串。西文文本是由字母和标点符号组成的字符串,中文文本就是由汉字和标点符号组成的字符串。

概念也可以作为特征项,"计算机"和"电脑"具有同义关系,在计算文档的相似度之前,应该将两个词映射到同一个概念类,可以增加匹配的准确率。但是概念的判断和处理相对复杂,自然语言中存在同义关系(如老鼠、耗子)、近义关系(如忧郁、忧愁)、从属关系(如房屋、房顶)和关联关系(如老师、学生)等各种关系。如何很好地划分概念特征项,确定概念类,以及概念类的数量都是需要反复尝试和改进的问题。

(二)特征项选择

不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,并且分布较为均匀,因此区分度较小;而低频特征项由于对文档向量的贡献较小,因此重要性较低。

文档频次就是文档集合中出现某个特征项的文档数目在特征项选择中计算每个特征项在训练集合中出现的频次,根据预先设定的闽值去除那些文档频次特别低和特别高的特征项。

信息增益方法是机器学习的常用方法,在分类问题中用于度量特征项在某种分类下表示信息量多少,通过计算信息增益得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。

(三)特征值的提取

在文本分类中,我们称用来表示文档内容的基本单元为特征,特征可以是词、短语。目前,大多数有关文本分类的文献基本上采用词的集合来表示文档的内容。采用短语来表示文档存在两个缺点:第一短语的提取较困难,特别是准确的提取,需要较多的自然语言处理技术,而这些技术还不够成熟;第二采用词组表示文档在信息检索和文本分类中的效果并不比基于词的效果好,有时反而更差。

学生文化基本特征篇5

1系统原理

基于动态特征库的电子邮件分类系统框架如图1所示。主要的功能有数据采集、邮件预处理、文本分词、特征提取、特征向量库、相似度阈值比较、邮件分类器等。系统的一般流程为:首先对训练邮件进行分词和特征选取,利用处理之后的邮件对该系统进行特征规则的建立,将特征规则处理为特征向量的形式存入数据库;然后对测试邮件进行分词和特征选取,再利用相似性计算方法与特征向量库中的特征进行相似性比较,其中相似性度量采用向量之间的夹角余弦公式,超过某一个设定的数值(阈值)则对特征规则进行重新生成,调整特征向量库;若小于设定的数值(阈值),直接送入分类器进行分类。对邮件进行分类,一般需要进行两个步骤:首先利用邮件样本建立分类模型,然后利用分类模型对测试邮件进行分类。由于电子邮件是一种非结构化的文本文件,包括邮件头和正文,所以在对邮件进行分类之前,先要进行邮件的预处理和特征提取。

1.1邮件预处理

邮件预处理就是把邮件内容处理成文本的形式,即去掉对邮件分类无用的结构信息,只提取邮件的主要信息组成文本文件。

1.2文本分词

文本分词是在文本词典的支持下,把一个邮件的文本切分为有意义的文本词条序列。对样本邮件文本切分后获得的所有词条,在通过特征选取后,将其中的一部分词作为对邮件进行分类的特征词,将这些分词作为邮件的特征词保存在特征词库中。本系统采用的分词算法是基于中科院计算所开发的汉语词法分析系统iCtCLaS(instituteofComputingtechnolo-gy,ChineseLexicalanalysisSystem)[7],该系统采用基于n-最短路径的方法对中文文本进行无歧义文本粗切分,然后通过多层隐马尔可夫模型算法进行未登录词识别其分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5kB/s。

1.3特征选择及权重计算

一封待分类邮件的文本经切分后获得的所有词条通过“邮件分类器”,就可以得出该邮件的类属。在实际分类过程中,通过中科院研究的分词工具iC-tCLaS对邮件内容进行分词处理,并统计分词后邮件中出现的常用词及其频度,分别赋予一定的权重值,通过计算出来的权重值进行排序,并选取一定数量的常用词作为特征词加入到特征库中,在邮件分类器进行训练时,可以根据特征库里的特征实现对邮件的分类,并且在以后的使用中,可以提取邮件中出现次数较多的分词计算权重,加入到特征库中,并根据权重进行动态调整,以实现自动学习,自动适应的邮件分类效果。目前用于特征选取比较常用的方法有:词的同现信息[8]、基于文档频率(DocumentFrequen-cy,DF)的特征提取法、信息增益(informationGain,iG)法[9]、x2统计量(CHi)法和互信息(mutualinfor-mation,mi)方法[10]等。通过对特征进行权重计算来衡量特征项在文档表示中的重要程度或者区分能力的强弱。常用的特征权重计算方法有:布尔权重、绝对词频、tF-iDF[11](词频反比文本频率法)、熵权重等[12]。本文采用的是一种改进的tF-iDF权重计算方法[13]:wik=tfik×idfik=tfik×log(n/mk+0.01)(1)其中,tfik———特征词tk在文本Di中出现的次数;idfik———特征词tk以及其它文本中与tk语义相似的特征词在整个文集中的平均分布情况;n—文本集中文本的数目;mk———出现特征词tk的文本数目与出现其它文本中与tk语义相似特征词的文本数目之和的平均值。计算公式如下:mk=(nk+∑cj=1pj)/(c+1)(2)其中,nk———出现特征词tk的文本数目;pj———出现其它文本中与tk语义相似特征词的文本数目;c———与tk语义相似的词语数量。

2文本分类器

对文档进行处理,需要将文档用向量空间模型(VectorSpacemodel,VSm)[14]表示,也就是转换为分类算法可以处理的形式,使文档转化为机器学习算法所需的特征向量。本文使用数据挖掘软件weKa[15]中几种常用的算法来对本邮件系统进行分类仿真,通过综合比较各种算法的仿真结果,验证本系统的可行性。weKa的全名是怀卡托智能分析环境(waikatoenvironmentforKnowledgeanalysis),是一款免费的、非商业化的、基于Java环境下开源的机器学习(ma-chinelearning)以及数据挖掘(datamining)软件。weKa作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。开发者可使用Java语言,在weKa的架构上开发出更多的数据挖掘算法。

3仿真实验及分析

本实验所采用的邮件数据是个人邮箱中的1844封邮件,其中正常邮件907封,垃圾邮件937封。数据采集采用Java语言编写的邮件接收程序,将邮件内容进行结构统一化处理放入数据库,作为文本分类的邮件样本数据。实验平台采用开源的机器学习及数据挖掘软件weKa,实验中将数据集随机分成10份,取其中9份合并作为训练集,另一份作为测试集。实验中对数据集进行10次实验测试,并将最后的平均值作为最后的分类结果。仿真实验步骤如下:(1)利用Java实现的邮件接收程序从邮件服务器上获取实验所需要的邮件数据集,并对邮件数据进行初步的处理;(2)利用汉语词法分析系统iCtCLaS对邮件进行分词处理,对分词后的邮件进行词频统计,并利用tF-iDF算法对数据进行权重计算;(3)利用计算后的特征词权重结果,选取一定数量的特征词作为邮件分类的特征向量,保存到特征向量库中;(4)由于weKa识别的格式为.arff,需要把特征向量和权重系数转化为.arff文件格式;(5)将转化后的文件导入weKa中进行仿真实验,在测试阶段利用分词后的特征数据跟特征向量库进行相似度比较,大于阈值的将通过规则重新生成邮件的过滤规则,否则直接送到分类器进行分类,利用机器学习算法对结果进行评估。本实验采用国际上公认的对分类方法的性能进行评估测试的性能指标,即采用召回率(Recall)和准确率(precision),相应的计算公式如下:召回率R=系统判断为正常邮件的数目所有正常邮件的数目(3)准确率p=判断正确的邮件数实际分类的邮件总数(4)实验中分别采用了oneR、J48、Bayes、Smo等算法对数据进行仿真实验。相应的数据结果如表1所示。图2、图3、图4、图5分别为利用Smo算法、J48算法、oneR算法和贝叶斯算法所实现的分类效果图。结果分析:由表1的数据可以看出,决策树算法在试验中的准确率和召回率最高,Smo次之,oneR算法最低,由此可以得出,J48在实验中显示了很好的分类效果。由于系统能够根据邮件中新的特征来调整特征向量库,所以系统需要一段时间的学习来适应邮件中出现的新的特征词,并形成特征规则,从而为实现根据邮件不断变化的特征做出更好的分类。

学生文化基本特征篇6

真实网络流量包括大量特征属性,现有基于特征分析的异常流量检测方法无法满足高维特征分析要求。提出一种基于主成分分析和禁忌搜索(pCatS)的流量特征选择算法结合决策树分类的异常流量检测方法,通过pCatS对高维特征进行特征约减和近优特征子集选择,为决策树分类方法提供有效的低维特征属性,结合决策树分类精度和处理效率高的优点,采用半监督学习方式进行异常流量实时检测。实验表明,与传统异常检测方法相比,此方法具有更高的检测精度和更低的误检率,其检测性能受样本规模影响较小,且对未知异常可以进行有效检测。

关键词:异常检测;决策树;特征选择;主成分分析;禁忌搜索

0引言

随着网络技术的不断发展和普遍应用,互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生,严重威胁着网络的正常使用。因此如何及时有效地检测网络异常,保证安全的网络环境具有重要的意义。

网络流量异常检测方法主要包括两种:统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性,而检测精度较低,尤其对许多隐蔽攻击无法检测;机器学习方法基于流量特征进行分析检测,由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]:聚类方法具有无需事先样本的优点,但聚类误差导致检测精度较低;分类方法需要事先进行训练,通过训练模型进行检测,这种方法由于具有较高检测准确性而广泛使用[5-6]。基于分类的异常检测中,特征属性选择对分类精度具有重要影响[7],实际网络流量维数较高,高维数据无法应用于传统分类算法中,文献[8-10]分别采用支持向量机(SupportVectormachine,SVm)、K最近邻(Knearestneighbor,Knn)和C4.5算法进行分类检测时都采用低维特征,由于其对特征属性的选择不能较好表征网络流量,造成分类精度较低,影响了检测效果。文献[8]采用SVm方法进行异常分类检测,但SVm适用于较少流量样本使得该方法无法应用于实际网络流量检测。文献[9]采用直推式的异常检测方法具有较高的检测精度,但基于“离线训练,在线检测”的机制下,由于Knn方法需要对每个样本所属类别进行判断而降低了检测效率。文献[10]利用决策树方法具有较低处理时间的特点而基于C4.5决策树算法进行异常流量实时检测,但C4.5根据信息增益率进行节点划分,由于增益值的不稳定导致分类误差较大。

基于此,本文提出了一种基于主成分分析和禁忌搜索(principalComponentanalysisandtabuSearch,pCatS)结合基于最短距离划分决策树(minDistanceDecisiontree,mDDt)分类的异常流量检测方法,通过pCatS方法来减少高维特征空间冗余和选择最优特征子集,为分类检测提供低维和有效的流量属性,结合决策树检测实时性高的特点,该方法可以有效地进行网络流量异常实时检测。

1相关研究

1.1基于pCatS的特征选择方法

1.1.1主成分分析算法

主成分分析(principalComponentanalysis,pCa)是统计学中分析数据的一种有效方法,主要用于特征抽取和数据降维。其思想是利用数据集统计性质的特征空间变换,将一个数据维数较高且互相关联的数据集进行降维。通过pCa降维后,将原始空间转换为新的主成分空间,且各主成分互不相关。

假设含有n个样本的网络流量数据集X={x1,x2,…,xm}∈Rn,其中:Rn为特征空间,m为特征维数。求得变量空间Z={z1,z2,…,zk},满足k

在使用pCa进行分析时,由于数据中不同的变量往往有不同的量纲,会引起各变量取值的分散程度差异较大,从而影响计算精度。为了消除由于量纲的不同可能带来的影响,首先需要对变量进行标准化处理,然后利用pCa进行降维。

0引言

随着网络技术的不断发展和普遍应用,互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生,严重威胁着网络的正常使用。因此如何及时有效地检测网络异常,保证安全的网络环境具有重要的意义。

网络流量异常检测方法主要包括两种:统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性,而检测精度较低,尤其对许多隐蔽攻击无法检测;机器学习方法基于流量特征进行分析检测,由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]:聚类方法具有无需事先样本的优点,但聚类误差导致检测精度较低;分类方法需要事先进行训练,通过训练模型进行检测,这种方法由于具有较高检测准确性而广泛使用[5-6]。基于分类的异常检测中,特征属性选择对分类精度具有重要影响[7],实际网络流量维数较高,高维数据无法应用于传统分类算法中,文献[8-10]分别采用支持向量机(SupportVectormachine,SVm)、K最近邻(Knearestneighbor,Knn)和C4.5算法进行分类检测时都采用低维特征,由于其对特征属性的选择不能较好表征网络流量,造成分类精度较低,影响了检测效果。文献[8]采用SVm方法进行异常分类检测,但SVm适用于较少流量样本使得该方法无法应用于实际网络流量检测。文献[9]采用直推式的异常检测方法具有较高的检测精度,但基于“离线训练,在线检测”的机制下,由于Knn方法需要对每个样本所属类别进行判断而降低了检测效率。文献[10]利用决策树方法具有较低处理时间的特点而基于C4.5决策树算法进行异常流量实时检测,但C4.5根据信息增益率进行节点划分,由于增益值的不稳定导致分类误差较大。

基于此,本文提出了一种基于主成分分析和禁忌搜索(principalComponentanalysisandtabuSearch,pCatS)结合基于最短距离划分决策树(minDistanceDecisiontree,mDDt)分类的异常流量检测方法,通过pCatS方法来减少高维特征空间冗余和选择最优特征子集,为分类检测提供低维和有效的流量属性,结合决策树检测实时性高的特点,该方法可以有效地进行网络流量异常实时检测。

1相关研究

1.1基于pCatS的特征选择方法

1.1.1主成分分析算法

主成分分析(principalComponentanalysis,pCa)是统计学中分析数据的一种有效方法,主要用于特征抽取和数据降维。其思想是利用数据集统计性质的特征空间变换,将一个数据维数较高且互相关联的数据集进行降维。通过pCa降维后,将原始空间转换为新的主成分空间,且各主成分互不相关。

假设含有n个样本的网络流量数据集X={x1,x2,…,xm}∈Rn,其中:Rn为特征空间,m为特征维数。求得变量空间Z={z1,z2,…,zk},满足k

主成分分析通过选择贡献率较大的几个特征值λi对应的特征向量p作为主成分,达到降维的目的。特征贡献率如下式计算:

1.1.2禁忌搜索算法

禁忌搜索(tabuSearch,tS)算法是一种启发式全局寻优搜索方法,其通过标记已搜索局部最优解和避免迭代计算中重复搜索来获得全局最优解[11]。tS主要思想是:首先确定一个初始有效解z,对每个解z定义一个邻域Y(z),从当前解的邻域中确定若干的候选解,从中选出最佳候选解。选择最佳候选解是一个搜索过程,为了避免搜索过程限于循环,tS算法通过构造禁忌表和定义停止规则避免了搜索算法的局部最优。其中禁忌表存入前n次禁忌长度,避免了回到原先的解,从而提高了解空间的搜索能力;停止规则定义在若干迭代次数内最优解无法改进时,算法停止。另外禁忌搜索算法中涉及邻域、禁忌表、禁忌长度、特赦规则和初始解等都会直接影响搜索优化结果[12]。

基于禁忌搜索的特征选择是通过目标函数进行约束的最优化问题,合适的目标函数提高了搜索和最优特征选择的质量。一个好的特征解应在最少的特征数量上保证尽可能多的分类信息。在信息论理论中,一个属性的信息增益越大,其包含的信息量也越大,基于信息增益可以有效评估特征向量的分类信息,因此本文选择信息增益作为目标函数。定义目标函数如下:

禁忌搜索中初始解的选择对禁忌搜索的效果影响很大,在基于网络流量特征的最优特征选择中,由于实际网络流量特征维数较大,会影响禁忌搜索算法的效率,同时网络流量特征的冗余也对最优特征集的选择产生影响。因此禁忌搜索的初始解对搜索效率和质量具有重要影响。

1.1.3pCatS特征选择算法

特征选择是从特征集Ct={c1,c2,…,cn}中选择一个子集Ct′={c′1,c′2,…,c′n},c′≤c。其中:c为原始特征空间大小,c′为特性选择后新特征空间大小。即:通过从原始特征空间中选择部分有效特征组成新的低维特征空间,其本质为一个寻优过程。

网络流量特征属性空间的“维数灾难”严重降低了基于特征分析方法的效率,而这些特征中存在大量的冗余和弱特征属性,需要通过特征约减来去除冗余和弱属性,得到精简特征属性向量。pCatS方法通过pCa对高维特征向量进行有效降维,为禁忌搜索提供了低冗余和低维数的特征向量。结合禁忌搜索寻找近优特征子集的特点,提高了禁忌搜索的效率和精度。因此通过pCatS可以在高维特征空间中寻找最优特征子集。pCatS方法具体步骤如下:

步骤1禁忌表置空,设置初始化参数:禁忌长度LJ=13,最大迭代次数Dmax=600,最大改进次数max=100。

步骤2使用pCa对原始网络流量特征进行约减,得到约减特征集t={t1,t2,…,tp},p为约减后特征集数量。

步骤3对特征集t进行二进制编码,得到初始解Rinitn。

步骤4设置终止条件,当达到Dmax时,搜索停止;当通过max寻找最优解无改进时,停止搜索。

步骤5判断是否满足终止条件,如果满足终止条件,结束运算,输出最优特征子集;否则转到下一步。

步骤6初始解Rinitn代入邻域结构计算邻域解,通过目标函数选择最佳候选解。

步骤7判断候选解是否满足特赦规则,如果满足,则更新禁忌表中最优解,转入步骤4;否则转到下一步。

步骤8计算候选解的禁忌属性,选择非禁忌对象的最优值替换禁忌表的最初值,转入步骤4。

步骤9结束,输出最优特征子集。

1.2C4.5决策树方法

决策树方法作为一种机器学习方法中的预测模型,代表对象属性和对象值之间的映射关系,它能从无规则的实例集合中归纳出一组采用树形结构表征的分类规则。常用的决策树方法包括:iD3算法、CaRt算法和C4.5算法等。与其他算法相比,C4.5决策树方法由于具有较高的处理效率和分类稳定性,适用于网络流量的实时分类[13]而在网络流量分类中广泛使用。

决策树创建中内部节点分枝的选择是关键,对于不同划分得到的决策树的性能不同,传统C4.5算法利用信息熵原理,选择信息增益最大的属性作为分类属性。定义样本集S的理想划分S={s1,s2,…,sn},则信息增益率为

C4.5方法采用信息增益率来确定节点的分枝,文献[14]分析了采用这种方法带来的问题:划分产生的分割信息很小时,增益的值不稳定。这种不稳定可能导致信息增益率很大或者为0,带来较大分类误差。本文采用最短距离划分方法来构建决策树,定义mantaras范氏距离[15]为两个划分间的距离,采用与理想划分距离最近的属性作为当前节点的测试条件。

定义特征属性pi作为测试条件p得到的划分S′={s′1,s′2,…,s′m},则理想划分S和划分S′的mantaras范氏距离为:

决策树训练中可能存在过度拟合,这会对新的数据集分类效果产生影响,因此要对初始决策树进行剪枝,从而得到一般的分类规则。本文利用训练数据集中剩余样本,采用悲观错误剪枝(pessimisticerrorpruning,pep)算法对生产初始决策树进行剪枝,pep算法对每棵子树只进行一次检查,具有较快的处理速度。且本方法不需要额外数据集,结合pep算法可使本方法适用于样本较多数据集。

2基于特征分类的检测模型

基于特征分类的检测模型如图1所示。首先对网络流量进行提取特征和数据预处理,得到待检测特征向量。离线训练阶段首先需要对高维特征空间通过特征选择进行降维,得到最优特征子集形成训练集,分类训练利用分类算法mDDt得到正常和异常类别,分类训练结果对检测规则库更新实现异常检测。

图片

图1基于特征分类的检测模型

2.1数据预处理

网络流量提取的特征中,包含不同数据类型:名词型和数值型等,且不同特征量纲也不同,这种差异会影响分类精度,所以需要将样本的属性值转换为标准的取值空间。本文对于数值型样本属性进行归一化处理,而对于如协议类型、服务类型等名词型属性根据其每个取值在取值空间的出现频次进行标准化处理。归一化方法为:

首先计算样本中每个特征属性的均值和方差:

2.2特征选择

网络流量的统计特征指的是在报文(packet)和流(flow)的属性中,抽取和端口及协议无关的特征,如报文长度、报文到达间隔时间、报文数量、流的持续时间和流中报文个数等,这些统计特征用特征矢量来表示。如一条网络流F,基于该流的特征描述可表示为F={y1,y2,…,yn},其中yi代表特征的取值。流的特征集合可能包含多达几百个特征,通过特征选择寻找少量最优特征子集来近似描述流量对提高学习效率等具有重要意义。

在基于网络流量特征的流量分析中,一般情况下,特征数量越大,会产生更高的分析精度。但实际中,过大的特征空间会产生两个问题:1)巨大的特征空间不仅需占用更多的存储空间,而且增加了测量时间,难以应用于实时流量分析中;2)网络流量特征存在大量冗余和弱属性,这些属性不仅降低了分析精度,而且增加了算法处理的复杂度。本文采用pCatS算法,对网络流量初始特征经过pCa进行降维,大大减少了特征冗余和弱属性,给禁忌搜索算法提供了更优的初始解,通过禁忌搜索得到全局最优特征子集,为后续分类算法处理降低了处理时间。

基于特征选择的分类中,不同研究人员选取不同维度的特征向量,典型的选择维度包括37[7]、36[16]和22[17]等。这些特征主要包括流信息(时间、包个数、字节数),包内部时间信息,tCp/ip控制域信息,aCK数量,负载大小,五元组信息等。这些选取方案都是根据表征流量的常用特征如时间,长度信息进行选择,未考虑特征的贡献度及存在的冗余。

本文根据pCatS方法对高维流量特征向量进行最优特征子集选择,提取了22种网络流量特征作为分类训练集的特征库,与传统特征选择方法相比,去除了tCp/ip控制信息、aCK信息等对网络流量表征贡献度较低的特征信息。然而在网络流量表征中,五元组信息表征存在冗余[18],而基于信息熵的源/目的ip地址对异常流量的表征具有较大贡献度,因此本文采用22个特征属性结合归一化熵的源/目的ip作为最终24个特征属性。选择的特征属性向量如图2所示,其中横坐标为提取的特征属性,纵坐标为moore数据集中每个特征属性在数据集中所占的比例。

图片

图2最优特征子集选择

2.3分类训练

分类方法按照其对标记数据的依赖关系可以分为完全监督学习、无监督学习和半监督学习。完全监督学习分类准确性相对较高,但其完全依赖标记数据样本,这种方法代价昂贵无法应用于实际分类中;无监督学习一般采用聚类算法,无需标记数据进行训练,但其分类准确性较低;而半监督学习通过引入少量标记样本进行训练,不仅提高了训练器性能,而且可以对未知类型进行分类,因此本文采用半监督学习进行分类。

分类算法的选择要求具有较高分类准确性,针对网络流量大样本数据特性能有效实现分类,并且对于分类算法的实时性具有较高要求。文献[5]比较了C4.5和贝叶斯分类器的性能,发现C4.5决策树算法测试时间最短,更适合实时流量识别。本文选择基于C4.5的改进算法进行异常检测分类基于两点考虑:1)与SVm算法对于小样本的机器学习相比,C4.5对任何样本规模都具有较好分类精度;2)C4.5的结构可以建立方便的规则库。

利用mDDt算法处理分类问题通常分为两步:首先通过训练集进行学习,得到分类模型,然后通过生成的分类模型对流量进行分类。为了满足实时流量分类要求,采用“离线训练,在线识别”机制,在离线构建分类模型中,根据网络流量动态变化进行主动学习,提高分类模型的寿命和分类算法的泛化能力。

3实验结果及分析

为了验证本文方法的有效性和可靠性,本章采用研究领域普遍使用并认可的数据集moore和KDDCUp1999进行实验分析。在基于特征分类的异常检测中,分类的性能对检测效果有直接影响。采用moore_Set对基于pCatS的分类方法性能进行验证,通过KDDCUp1999数据集对本文提出的异常检测方法性能进行分析。

3.1实验数据和环境

3.1.1KDDCUp1999数据集

为了评价本文算法对于异常检测的效果,选用Lincoln实验室的KDDCUp1999网络数据集进行实验。该数据集包括多种网络环境下的攻击异常,主要包括DoS、R2L、U2R和probing四类。KDDCUp1999数据集包括大约4900000条记录,4种异常类别和正常类别(normal)分别通过41个特征属性表征。

为了验证本方法的检测效果,将KDDCUp1999数据集进行提取,构建三个数据集进行测试。数据集1包括205684个正常流量数据和2648个攻击异常数据;数据集2对数据集1正常数据进行提取,包括120000个正常流量数据和2648个攻击异常数据;数据集3对数据集1正常数据进行少量抽取,包括10000个正常流量数据和2648个攻击异常数据。三种数据集具体介绍如表1所示。

其中R为特征贡献率阈值,特征维数m选择根据R来确定,一般选择R为85%~95%。

3.1.2实验环境及工具

本文采用的实验仿真硬件平台为普通pC,该主机配备操作系统为windowsXpprofessionalSp3,具体配置:CpU为intelCore21.86GHz;内存2GB。实验仿真软件工具采用matlab2008和weka3.6.8。

本文采用异常检测方法中通用检测指标:检测率(truepositive,tp)和误报率(Falsepositive,Fp)作为检测本方法的评价指标。其中分类算法通过准确率(precision)来表征,定义如下:

其中:ntp表示类型为a的网络流量样本被分类模型正确分类的数量;nfp为类型为非a的网络流量样本被分类模型分类为类型a的数量。

3.2实验结果及分析

3.2.1特征选择分析

学生文化基本特征篇7

关键词:数据挖掘;朴素贝叶斯;文本分类

中图分类号:tp391文献标识码:a文章编号:1009-3044(2016)30-0220-02

webtextClassificationanditsapplicationBasedonna?veBayesian

BaoXiao-bing

(ChizhouCollegeDepartmentofmathematicsandComputerScience,Chizhou247000,China)

abstract:webtextclassificationhasbeenwidelyusedinnetworkinformationfiltering,informationrecommendationandsoon.introducesthebasictheoryandmethodofwebtextclassification,thedataofthetextclassificationcorpusareclassifiedandanalyzedwithBayesianclassificationalgorithm,achievedacertaineffect.

Keywords:Datamining;na?veBayesian;textclassification

S着计算机以及互联网技术的快速发展,对于拥有海量数据的网络世界,蕴含着巨大潜在价值的知识,人们迫切需要从这些海量的数据中获取有用的知识和信息,希望能对这些海量的数据进行自动分类、组织和管理。而这些知识有很多是以web文本的形式存在的,如何自动、准确、高效地进行web文本分类是文本挖掘的重要的研究内容之一。

信息检索被认为是web文本挖掘的前身,但是位于internet上的信息,一方面规模巨大,并且缺乏结构化,对于这些非结构化或半结构化的复杂的web数据,在做文本分类之前,还需要对获取的文本进行特征提取和表示,然后再使用文本分类技术进行快速、自动的分类。

本文主要分析和讨论了基于朴素贝叶斯(na?veBayesian)方法的web文本分类的相关理论,并使用中文自然语言理解平台[1]上的文本分类语料库,进行具体的实验分析。

1web文本分类方法

1.1web文本分类概述

文本分类是在预定义的分类体系下,根据文本的特征,将给定文本归类的过程,而文本的特征涉及对文本的理解,因此涉及众多的学科领域。Sebastiani用下面的数学模型描述文本分类。

定义函数[Φ:D×C{t,F}],其中[D={d1,d1,…,dD}]表示待分类的文本文档,[C={c1,c1,…,cC}]为预定义分类体系下的指标集。设[t]和[F]值表示为二元组[],分别表示文本[dj]属于类[ci]和文本[dj]不属于类[ci]。在文本分类中涉及两个最重要的问题:文本表示与分类器设计。那么对于来自网络的web文本分类系统可以简单地表示为图1。

1.2web文本表示

web文本和其他文本类似,由文字、词语和标点符号组成,要使用计算机来表示文本,首先需要选择一种好的表示方式,并且要求该表示方法能尽可能准确地反映文本的主题、内容和结构等。

当前比较常见的表示方法是由G.Salton等人于60年代末提出的向量空间模型(VSm)。在VSm中,用由特征二元组组成的特征向量表示文本[dj],记为[dj=(t1,ω1j),(t2,ω2j),…,(ts,ωsj)],其中[(tk,ωkj),1≤k≤s]表示特征[tk]的二元组,[ωkj]表示文本[dj]征[tk]的权重,[s]为特征集合的大小。那么对文本的比较、分类等操作就可以转换成特征向量组间的操作,使问题变得简单且易于实现。

1.3web文本特征选择及特征权重计算方法

使用VSm模型对web文本进行文本表示,得到的特征向量维数一般会非常高,为提高性能,需要对特征向量进行特征选择以降维,那么面临的问题是,应该选择哪些特征,以及应该赋予这些特征多大的权重,以希望经约简的特征向量更好地体现文本的内容、主题等?当前比较常见的方法有:信息增益(iG)、卡方、文档频度(DF)、互信息(mi)、特征强度(tS)等。本文主要使用文档频度的方法进行讨论,该方法是最基本且最简单的一种方法,统计在多个文档中出现特征[tk]的次数,次数越多的特征被认为越关键,故被保留。

文本特征权重的计算方法常见的有布尔权值、绝对词频(tF)、倒排文档频度(iDF)、tF.iDF权值、熵权值等,本文使用绝对词频[tfij]衡量文本特征权重。

对于web文本,在文本表示之前,需要对文本进行分词。分词之后的文本词表中包含很多对文本特征表示无意义的词,还需要对其进行约简,去除虚词、数量词等不能体现文本特征的词。而对于重复出现的词,会有两种情况:一种是通用的名词、动词,不具特征性,应去掉;第二种是恰好能反映文本的特征的词,应该保留,并且统计记录其频数,用VSm模型进行表示。然后再使用文本特征选择及特征权重计算方法对建立的VSm模型进行优化,得到结构化的数据,为下一步分类做好准备。

2贝叶斯分类算法基本理论

贝叶斯分类算法是基于统计学的方法,可以预测类成员关系的可能性。实践表明贝叶斯分类算法有非常高的准确率并且计算速度较快。贝叶斯分类算法基于概率论中的著名的贝叶斯定理[2]。

定理1设样本空间[S],[n]个互斥事件成为[S]的一个划分:[S=a1,a2,…,an],[aiaj=0,i≠j],[X]是[S]中任意一个事件,则有:

[p(aiX)=p(Xai)p(ai)p(X)]

设[D]是训练元组集(包含类标号),其中的元组用[n]维向量[X=x1,x2,…,xn]表示,属性集记为[Da=a1,a2,…,an]。设有[J]个类[C1,C2,…,CJ],根据贝叶斯定理,分类算法将预测给定元组[X]属于的类。分别计算后验概率[p(CiX)],找到最大值,其中先验概率[p(Ci)]通过学习训练元组得到,考虑到[p(X|Ci)]的计算是复杂并且开销非常大的,故做了类条件独立的朴素假设,即是

该分类算法被称为朴素贝叶斯分类[3](nBC)。

2.1web文本分类数据的预处理

为实验的方便,使用中文自然语言理解平台[1]由复旦大学提供的文本分类语料库,包含有财经、科技、教育、电脑、房产、人才、汽车、体育、卫生、娱乐10个类别共951个文本。对所有的951个文本的每个文本分词,分别生成相应的文本词表,如图2所示。

然后进行去词约简,去除虚词、数量词等不能体现特征的词,去除那些不具有特征性但却重复出现的通用的名词、动词,记录反映文本特征的词及词频,每个文本可以表示成一条VSm模型元组,最终所有的文本处理完成后生成一个矩阵,称为词频矩阵,最后一列加上类属性,本实验词频矩阵是[951×13353],如表1所示。再进行降维处理,最终的词频矩阵部分如表2所示。

3应用实验

3.1web文本分类

为使用贝叶斯算法对文本分类,首先对词频矩阵进行离散化处理,离散化规则如表3所示。

最后,对表2的词频矩阵[D951×252]m行数据离散化处理的结果如表4所示。

实验的硬件平台:pentiume21601.8GHz处理器,1G内存;开发环境:VisualStudio2005,使用分词[4]的C#开源代码。使用朴素贝叶斯算法进行学习、分类,实验结果如表5所示。

实验表明,对非训练数据的分类准确性不高,这说明该数据集的高稀疏性会使所构建的分类器的泛化能力还不够好,还有待提高。

4结论

针对来自网络的web本文,使用基于朴素贝叶斯的分类算法对其进行自动分类,本了如下工作:1)概述了web文本分类的相关方法以及贝叶斯分类理论;2)通过具体的实验,给出了web文本分类的详细过程,包括分词、约简、降维、训练、分类等,实验结果较好;3)针对高维稀疏数据的非训练数据分类效果还不够理想,还有待进一步研究。

参考文献:

[1]中文自然语言理解平台[DB/oL].http://.cn/

[2]李贤平.概率论基础[m].北京:高等教育出版社,1997.

[3]JiaweiHan,michelineKamber.数据挖掘概念与技术[m].范明,孟小峰译.北京:机械工业出版社,2007:201-206.

[4]分词开源代码[Cp/oL].http://。

[5]郑庆华,刘均,田锋,等.web知识挖掘:理论、方法与应用[m].2010:3-5.

学生文化基本特征篇8

【关键词】变化检测;矢量;叠加

0引言

在经济高速发展的今天,各种遥感卫星相继运行,多时态遥感数据不断积累,多时相遥感影像变化检测已经在土地利用、环境监测等各个领域得到广泛应用。目前,遥感影像变化检测技术正处于结合人工解译和计算机自动发现的阶段。

1特征库设计与建立

建立多源特征库以辅助实现影像变化检测。该特征库主要包括感兴趣区域类别特征,感兴趣区域变化信息数据库,感兴趣区域图斑特征,光谱特征,纹理特征以及指数特征。

(1)感兴趣区域类别特征――通过分类体系来表达。将已建立的分类体系存放在特征库中,采用分类后比较进行变化检测时,调用特征库中的分类体系,方便快捷的进行遥感影像的分类,提高变化检测效率。

(2)感兴趣区域变化信息数据库――通过影像类别及其类别信息来表达。采用比较后分类的方案进行变化检测时,手绘变化图斑进行图斑地类判别,调用特征库中已存放的感兴趣区域变化信息数据库,方便快捷的进行前后时相变化图斑地类划分,提高变化检测效率。

(3)感兴趣区域图斑特征――感兴趣区域分类库,通过感兴趣区域表达。将比较后分类及分类后比较两种方法产生的不同地类变化图斑矢量层保存在特征库中,供用户查询不同区域地类变化信息。

(4)光谱特征――针对每一类别的光谱信息,统计每一类别地物的均值与方差等。光谱特征可用于影像信息提取,影像分类等方面。

(5)纹理特征――针对每一类别的纹理,利用共生矩阵计算纹理信息。

(6)指数特征――植被指数、水体指数等。指数特征应用广泛,是进行图像分割,影像信息提取等不可或缺的条件,因此,将指数特征入库管理,将大大提升遥感影像处理的效率。

该特征库主要实现三方面功能:一是,存放已建立分类体系与样本图斑,供变化检测导入使用。二是,存储变化地类矢量图层。三是,采取分类建立索引的方法,解决了查找速度慢的问题。可通过行政地名、行政境界、图层数据编码等方式进行快速定位搜索变化图斑,提高了数据库管理的效率。

2变化检测流程设计

遥感影像变化检测由影像几何配准、辐射校正、变化信息提取及后处理等几大部分构成。本文采用自动一体化流程,实现计算机对同一地域多时相遥感图像的分析和比较,得出变化数量及类型,为决策者提供必要的参考信息。

2.1数据输入

在以环境与灾害监测预报小卫星星座为主要数据源的基础上,结合气象卫星、海洋卫星、资源卫星等数据。

2.2变化影像产生

不同时相影像通过基于直方图曲率的CVa变化检测方法得到变化掩膜,将掩膜影像与原影像进行叠加,利用maskFilter滤波,得到变化影像。

基于直方图曲率的CVa分析法主要思路包括三个方面:

1)在已知的变化强度特征基础上,以两期影像每个像元的相关系数作为一个新的特征,采用两个特征来判断最佳阈值;

2)对变化强度图和相关系数图的直方图进行数值分析,计算直方图的曲率,从而确定初始分割阈值的上下限范围,在阈值上下限内计算Kappa系数,选取Kappa系数最大的变化强度值为最佳分割阀值,对变化强度图进行二值化分割,确定变化范围;

3)在发生交化的区城内,提取分类信息。

2.3掩膜后处理

计算相应的错判误差,漏判误差,检测精度,总体精度,以及Kappa系数等精度评价指标。

2.4变化检测

文采用分类后比较的方法,首先导入特征库中的感兴趣区域类别特征,即分类体系,利用已存放的各地类图斑,采用极大似然分类方法进行变化影像的分类处理。优化分类图斑边界。对各前后时相分类影像分层矢量化文件进行矢量叠置分析,得到不同地类变化矢量图层,系统将自动保存变化地类矢量图层,即感兴趣区域图斑特征到特征库中。

3结论

本文研究遥感影像变化检测方法研究以环境卫星数据为基本数据源,实现了图像预处理、变化信息提取及后处理等一体化的技术流程,可以高效的进行变化信息的检测;特征库中的感兴趣区域类别特征可以辅助进行变化检测,其它特征具有实时查询、更新变化图斑数据库的功能;但是,基于地物的高强度变化,变化信息检测算法框架有待进一步细化与改进,使其达到更高的精度,得到更广泛的应用。

【参考文献】

[1]孙家.遥感原理与应用[m].武汉:武汉大学出版社,2006(4):115-116.

[2]汤国安,张有顺,等.遥感数字图像处理[m].北京:科学出版社,2004(1):270-271.

[3]赵英时.遥感应用分析原理与方法[m].北京:科学出版社,2005(3).

学生文化基本特征篇9

关键词:文本挖掘生物医学文献文本分类关系抽取

一、引言

信息爆炸时代,各行业每时每刻都在产生和积累大量的以各种形式保存的信息,这些信息以指数级的速度不断积累和增长,如何快速准确地从这些纷乱的数据中提取出有价值的信息是急待解决的问题。文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考[1]。如今文本挖掘已经成为国际上非常活跃的一个研究领域。

随着生物医学领域的快速发展,生物医学文献呈指数级增长,成为一座巨大的知识宝库。然而面对如此大规模的、快速增长的科学文献数据,即便是该领域内的专家也无法依赖手工方式从中获取感兴趣的信息。由于生物医学文献绝大多数都是以非结构化的形式存在于文本文件中,因此采用文本挖掘技术对生物医学文献数据进行管理是非常有必要的。

二、文本挖掘过程

文本挖掘通常包括文本数据预处理、特征信息提取和数据挖掘三个步骤。文本挖掘过程如图1所示:

图1文本挖掘过程

文本数据预处理的质量会直接影响到最终的结果,英文文本数据预处理包括无用词过滤和词干化处理。文本特征信息提取是将非结构化或半结构化的文本数据转化为挖掘工具可以处理的中间形式的过程,特征提取首先要识别文本中包含重要信息的特征项。本文采用数学模型来表示这些特征项,常用的特征表示模型有布尔模型、向量空间模型和概率模型,通过特征表示得到的向量维数较高,特征抽取的基本思想是利用映射的方法将高维特征映射到低维空间中,特征抽取一般是构造一个评价函数,然后对每个特征向量进行评估,删除评估分数较低的特征向量。经过特征信息提取之后,文本数据以结构化形式存储在数据库中,因此计算机就可以对文本数据的特征信息进行分类、聚类、关联分析和趋势分析等数据挖掘处理。

三、文本挖掘技术在生物医学文献管理中的应用

将文本挖掘技术应用到生物医学领域中,通过挖掘文本数据发现生物医学的规律,能够提高生物医学文献管理的效率。

(一)生物医学文献分类

对生物医学文献进行合理分类可以对文献的组织和搜索带来极大的便利,也为进一步的数据处理打下基础。文本分类是指将文本数据映射到预先定义好的类别中,我国常用的分类方法有基于距离的方法、决策树分类法、贝叶斯分类法等。生物医学文献语料库是对生物医学文献分类的基础,目前国际上可以公开获取的生物医学语料库有:Genia语料库、Yapex语料库、pDG语料库等。另外由于生物医学文献中的专用术语较多,有些术语在文献中出现次数不多但非常重要,具有很强的分类特征,因此如何在已有的分类方法的基础上设计出符合这一特点的算法来提高生物医学文献分类的准确率和效率是亟待解决的问题。

(二)生物医学文献关系抽取

生物医学文献关系抽取的目的是从文献信息中找出生物实体之间的关系,例如基因与某种疾病之间的关系。由于生物医学文献中同一概念有多种不同的表示方法,同时文献中也可能出现很多语料库中不存在的新概念,因此生物医学文献关系抽取的难度较大,国际上常用的关系抽取方法有共现方法、关键词方法、机器学习方法和自然语言处理方法[2]。这些方法在生物医学文献关系抽取中都存在一些不足之处,有学者提出利用向量空间模型来识别文献中生物实体间的关系,在现有方法的基础上进行开发或多种方法融合运用以期获得更准确的关系抽取结果。

本文主要介绍了生物医学文献的分类和关系抽取,当前生物医学文本挖掘的研究热点主要集中在文献分类、信息检索、自动摘要、生物医学领域实体识别、文献信息关系抽取等方面。通过文本分类可以缩小搜索范围,为后续的数据处理做准备;通过信息检索可以帮助用户在海量的文本信息中快速找到有价值的信息;通过自动摘要技术计算机可以自动地从原始生物医学文献中提取出主要内容,使研究者不用花费较多时间就可以从海量的生物医学文献中获得有价值的信息。通过文献信息关系抽取技术可以从生物医学文献中抽取出特定的事实信息,对生物知识网络的建立、生物体关系的预测和新药的研制等均具有重要的意义。

四、总结

文本挖掘是当今国内外学者研究的热点问题,其在生物医学领域的研究具有广阔的应用前景和重要的现实意义。本文概述了在生物医学文献中文本挖掘的具体过程,重点论述了文本挖掘在生物医学文献的分类和关系抽取中的应用和研究状况。文本挖掘技术在生物医学文献管理中的应用在近年来已取得了一定成果,但在很多方面仍需要更深入地研究和探索,文本挖掘技术的提升将会推动生物医学领域的发展进步。

参考文献:

学生文化基本特征篇10

〔关键词〕地域特征环境艺术设计内在联系应用

随着社会经济的快速发展,文化之间的交流更加顺畅,各地域的文化逐渐交融,丧失了其本身的独特性。当地域文化失去了其原本的特征,完全沦为融合文化的附属物,文化的多元性以及由此带来的丰富的文明也就消失。究竟如何看待地域特征与地域文化,是摆在我们面前的一个难题和重点。笔者结合自身的经验,对地域特征的内涵进行了阐释,明确了地域特征与环境艺术设计的关系,分析了地域特征对环境艺术设计的影响,在此基础上提出了地域特征在环境艺术设计中的应用对策。

一、地域特征的内涵

地域是一定时空范围内人类活动客观载体,不论是人类与自然的和谐发展,还是人类的社会活动,都建立在这个载体的基础上。总的来说,地域主要存在如下几个方面的特征:其一,区域性。当我们要界定一个地方的时候,我们就会用到地域的区域性特征。无论是自然生态、还是人文事件,都存在于一定的时空内。其二,人文性。主要指的就是地域文化特色,其建立在人类活动的基础上,是人类独特智慧在区域地域在全体上创造而生成的一种内在属性。其三,综合性。提及地域人们会联系到很多事物,单一的要素难以构成整个地域空间。为此,我们在看待地域的时候,应该考虑到其综合性特征。

本文所指的“地域特征”并不是指一个地域的具体特征,地域保罗广泛,不可能全然作为研究对象。本文的地域特征是在对地域前两个特征把握的基础上提出的,也就是指一定区域内的独特的地域文化。将这种独特的地域文化称为地域特征,不但具有地域的典型性特征,也将研究的范围缩小,使本文具备了研究的条件。下文所设计的地域特征也为“独特地域文化”的内涵。

二、地域特征与环境艺术设计的内在联系

地域特征与地域文化紧密相联,相互影响。地域文化是在地域开发、创造、适应的基础上产生的,本身就带有卓越的人类智慧,将其应用于环境艺术设计,不但符合当地的文化土壤、精神追求,也能够使设计方案更具可行性。通过对区域内地域文化的整合所产生的设计方案能够更好地满足地域发展的需求。可以说,只有从地域文化的角度进行环境艺术设计,才能真正符合地域发展的核心需求。而环境艺术设计活动,本身包括了对地域文化的发觉、总结、升华,并直接作用到地域,使其成为地域文化的一部分,对地域文化的繁荣起到了重要的推动作用。环境艺术不但是人们美化环境的措施,也是区域的人文审美、艺术发展的催化剂。总的来说,两者是相互促进、相辅相成的,地域特色文化是环境艺术设计灵感产生的源泉,环境艺术设计也丰富了地域文化。总的来说,环境艺术设计本身也是地域文化的一部分,因为有了环境艺术设计这个形式,地域文化将得到更好的发展和传承。

三、地域特征对环境艺术设计的影响

地域特征凝聚了区域的特色文化,是一个区域区别于其他区域的标志。地域特征对环境艺术设计的影响主要体现在如下几个方面:

1、实现地域文化与环境艺术设计的融合。建立在地域特征基础上的环境艺术设计,不但具有深厚的物质文化底蕴,也具有独具特色的精神文化内涵。而将这两者融汇一炉的环境艺术设计,不但具有更深厚的审美底蕴,还具有更为多元的艺术表现形式。赋予环境艺术设计相应的社会属性,能够使其更好地与地域特色想合,这对环境艺术的深层次、个性化发展有着重要的意义。

2、优化环境艺术设计的表现形式。环境艺术设计形式指的是环境的行装、色彩等内容。将地域特征引入到环境艺术设计中,能够将地域性文化内涵、表征融入到环境艺术设计中去。当这种直观的地域性环境艺术表达被人们接受之后,必然会加深其对地域文化的认识,增强环境艺术的表现力。总的来说,地域特征不但可以对环境艺术设计的氛围产生影响,还可以将情感融入设计中,提高环境艺术设计的审美价值与艺术表现力。

3、丰富环境艺术设计的设计内涵。环境艺术设计内涵,除了设计构成的要素外,还包括设计的结构。通过地域特征的引入,环境艺术设计的内涵可以得到进一步丰富。所谓的内涵就是设计的深层次印象。设计者在对地域文化的吸收和转化过程中,本身就接受着地域文化所包括的内涵。这种内涵不但包括物质的内涵,还包括精神的内涵。将这些地域特征所包括的内涵,引入到设计中来,不但可以影响设计的形态、含义,还可以影响设计的框架结构。站在环境艺术角度来看,为了取得更好的环境艺术设计效果,加强地域文化的挖掘是必不可少的。也只有深入地挖掘地域文化的特色,才能更好地丰富环境艺术设计的内涵。

四地域特征在环境艺术设计中的应用对策

通过上述分析,我们对地域特征的内涵、与环境艺术设计的关系、对环境艺术设计的影响等有了详实的了解。在实际的环境艺术设计中,要应用地域特征,需要采取如下对策:

1、搜集和把握地域特征。在实际的环境艺术设计中,素材的搜集和整理是基础。为了对这些素材进行有效的研究,就需要对地域特征予以搜集和把握。具体来说,也就是将地域的特色文化充分挖掘出来,去粗取精,将有用的地域文化元素归集,丰富设计的素材库。在确定了素材库后,设计者还需要对区域性的独特文化进行提炼,只有经过提炼的素材,才能在确保其地域性的基础上,更具艺术价值,对当地的文化起到传承和弘扬的意义。总的来说,搜集和把握地域特征,对地域性文化的保护有着重要的作用;同时根据地域文化素材设计的方案,也能够将地域特色、艺术内核表现出来,提升自身的艺术审美价值。

2、生成环境艺术设计元素。在对地域特征素材的提炼中,要不断加深对地域文化的理解,结合当地的历史背景、环境特色,将地域文化素材进行抽象、浓缩,使其成为设计元素。当设计元素形成后,设计者要将这些元素符号化,依托环境艺术设计理论、形式,使其应用到具体的环境艺术设计中。只有经过这样的认识和转化过程,地域特征才能与环境艺术设计交融。部分地域文化素材是较为抽象的,为了更好地对其进行加工,设计者应该将其具象化,并结合当地的历史文化事件、精神思想等,将其独特的地域文化元素凸显出来。

3、创新环境艺术设计形式。为了更好地将地域特征与设计融合,设计者就不能拘泥于刻板环境符号的利用,而应该深入把握地域文化,搜集更多的可用符号和文化。设计者要加强对地域文化现象的把握,深化地域文化的内涵,挖掘地域文化的本质。应用地域文化符号,并不是直观的模仿,而是设计理念和内涵的渗透。而要实现这样的目标,就需要我们对传统的环境符号予以创新,并站在现代环境艺术设计的角度,促进地域文化的符号化,使其更好地与现代环境艺术设计融合。通过环境符号的创新,不但可以促进传统环境符号理论的发展,还能加强对地域文化的开发,对区域文化的发展有着重要的意义。具体来说,设计者要加强对地域文化特征、本质的把握,对环境艺术设计的形式予以创新,引入更多符合地域文化符号的设计理念、形式,将地域文化的特色表现出来。

总结

本文主要阐述了地域特征的内涵,在此基础上对地域特征和环境艺术设计的关系进行了剖析,分析了地域特征对环境艺术设计的影响,并提出了地域特征应用于环境艺术设计中的应用对策,以期有效地丰富环境艺术设计经验,提高环境艺术设计水平。

参考文献:

[1]钱丽竹.符号学在环境艺术设计中的文化表征解析[J].美术教育研究,2014(14).

[2]何礼.论环境艺术设计及其个性化[J].艺术科技,2014(01).

[3]孙天骐.论环境艺术专业人才的美学素养[J].哈尔滨职业技术学院学报,2015(05).