首页范文数学建模含义十篇数学建模含义十篇

数学建模含义十篇

发布时间:2024-04-26 01:36:17

数学建模含义篇1

【关键词】等号方程建模化归

教方程会遇到学生提出的各种问题,仅仅告诉孩子“这是规定”肯定是不够的。怎样才能向学生说清楚这些规则背后的“为什么”?一日,突然顿悟:问题的根源其实很简单――“=”,一个小小的等号就能说明这一切!

一、等号的含义

等号,可算得上数学中最普通的符号了,四则运算、解方程、列方程解决实际问题、等式变形等各类数学活动中都离不了它。1557年,数学家雷科德(R.Recorde,1510―1558)在他的《智慧的激励》(thewhetstoneofwitte)一书中首先富有创见地用两条平行且相等的直线段“=”来表示“相等”,叫做“等号”。

等号的含义有两个方面:一是表示“运算的结果”,二是表示“等价关系”。在四则运算中,“=”是一种分隔符号,意味着开始运算并得到运算结果,等号的右边被认为应当就是答案。也就是说,在四则运算中更多的是用等号来“作某件事的信号”,并显示一个结果。学生在很长的一段时期里所接触到的等号都是这样的含义。随着年级的升高,等号出现在新的学习内容――“方程”中。从本质上说,方程呈现的是两件事情相互等价的一种形态,方程中的“=”则表示在等号左右两边的两件事情在数学上的一种等价关系。

或许是因为这个小小的符号实在太普通、太渺小、太常见了,在实际教学中,我们反而忽视了对它的关注,忽略了它在方程中含义的转变,弱化了它在方程学习中起到的作用,才引发了学生在接触方程初期这一系列的“不适应”和“为什么”。事实证明,倘若教师没能有意识地进行渗透,学生很有可能需要较长的一段思维过渡期来渐渐体会等号含义的新变化,适应等号的新用法。

那么在方程教学中,如何帮助学生理解等号的含义?学生理解“=”的含义究竟能对方程学习起到什么样的积极作用?

二、等号的启示

1.更清晰地理解方程的概念

史宁中教授曾在“第九届全国新世纪小学数学课程与教学系列研讨会8226;北京会场”的报告中提到如何理解方程的定义问题,他说:“虽然教科书中定义为‘含有未知量的等式’,但应当知道方程的本质是在讲两个故事,这两个故事有一个共同点,在这个共同点上两个故事的数量相等。”也就是说从这个定义出发去判断一个式子是不是方程,意义不大。方程有两个重要的核心思想:建模和化归。这才是方程的数学本质,也是方程教学的重点。至于什么叫方程,什么是一元一次方程等等,在这两个核心思想面前,就显得不那么重要了。如果偏离了这个教学重点,对学生领悟数学本质,发展数学思维都是不利的。

上世纪90年代初,原西南师范大学的陈重穆和宋乃庆在《淡化形式,注重实质》一文中提出了“在数学教学中要注意淡化形式、注重实质”的观点,文别谈到了方程的概念,其中有两点很值得我们注意:(1)方程的概念并没有文字上的定论。文中提及了多个地方对方程概念的叙述,很明显并不一致。(2)人们对于方程的研讨,都是按照方程的实际意义来理解并进行处理的,而不是按定义的条文来进行处理的。

张奠宙教授也发表过类似的观点,他认为:“含有末知数的等式”对方程进行定义无非是种形式化的描述而己,没有实质性的意义。

我们可以清楚地得出结论:在方程的概念教学中,最重要的是体会等号的含义,体会方程的等价关系。在没有实际意义的前提下,讨论“诸如x=0,2x÷5=5……1这样的特殊形式是不是方程”完全没有价值。“含有未知数的等式就是方程”的这种说法,掩盖了方程的模型思想,虽然在形式上符合,但本质上并不是真正意义上的方程。

2.在列方程中体会建模思想

史宁中教授在关于方程思想的访谈中说过:“用等号将相互等价的两件事情联立,等号的左右两边等价,至于其中的关系是用自然语言表示的,还是用数学符号表达的,都不太重要,重要的是等号左右两边的两件事情在数学上是等价的。这就是数学建模的本质表现之一。”

表面上看,方程的建立似乎就是把两个等值的代数式用等号连接起来,但究其实质,不难发现列方程的第一步就是根据等号所体现的等价含义,从现实情景中找到相互等价的两个量,即我们常说的找到等量关系。这也是最关键的一步。在实际解题时,只有首先在心中建立起这个等号,形成一种等价意识,才能有目的地从现实情景中找到相互等价的两个量,然后概括为等价的自然语言,最后抽象成数学表达,用数学符号建立方程,解决问题。这正是建模的过程,也是方程思想的精髓之一。如果没有第一步建立等价意识,那么后面的列方程也就无从谈起,这正是建模思想的源头所在。

3.在解方程中体会化归思想

解方程的关键在于转化,将新出现的方程问题转化为已经解决的方程问题,回归到已知的算法,这正是化归思想。方程的化归将未知转化成已知,其实质则是运算的优化。遵循最佳途径进行运算可以训练学生将复杂问题简单化的思维方式,这对于他们思维习惯的影响是很有裨益的。这就是方程教育价值所在。

学生在透彻理解解方程的过程后,就自然理解了解方程过程中的各种规定,也就不会因为受到四则运算的思维习惯的干扰而出现这么多的“格式错误”了。

一个小小的等号,折射出的是方程中最重要的等价思想。理解这个小小的等号,既了解了方程概念的本质,也感悟到了列方程时的建模思想,体会到了解方程中的化归思想,这才是方程思想的本质!这才是方程学习的价值!这才是方程教学的意义。

【参考文献】

[1]义务教育数学课程标准(2011年版)[m].北京:北京师范大学出版社.

[2]史宁中,孔凡哲.方程思想及其课程教学设计[J].课程・教材・教法,2004,(9).

[3]潇湘数学教育工作室.建模与化归:方程教学的重中之重[J].湖南教育(数学教师),2008,(06).

数学建模含义篇2

关键词:XmL;DtD;数据映射

中图分类号:C37文献标识码:a文章编号:1007-9599(2010)05-0000-01

ResearchonXmLDtDDatamapping

ChengDongbo

(ComputerinformationCenterofHefeiLabourandSecurityBureau,Hefei230061,China)

abstract:XmLhasbecomethestandardofinteractivenetdata.allXmLshouldfollowoneoftwostandards:DtDorXmLSchema.thispaperfirstlyanalyzestheelements,attributesandoperatorsinXmLDtD,secondlygivetheXmLDtDsimplifiedprogramming,finallydiscussedtherelationmodetoXmLDtDmappingrulesandmappingprocedure.

Keywords:XmL;DtD;Datamapping

一、XmL技术特点

可扩展标记语言(XmL),是标准通用标记语言(SGmL)的一个子集,描述了一类称为XmL文件的数据对象,同时也部分地描述了处理这些数据对象的计算机程序的动作。

XmL是一种可根据应用程序以不同的方式来描述各种不同类型文件和资料的逻辑结构的元语言(metalanguage),也是一种基于文本的标记语言。XmL文件由称为实体的存储单元组成,实体可以包含己析数据或未析数据。己析数据由字符组成,其中一些字符组成字符数据,另一些字符组成标记。标记中包含了对文件存储格式(storagelayout)和逻辑结构的描述。XmL提供了一种机制用于约束存储格式和逻辑结构。

二、DtD技术特点

DtD(DocumenttypeDefinition,文档类型定义)是一套关于标记符的语法规则。DtD原来是为使用SGmL开发的,它可以是XmL文档的一部分,称为内部DtD子集,但是它通常是一份单独的文档或者一系列文档,即外部DtD子集。XmL本身并没有一个通用的DtD,用户可以自己定义DtD,若是在一个行业组织内想使用XmL进行数据则统一定义它们自己的DtD。DtD可以是一个完全独立的文件,也可以在XmL文件中直接设定。所以,DtD分为外部DtD和内部DtD两种。

三、基于DtD的XmL数据到关系模式的转换技术

一个关系模式的定义可分两部分:数据源定义和实体(包括关系实体)的定义。数据源的定义不外乎oDBC等几种,定义它的目的在于转换程序的跨平台的通用性。实体定义包含两部分:结构定义和约束定义。结构定义类似关系数据库的表定义,包含对每个字段的类型、长度等的定义。约束定义则主要包含对字段的外键和引用的约束定义。

(一)XmL模式到关系模式转换目标

XmL模式到关系模式的转换的目标,是将某一种XmL文档DtD定义好的XmL文档中的Content部分、属性值部分转换成关系模式中的某个元组的某个字段的值,而将他们之间的位置关系转换成关系模式中的外键等应用关系。

(二)XmL模式到关系模式转换

第一步,对DtD中的元素和嵌套元素进行处理。有如下原则:

将DtD中的每一个元素节点转换为数据库表格中的一个字段。

对于父元素节点来说,在关系模式中,它是一个实体,对应一个独立的关系模型,用关系模式记为:R(a1,a2,……an),其中R为关系名,a1,a2,……an为属性名。在DtD中,属性名对应为元素节点,而R对应的就是元素节点的父元素。

如果一个元素结点为嵌套元素,那么在处理这个元素时,则应把关系模式中此元素节点对应的属性,转换成实体,将这个元素结点及其子元素节点转换为数据库中另外一个关系模型,建立表格。

第二步,DtD中元素属性的处理

在元素的起始卷标中,或是在空白标签中,可以含括一个或多个属性规格。属性规格是一个与元素结合的名称-数值对。

将DtD文档每个元素结的属性结点转换时。有以下几种情况:

(1)如果是iD属性且是#ReQUiReD,则将其转换为表格中的字段;

(2)对于简单属性且它是#ReQUiReD,则建立数据库表格,以元素名字为名,将属性填入到表格,成为字段;

(3)对于所有被#impLieD标注的属性,则建立数据库表格,以元素名字为名,将属性填入到表格,成为字段;

(4)对于含有iDReF属性的元素,则建立数据库表格,以iDReF属性名字为名,将属性填入到表格,成为字段;

(5)对于含有iDReFS属性的元素,则建立数据库表格,以iDReFS属性名字为名,将属性填入到表格,成为字段;

第三步,DtD中元素结点之间相互关系的转换

有以下几种情况:第一种情况是父元素结点与子元素结点之间相互关系的转换,其中:

(1)如果DtD中父元素结点与子元素结点直接相连情况,则它们在数据库表格中是1:1的联系,直接在表格中添加字段;

(2)如果DtD中父元素结点与子元素结点用操作符“?”连接,则它们在数据库表格中是1:1的联系,直接在表格中添加字段;

(3)如果DtD中父元素结点与子元素结点用操作符“+”连接,则它们在数据库中是1:n的联系,需要另外建立表格;

(4)如果DtD图中父元素结点与子元素结点用操作符“*”连接,则它们在数据库中是1:n的联系,需要另外建立表格。

参考文献

数学建模含义篇3

【关键词】汉语第二语言教学;双音节复合词;语义激活扩散模型;含相同语素

一、语义激活扩散理论

1.语义激活扩散理论的提出。激活扩散模型(Spreadungactiationmodllins)是Collins和的Loftus(1975)提出的,它也是一个概念网络模型,但与层次网络模型不同。它放弃了概念的层次结构,而以语义的网状联系表示它们的联系。

下图的图中方框为网络的节点,代表一个概念。概念之间的连线表示它们的联系,连线的长短表示联系的紧密程度。连线愈短,表明联系愈紧密,概念之间有愈多的共同特征;两个节点之间通过其共同特征有愈多的连线,则两个概念的联系愈紧密。从图中可以看出,各种机动车通过其共同特征而紧密联系起来。围绕各种颜色的关联也是这样。

图1:激活扩散模型片断

2.语义激活扩散模型的加工过程。激活扩散模型的加工过程是很有特色的。它假定,当一个概念被加工或受到刺激,在该概念节点就产生激活,然后激活沿该节点的各个连线,同时向四周扩散,先扩散到与之直接相连的节点,再扩散到其它节点。此外还假定,激活是特定源的激活,虽有扩散,但可追踪出产生激活的原点。此外还假定,概念间连线的另一个重要特征:强弱。前面提到概念间连线按语义联系紧密程度而有长短之分,现在连线则又有强弱之别。连线的不同强度依赖于其使用频率高低,使用频率高的连线有较高强度。同样,当连线的强度高时,激活扩散的越快。

二、含相同语素的复合词群落的语义激活扩散模型的构建

1.激活汉字显义功能,理解含同一语素的复合词语义网络

由于汉字与汉语单音词的关系是十分密切的,这样在单音词指向复音词的组词过程中,汉字在复合词中具有显义作用。一般说来,一个汉字是一个语素,语素是有意义的,它是音义结合在一起形成的最小的单位。汉字字形对语素义的表现也能起到显义的作用。人们一看到字形,就会联想到仅仅从语音形式上想不到,或不能那么迅速联想到的东西。

例如,看到“海潮”两个字就似乎看到了汹涌澎湃,惊涛骇浪的飞动,而听到“haichao”则难以达到这种效果。汉字字形字势溶入单音词之中,它将单音词的意义特征形象而又概括地反映在字形上,使人们一看到是字形,就将意念活动直接指向客观对象,进而指向一组符号。如上面所说的“海潮”的那种效果。

在汉语第二语言词汇教学中,如何运用汉字的这一优势,帮助学习者构建汉语复合词的认知模式?要掌握大量的词语,不能主要靠汉字的视觉效果,还要依靠理解一个语素义,进而理解复合词群落。前面已经提到:看到“海潮”两个字就似乎看到汹涌澎湃,惊涛骇浪的飞动。同时我们还应该搞清楚,“海”指大洋靠近陆地的部分,有的大湖也叫海。“潮”指海水因为受了日月的引力而定时涨落的现象。那么,来看一下以“海”为“节点”的双音节复合词群落的语义网络。

图2:“海”的双音节复合词群落的语义网络的片断

如上图所示,“海”与“岸”二者的语义关系是修饰与被修饰的关系,意思为“邻接海洋边缘的陆地”;“海岛”的语义关系是同样的修饰与被修饰,意思为“海洋中的岛屿”;“海路”指“海上运输的航线”;“海轮”指专在海岸上航行的轮船。“人海”与“火海”中的“海”是比喻义,即“比喻数量多的人或事物”。以上是以“海”为“节点”的双音节复合词群落中复合词的图示。这些含有“海”这个语素的复合词,如果有一个被激活,学生应该想到有关的另一个,这样才能保证他们不写别字。所以,含有一个汉字的词语群落中各个单词都可以通过这个字被激活,汉字具有显义功能,具有显示词语群落的功能。

2.激活汉字对含同音语素复合词的区别作用。符号是什么?在认识活动中,人们常常用甲事物代表乙事物,这代表乙事物的甲事物就是乙事物的符号,即符号是事物的代表,是指代他种事物的标记。

符号是由形式和内容两个部分构成的结合体,形式是人的感觉器官可以感知的,内容则是形式所表达的意义。像红绿灯、旗语、手势、文字等是视觉可以感知的,是视觉符号,汽笛、军号是听觉符号。语言是听觉符号系统。这些可以感知的形式都是和意义结合在一起的。汉语中“人”的语音形式“r閚”,是听觉可以感知的声音,它的意义是指所有的人,概括起来可以说是“用两条腿走路、会说话、会干活的动物”,“ren”这个形式和人的意义结合成汉语中的人的符号,代表着客观世界中的人这种事物。

在所有的符号中,语言符号是最重要、最复杂的一种。语言中最小的符号是语素,汉语中的“黑”、“板”、“人”、“民”、“朋”、“友”等都是符号。语素是语言中音义结合的最小单位。人们自然地感觉到语言中的单位是词,而不是语素。有些词由一个语素构成,如“人”、“水”、“火”、“土”,有些词包含不止一个语素,如“黑板”、“人民”、“朋友”。

汉字这一符号,对含同音语素的复合词具有区别作用。具体表现为:汉语中的同音字,是语音上的相同,声音上的这种相同常常会造成字形上的混淆。因为学生感知到了声音,但并不明确所指是什么,这时,应将这些同音字书写出来,通过字形形式来辨别。

例如:(说明:画#号的词有同音词;不加#号的,括号内的字大多是别字;画*号的有异形词,括弧外的词形是规范词形。)

#得到(道)#势力(视)#主意(义)#过虑(滤)#公用(功)

究竟(竞)避免(勉)汇报(会)年纪(记)导致(制)

访问(仿)习惯(贯)经常(长)篮球(蓝)立刻(克)

*订婚(定)*精彩(采)*身分(份)*计划(画)*图像(象)

少数民族中学生汉语教学中,如果引导学习者利用汉字对含同音语素的区别作用构建复合词认知模式,这样可以预防或避免别字现象。

那么,如何引导少数民族中学生构建含相同语素并含同音语素的复合词的认知模式呢?在前面谈到了语义记忆的激活扩散模型。这里我们就运用该理论,激活汉字对含同音语素的复合词的区别作用,有利于引导学生构建同一个语素组成的复合词群落语义记忆的激活扩散模型。

3.激活汉字对同音复合词的区别作用。汉语的音节数量少,复音节的词增加了组合的类型,减少了相同的机遇,但两个音节的复合词同音的机会仍高于西方语言的多音单音词和多音词。同音词多,这无疑对汉语第二语言学习者带来了极大的困难。对此应该试图利用“汉字对同音复合词的区别作用”来构建汉语复合词词汇的语义网络解除这一困难。

汉语复合词语音相同率高的现象仍有赖于汉字的参与,凭借着汉字形体的显示,才可以将同音复合词清楚地分辨出来。

少数民族学生因同音而书写别字的现象普遍存在。这是因为音近的语素语义系统相混淆而造成的。解决这一问题的有效途径是帮助他们构建语素的语义系统。上面这些就是他们经常混淆的词。这里就不能通过声音记忆汉字,而要通过语义并强调字形来记忆汉字,这样才能避免别字现象的出现。含相同语素复合词群落的记忆与激活,是以汉字作为节点的,应该注意对含同一汉字的复合词群落的讲析。

运用上述认知心理学研究成果,帮助少数民族学生逐步构建起语素和相应复合词的语义层次网络模型,引导汉语第二语言学习者在学习的过程中逐步完善复合词心理认知模式,使他们在较短时间内,能够正确理解、记忆、书写汉语复合词,牢固地掌握现代汉语书面语词汇,是解决少数民族学生写错别字的科学途径之一,并对国内汉语第二语言具有重要的理论价值和现实意义。

参考文献:

[1]王甦,汪安圣.认知心理学[m].北京:北京大学出版社,2001:175-182.

数学建模含义篇4

关键词:元数据;提取转换;查询引擎

中图分类号:tp

文献标识码:a

文章编号:1672-3198(2011)06-0255-01

1引言

在元数据标准Cwm中,元数据定义为关于数据的数据,是描述数据及其环境的数据。

2系统元数据分析与模型建立

2.1科研项目元数据标准

通过对系统元数据的定义需求,确定本系统元数据库中元数据的定义标准:

(1)基本属性:包括元数据项名称、名称缩写、唯一标识、含义、类型、精度、计量单位、是否主键、所属元数据项标识、可否用于检索。

(2)数据映射及提取定义:包括元数据来源于哪个数据库,来源于指定数据库的那个对象,对象可以是表、视图、存储过程等。

2.2科研项目系统元数据建模

图1元数据库架构

科研项目元数据库建模包含两部分内容:元数据字典建模和元数据。

2.2.1元数据字典

元数据以科研项目元数据库中数据基本单元为单位,按一定顺序排列,对其内容作详细说明的数据集,元数据字典中存放着元数据库中所有数据的定义,即对所有元数据库对象结构的描述(名称、标识、含义、类型、数据大小、格式、度量单位、精度以及允许取值范围等),它提供了对科研项目元数据库数据描述的集中管理手段。

2.2.2元数据

科研项目管理系统中的元数据包括了面向查询统计领域的所有数据实体及实体构成元素项,元数据库中的数据并不是来源数据库数据的简单复制,是面向查询特定领域的按照业务元数据标准组织的,在确定这些实体及实体所包含的元素时,遵循了以下原则:

(1)编码屏蔽原则:由于该元数据库是面向查询的,因此在数据从来源数据库中提取转换到元数据库时,只保留编码代表的语义信息。

(2)元数据数据项为最终项原则:即元数据中的每一项数据都为最终结果,而不包括中间数据。

(3)对于需要汇总的数据,需在元数据库中进行定义,汇总结果在数据提取转换过程中完成,查询时只是取得一个汇总结果数据。

2.3元数据存储及提取与转换

在本系统中,科研项目元数据以数据库中表的形式存放,对应元数据的逻辑划分,在数据库中建立了相应的数据表以存放元数据。

确定了元数据的存储方式并建立相关表后,须将元数据从源头数据库中提取到元数据库中。在数据提取环节通过SQLServer的DtS工具组件完成了数据从源头库到元数据库的提取功能。建立了四个数据提取包即:项目数据提取包、奖励数据提取包、鉴定数据提取包、外事项目提取包,分别完成相关元数据的提取任务。

3基于元数据的科研项目定制查询引擎设计

3.1基于元数据的科研项目定制查询引擎设计

3.3.1查询定制器

定制处理器完成了查询的定义功能,它的定义功能是建立在元数据库基础上的,同时可将查询的定制数据记录到数据库表中。查询定制器从一个查询最基本的构成要素考虑,包含查询的范围(表集合)、表连接联系、筛选条件等方面的定义。

(1)查询的数据来源:即来源于哪些元数据体,元数据体的哪些元素。

(2)查询条件定义:查询条件是通过定义select语句的where子句内容实现的,包括每一查询条件的数学运算与查询条件的逻辑运算。查询条件的数学运算主要指“等于”、“大于”、“小于”、“包含”、“匹配”五种运算的实现,当查询条件多于一个时彼此之间存在逻辑运算关系“and”和“or”,独立的查询条件通过逻辑运算关系组织进来,构成复合查询条件关系。

(3)元数据体之间的连接关系,实现了内连接、左外连接、右外连接、全外连接、矢量积连接等连接功能。

3.3.2数据访问处理

包括查询命令生成器、查询命令解析、查询命令执行器三部分。其中查询命令解析是实现查询器最重要的一部分,语法分析的正确与否直接关系到检索结果的内容是否能达到用户的要求。

DmL语句包含的子句有SeLeCt,FRom,wHeRe,GRoUpBY,HaVinG,oRDeRBY等。通过查询命令执行器调用定制好的查询命令,在数据库中执行,并返回XmL格式的数据文件。

数学建模含义篇5

瞬态分析的阻尼设置如下:

(1)材料阻尼设置.在properties所要求选取的材料(如isotropic各向同性材料和orthotropic正交异性材料)inputpropertiesStructuralDampingCoeff中输入相关数值.

(2)瞬态响应等效阻尼设置.在analysisSolutiontypeSolutionparameters中设置.

(3)模态阻尼设置.在analysisSubcaseSubcaseparameter中设置.此类设置仅用于模态法.

频响分析的阻尼设置如下:

(1)材料阻尼设置.在properties所要求选取的材料(如isotropic各向同性材料和orthotropic正交异性材料)inputpropertiesStructuralDampingCoeff中输入相关数值.

(2)总体结构阻尼设置.在SolutiontypeSolutionparameter中设置.

(1)打开patran,进入材料创建页面.

(3)在Session录制对话框中选择ses文件有效存放路径,然后输入用户名(如Ly_materials_library.ses),点击apply.

(4)手动输入材料名和材料属性,可以创建一个或多个材料.

(6)在录制路径下,找到刚创建的文件,通常用01编号为后缀结尾,将该文件去掉数字后缀,然后复制到patran安装路径中的文件夹下.这样,自定义的材料数据库文件就生成完毕,可以重复使用.3如何设定在mSCnastran计算时不输出DBaLL文件?双击mSCnastran,进入mSCnastranCommondinformation,在mSCnastraninputFile中选择相关的计算文件,然后在optionalKeywords中输入“scr=yes”即可.4如何设置计算结束后不输出F06文件?将Solutionparameters中maximumprintedLines等于F06文件中输出的最大行数.5计算结束后,mSCnastran形成文件的用处是什么?Job_name.DBaLL包含数据库运行的永久数据;Job_name.maSteR为数据库运行的总词典;Job_name.F04包含数据库文件信息和模板执行摘要;Job_name.F06包含mSCnastran的分析结果,为文本文件;Job_name.LoG包含系统信息和系统错误信息;Job_name.op2包含mSCnastran的分析结果,为二进制文件;Job_name.XDB包含SC.nastran的分析结果,为二进制文件.

通过使用上述命令可以将所建立的梁显示为三维形状.7如何在patran中定义单元和转换单位?在patran中并无特定的单位系统,用户具有相当大的弹性,可以自行定义所属的单位.相对地,用户必须注意所使用的单位是否一致,以免发生误判.

(1)通过菜单操作.通过FileChangeJobname修改文件名,使之与运行中断的文件名一致.

(2)通过菜单操作.通过FileResumeJobname.db,读取Jobname.db文件.

(3)按自己的需要对载荷进行修改或增删.

数学建模含义篇6

关键词:模糊本体;用户偏好;学习对象;推荐

中图分类号:G434文献标志码:a文章编号:1673-8454(2017)03-0074-04

一、引言

由于科学技术的飞速发展,特别是网络技术的提高以及各种教学工具的应用,e-learning已经成为一种重要的教育教学的方法。e-learning是指主要通过网络进行的学习与教学活动,充分利用现代信息技术所提供的全新沟通机制与丰富的学习资源,实现一种全新学习的方式。[1]e-learning具有传统教学方式无可比拟的优势,给教师和学生提供一个全新的学习教学模式。在当前的环境下,如何利用e-learning推荐系统主动和学习者进行信息交互,分析学习者的个性需求,给他们提供感兴趣的学习内容,已经成为一个研究的热点问题。

Userprofile能够体现用户的偏好信息,是用户兴趣的描述文件,存储用户偏好的数据及其结构。Userprofile可以用语义网来存储信息,表达用户的喜好,促进信息的存储和检索过程,而语义网利用形式化本体来创建机器可识别的数据,本体在处理机器可识别的描述信息方面是非常优秀的,但在现实世界中本体的形式化概念在处理一般领域中的不精确、不确定和模糊的信息时就无能为力了。[2]为了能描述不精确、不确定和模糊信息引入模糊概念和模糊关系,把模糊理论扩展到本体上,形成模糊本体。模糊本体能够处理模糊知识,能描述和检索文本和多媒体对象中模糊信息。[3]

本文提出一种基于模糊本体的userprofile来提高e-learning推]系统的教学活动。主要目的是提高检索、分类和管理学习对象的性能,利用模糊逻辑来定义、执行和校验自动构建基于userprofile模糊本体的过程,并把它应用在推荐系统中。

二、模糊本体的构建

本体是共享概念模型的明确的形式化规范说明。[4]本体构建(又称本体学习)过程是对概念和概念间的关系组织。现实世界中信息的不精确和不确定,引入模糊逻辑对本体进行了模糊扩展,提出了能够表示模糊知识的模糊本体,这主要有两个优点:第一,通过本体提高了概念的形式化描述;第二,帮助描述和处理在许多应用领域里的模糊信息。自动化模糊本体的构建在没有人为参与的情况下从数据源中抽取有用的信息。

nikravesh[5]提出了一种基于概念和web数据库的智能决策分析系统模型,利用该模型可以准确检索到相关信息。该模式采用基于术语相似度函数的概念潜在语义索引技术由文本文档集来自动构建本体。Calegari等人[6]描述了一种方法利用模糊本体提高语义文档的检索性能,阐述了基于模糊概念网络的信息检索算法。本文主要是自动化构建模糊本体,通过结合文本挖掘和计算机技术抽取更多的有关用户偏好的描述信息来提高自动构建模糊本体的过程。

三、基于模糊userprofile的推荐系统

根据Burke[7]的定义,推荐系统输出个性化的推荐内容,在可选空间中给用户提供感兴趣的个性化的有用的对象以便选择。本节主要介绍基于模糊本体的userprofile的组成部件和自动构建过程。Userprofile是用户兴趣的描述文件,是用户个性化需求的体现,由相关学习对象组成。

1.模糊userprofile

在e-learning背景下利用学习对象来描述userprofile,该方法中userprofile由两个组成元素来描述用户的偏好,表示为U(ζ,Fo),其中ζ是描述用户偏好的概念集,Fo是对应偏好的概念集的模糊本体。ζ集是一个概念ci的集合,wi对应概念的权重,来描述用户的偏好程度,如公式(1)所示。

该方法量化每个概念在学习对象集合里的权重:

(1)学习对象d中每个概念ci的权重是一个模糊值。首先根据FiS-CRm[8]模型(fis-crm(ci,d))计算每个概念基本权重值,其次根据这个概念在用户文档中的同义词和出现频率重新调整权重值。

(2)如果一个概念比其他概念在用户文档出现更加频繁,就认为这个概念和userprofile相关性高,也有例外情况。为了获得这个相关度,必须考虑userprofile中的学习对象所包含的每个概念的权重以及在学习对象中出现的频率。概念ci在userprofileu里的权重wu

i用公式(2)计算:

wu

i=wij×

1+×Ln+1(2)

其中wij是利用FiS-CRm模型计算出来概念ci在学习对象dj中的相关度,docs(ci,u)是userprofile里出现概念ci的文件数目,|D|是userprofile中学习对象的总数目,|U|是在e-learning环境下userprofile的总数,U(ci)表示概念ci具有确定隶属度的userprofile的数目。

计算出来概念的权重,就可以确定所有概念之间相关性分布,标准化权重值应该分布在[0,1]之间。只有概念具有足够大的权重(w>0.5)才认为对提高e-learning的学习活动有用。

模糊本体是一个从学习对象抽取的概念间的矢量网络。因此,一个模糊本体可看成是有向图的集合,该有向图的每一个节点代表一个概念,边表示概念之间的联系。

2.建立和更新过程

自动构建模糊本体和模糊userprofile的方法由数据处理、发现和重新描述用户的偏好两个阶段组成。这个过程又可以分为下列步骤:语言预处理、术语索引(也称本体预处理)、userprofile构建和userprofile更新过程。

(1)语言预处理。这个阶段的主要目的是以个体术语的形式从与每个用户有关的学习对象中抽取文本信息。首先,对不同形式的文档进行转换处理;其次,把所有非文本信息,如数字、日期和标点符号从文档(词法分析)中剔除;最后,停用词表和词干提取这两种技术用来减少词汇数量,使描述的文本具有更丰富的含义。[9]

(2)术语索引。本阶段主要利用上阶段产生的所有有关术语的信息构建检索结构,也称预处理本体。预处理本体包含下面的术语特征――术语iD和出现这个术语的学习对象特性列表。由于每个学习对象都包含属性iD――最频繁出现的术语数和术语在学习对象中的位置。每个术语的位置由一个二元组表示(p,s),其中s表示术语位于的章节或者段落,p表示术语在相应部分的索引。

(3)Userprofile的构建。构建部件ζ和Fo时利用预处理本体作为资源。首先是利用fis-crm(cid)计算权值,这个权值是构建概念集ζ和描述模糊本体网络图的关键来源。模糊本体包含有向图形式描述相关度,本体也可以用像owL[10]的语义标记语言来描述。

(4)Userprofile更新过程。当由用户选择或创建新的学习对象时允许新知识加入到userprofile里。这个过程的第一步是为新的学习对象进行语言预处理和术语建立索引。接着重新计算参数,概念之间的相关度和更新后的userprofile里每个概念的相关度。

四、e-learning推荐系统实例

这部分主要对系统进行评估,推荐系统主要是提供给用户有用和有趣的学习对象。在评估这个系统方面主要的任务是利用存储在学习对象库中的学习对象来构建userprofile并进行评估。

1.实验

实验在maCe(metadataforarchitecturalContentsineurope)中进行,这个系统在领域本体构建方面支持以开放形式获取学习资源,特别是在高等教育方面。[11]maCe的基本部件能够分享和重用的对象,包括存储资源索引和元数据的知识库、在异构资源库网络上能支持透明检索的整合搜索引擎、整合其他资源、为网络用户查找和恢复功能的可视化的探测仪等。

实验中参与者必须上传多于20个基于英文pdf文件到maCe知识库中作为学习对象,因为文献的数量足够多才能建立好的userprofile。一组大约1800个学习对象是由11个maCe用户利用maCe的简单查询接口(SimpleQueryinterface,SQi)收集而来。SQi[12]提供每个用户之间的标准化交流,能实现联合查询。每个被选的学习对象都是从pdf文档抽取的文本内容并由此生成一个有关用户文档的集合。这个文档集合被分成两个部分,包含产生用户特征部分和测试推荐系统部分,每个用户就是一个学习对象的贡献者。

2.本体评估

利用上述方法得到每个用户的具有权重的术语集和模糊本体,这些术语集和描述用户特征本体集对学习对象的基本语义进行描述。首先,比较产生本体的所有关系,这些关系是从wordnet中抽取的四种语义关系――同义词、同位词、下位词和上位词。第二步用结构化类比和在概念网络中定义的相似度关系。用precision和Recall来进行评价,precision是指一个被选中的元素相关性概率,Recall表示一个相关的元素被选中的概率,F测试是precision和Recall之间的调和平均数,计算以公式(3)、(4)、(5)来确定系统的性能。[13]

precision=(3)

Recall=(4)

F-measure=(5)

实验结果Recall和precision都在1%到2%之间。因为用户本体由无分类的模糊关系和规则组成,这规则是句法和分类等级。另外,由于这些规则由大量的信息组成,故不能进行深层次的分析。而用舯咎灏含用户基本特征,尽力描述自己的特定的域。

3.推荐系统的评估

利用实验来验证第4章提出的推荐系统的precision、Recall和F测试,本文中采用本体评价标准,这个过程其实是把一个本体作为标准和另一个本体进行比较的过程。[14]表1描述各种符号所代表的含义。

实验选取了11个用户,收集到504个不同领域的学习对象,是利用描述的maCe系统抽取的。数据集被分为训练集和测试集,11个userprofile利用训练集的329个学习对象建立,测试集包含剩余的175个学习对象。比较系统提供的推荐内容和从元数据(如果用户是学习对象的贡献者,这个学习对象就推荐给这个用户)抽取的内容,获得相关的precision、Recall和F值。所有用户的实验数据如表2所示,实验结果如表3所示。平均的precision、Recall和F值分别是87.7%、85.8%和86.4%,显示了本文提出的系统的良好性能,表明提出的系统具有灵活性,能自动产生基于userprofile提供的良好的推荐内容。

五、结论

模糊本体的灵活性支持广泛的信息检索和过滤问题,本文提出了一种利用模糊本体描述userprofile的方法,该方法可以有效地提高e-learning的学习行为,利用推荐系统提供用户感兴趣的学习对象。提出的userprofile结合一个相关的概念集和定义全面描述用户喜好的模糊本体,包含一个用户选择的或者创建的学习对象产生userprofile的过程。实验是在maCe项目上运行,结果显示提出的系统在术语的precision和Recall方面是合理的有效的。

进一步的研究任务是要提高userprofile的质量,利用修剪过程避免不相关的概念提供给用户,要考虑由用户提供的反馈信息,利用一些混合筛选技术,增加更详细的相关性实验。

参考文献:

[1]何克抗.一场深刻的教育革命:e-learning与高等学校的教学改革[J].现代远程教育研究,2002(3):13-20.

[2]陈冬玲,王大玲,于戈.支持个性化检索的Userprofile研究概述[J].小型微型计算机系统,2008(10):1903-1907.

[3]ZhaiJ,ShenL,ZhouZ,etal.Fuzzyontologymodelforknowledgemanagement[C].internationalconferenceonintelligentsystemsandknowledgeengineering(iSKe2007),Chengdu,China.Fuzzyontologyrepresentationmodel.2007.

[4]戴维民.语义网信息组织技术与方法[m].上海:学林出版社,2008.

[5]nikraveshm.Concept-basedsearchandquestionnairesystems[m].ForgingnewFrontiers:Fuzzypioneersi.SpringerBerlinHeidelberg,2007:193-215.

[6]CalegariS,Sancheze.object\fuzzyconceptnetwork:anenrichmentofontologiesinsemanticinformationretrieval[J].JournaloftheamericanSocietyforinformationScienceandtechnology,2008,59(13):2171-2185.

[7]BurkeR.Hybridrecommendersystems:Surveyandexperiments[J].Usermodelinganduser-adaptedinteraction,2002,12(4):331-370.

[8]olivasJa,GarcéspJ,RomeroFp.anapplicationoftheFiS-CRmmodeltotheFiSSmetasearcher:Usingfuzzysynonymyandfuzzygeneralityforrepresentingconceptsindocuments[J].internationaljournalofapproximatereasoning,2003,34(2):201-219.

[9]HullDa.Stemmingalgorithms:acasestudyfordetailedevaluation[J].JaSiS,1996,47(1):70-84.

[10]mcGuinnessDL,VanHarmelenF.owLwebontologylanguageoverview[J].w3Crecommendation,2004,10(2004-03):10.

[11]wolpersm,memmelm,KlerkxJ,etal.BridgingrepositoriestoformthemaCeexperience[J].newReviewofinformationnetworking,2009,14(2):102-116.

[12]VanasscheF,Duvale,massartD,etal.Spinninginteroperableapplicationsforteaching&learningusingthesimplequeryinterface[J].educationaltechnology&Society,2006,9(2):51-67.

[13]CaoY,LiY.anintelligentfuzzy-basedrecommendationsystemforconsumerelectronicproducts[J].expertSystemswithapplications,2007,33(1):230-240.

数学建模含义篇7

关键词:数据挖掘;流量;SQLServer2005

中图分类号:tp311文献标识码:a文章编号:1007-9599(2011)13-0000-02

UseDataminingtoolstoanalyzeinternettraffic

ZhangJun

(YangzhouHongquanHospital,Jiangdu225200,China)

abstract:thispaperuseSQLServer2005Dataminingtoolsforaunittoaccessexternalnetworktrafficandrelatedinformationwereanalyzed.throughtheuseofclustering,decisiontrees,naïveBayes,etc.thataffectthetrafficmodelobtainedseveralkeyattributes.accordingtotheminingresults,timeandnetworkadministratorscansegmentintermsoftraffictocertainadjustments,sothatthenetworkresourcesinthemostefficientuse.

Keywords:Datamining;Flow;SQLServer2005

一、主要技术和实现方法

(一)主要技术

1.数据挖掘

(1)数据挖掘的概念[1]。数据挖掘(Datamining)从技术角度上讲就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

(2)数据挖掘特点。数据挖掘技术具有以下特点:

处理的数据规模十分庞大,达到GB、tB数量级,甚至更大。

查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。

在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。

数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术可能会发现大量的规则。

数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。

(3)数据挖掘的主要算法。最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。主要的算法有:

决策树

Knn法(K-nearestneighbor)

Bayes法

二、利用SQLServer2005进行数据挖掘

(一)SSaS简介

SSaS是microsoft公司的产品。microsoftSQLServer2005analysisServices(SSaS)为商业智能应用程序提供联机分析处理(oLap)和数据挖掘功能。analysisServices允许用户设计、创建和管理包含从其他数据源(如关系数据库)聚合的数据的多维结构,以实现对oLap的支持。而对于数据挖掘应用程序,analysisServices允许用户设计、创建和可视化处理那些通过使用各种行业标准的数据挖掘算法和根据其他数据源构造出来的数据挖掘模型。SSaS是通过服务器和客户端技术的组合来提供oLap和数据挖掘功能的[2]。

SSaS提供了用于数据挖掘的工具,用户可以借助这些工具识别出数据中的规则和模式,SSaS创建数据挖掘解决方案时,首先要创建描述业务问题的模型,然后通过生成数据的数学模型的算法运行数据,此过程称作“定型模型”。接着依据该算法直观地浏览挖掘模型或创建预测查询。analysisServices可以使用来自关系数据库和oLap数据库的数据集。

SSaS是基于SQLServer的一种数据挖掘工具。其实SQLServer2005已经为用户提供了从数据库、数据仓库、oLtp、oLap、数据挖掘和商业智能等一整套的数据服务功能。

用SSaS进行数据挖掘的步骤

一个重要的概念就是生成挖掘模型是大型过程的一部分,此过程包括从定义模型要解决的基本问题到将模型部署到工作环境的所有事情。此过程可以使用下列六个基本步骤进行定义:

定义问题;准备数据;浏览数据;生成模型;浏览和验证模型;部署和更新模型

尽管过程是一个循环过程,但是每个步骤并不需要直接执行到下一个步骤。创建数据挖掘模型是一个动态、交互的过程。浏览完数据之后,您可能会发现数据不足,无法创建适当的挖掘模型,因此必须查找更多的数据。您可以生成数个模型,但可能会发现这些模型无法回答定义问题时所设定的问题,因此必须重新定义问题。您可能必须在部署模型之后对其进行更新,因为又出现了更多的可用数据。因此,了解创建数据挖掘模型是一个过程,并且为了创建一个完美的模型,此过程中的每个步骤可能需要重复多次是非常重要的。

SQLServer2005提供用于创建和使用数据挖掘模型的集成环境,称为BusinessintelligenceDevelopmentStudio。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生成用于各种项目的综合解决方案。

(二)定义问题

数据挖掘过程的第一步就是明确定义业务问题。

该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的最终目标。

(三)准备数据

数据挖掘过程的第二步就是合并和清除定义问题步骤中标识的数据。

microsoftSQLServer2005integrationServices(SSiS)包含完成该步骤所需的所有工具,步骤内容包括转换到自动执行数据清除和合并。

数据可以分散在公司的各个部门并以不同的格式存储,或者可能包含缺陷项或缺少项之类的不一致性。

(四)浏览数据

数据挖掘过程的第三步就是浏览已准备的数据。

您必须了解数据,以便在创建模型时做出正确的决策。浏览技术包括计算最大值和最小值,计算平均偏差和标准偏差,以及查看数据的分布。浏览完数据之后,便可确定数据集是否包含缺陷数据,然后制订纠正这些问题的策略。

BiDevelopmentStudio中的数据源视图设计器包含数种可用于浏览数据的工具。

(五)成模型

数据挖掘过程的第四步就是生成挖掘模型[3]。

在生成模型之前,必须随机将已准备的数据分离到单独的定型数据集和测试数据集。您使用定型数据集生成模型,并通过创建预测查询来使用测试数据集测试模型的准确性。您可以使用integrationServices中的百分比抽样转换来拆分数据集。

您将使用从浏览数据步骤中获得的知识来帮助定义和创建挖掘模型。模型通常包含多个输入列、一个标识列以及一个可预测列。然后可使用数据挖掘扩展插件(DmX)语言,或BiDevelopmentStudio中的数据挖掘向导,在新的模型内定义这些列。有关如何使用DmX的详细信息,请参阅数据挖掘扩展插件(DmX)参考。有关如何使用数据挖掘向导的详细信息,请参阅数据挖掘向导。

定义完挖掘模型的结构之后,需要对其进行处理,使用说明模型的模式来填充空结构。这称为“定型”模型。模式通过利用数学算法计算原始数据而得。SQLServer2005针对可生成的每种模型包含一种不同的算法。您可以使用参数调整每种算法。

挖掘模型由一个数据挖掘结构对象、一个数据挖掘模型对象以及一种数据挖掘算法定义。

microsoftSQLServer2005analysisServices(SSaS)包括以下算法:

microsoft决策树算法

microsoft聚类分析算法

microsoftnaiveBayes算法

microsoft关联算法

microsoft顺序分析和聚类分析算法

microsoft时序算法

microsoft神经网络算法(SSaS)

microsoft逻辑回归算法

microsoft线性回归算法

(六)浏览和验证模型

数据挖掘过程的第五步就是浏览您已经生成的模型并测试其有效性。

您不希望在事先没有测试模型性能的情况下将模型部署到生产环境。同样,您也许已经创建了数个模型,并且必须确定性能最佳的模型。如果您在创建模型步骤中创建的所有模型都无法正常工作,则必须返回到此过程的上一个步骤,重新定义问题或重新调查原始数据集中的数据。

可以使用BiDevelopmentStudio中数据挖掘设计器内的查看器来浏览算法发现的趋势和模式。还可以使用该设计器中的工具(如,提升图和分类矩阵)来测试模型创建预测的性能。这些工具要求使用您在模型生成步骤中从原始数据集内分离的测试数据。

(七)部署和更新模型

数据挖掘过程的最后一步就是将性能最佳的模型部署到生产环境。

当生产环境中部署了挖掘模型之后,便可根据您的需求执行许多任务。下面是一些可以执行的任务:

使用模型创建预测,然后可以使用这些预测做出业务决策。SQLServer提供可用于创建预测查询的DmX语言,同时还提供有助于生成查询的预测查询生成器。

直接将数据挖掘功能嵌入到应用程序。您可以包括分析管理对象(amo)或一个包含一组对象(应用程序可使用这组对象创建、更改、处理以及删除挖掘结构和挖掘模型)的程序集。另外,可以直接将XmLforanalysis(XmLa)消息发送到analysisServices实例。

更新模型是部署策略的一部分。随着单位传入的数据不断增多,必须重新处理模型,以便提高效用。

三、具体实现

(一)建立数据库

首先建立数据库,在数据库中建立了一个数据表,将初始数据导入数据库中。

(二)数据预处理

对登录记录清单表中的数据进行了预处理,主要包括:

1.为提高数据分析和挖掘的效率,将内容为零的属性进行了删除

由于需要分析的是流量与其他属性的关系,所以流量为零以及使用时长为零的记录没有分析价值,将这些记录进行了删除。

2.增加LogiD作为记录的唯一标识

由于使用时长对使用流量有很大的影响,为排除这一干扰因素,增加了平均流量这一属性,且属性值通过使用流量/使用时长获得。

添加了人员类别、网段、登录月、登录日等属性,对影响因素进行了分类。属性值分别由账号、ip地址、登录时间等相关属性值计算获得。

(三)利用聚类分析得出平均流量的分类

由于平均流量是一个连续值,所以要对它进行离散化。要进行离散化就要先进行分类,这里利用了SSaS中的聚类模型对平均流量进行分析(如图),得出了这样一个分类:

类别iD平均流量值

00.0-1.9

11.9-4.9

24.9-15.2

3>15.2

在登录记录清单表中增加一属性平均流量类别(avgFluxLevel),根据平均流量的值写入平均流量的类别值。这样平均流量就被转换成一个离散的值平均流量类别进行分析。

(四)利用决策树、naïveBayes模型得出影响流量的因素

再次导入更新后的数据源,并利用决策树和naïveBayes模型进行分析。这两个模型中,LogiD为Key,avgFluxLevel为预测量,Logmonth、netSegment等为输入量。

(五)得到的结果

(1)通过决策树模型的分析,我们可以得到上网时间、网段、人员类别等属性对流量的影响。

(2)通过naïveBayes模型,我们可以得到各个属性之间的相关性。通过将链接强弱的滑块向下移动,我们可以得知,对平均流量级别影响最大的因素是人员登录的月份。

四、讨论和评价

通过对上网记录数据的挖掘,我们得到了网段、登录时间、人员类别等主要因素对于流量的影响。通过这些结果,网络管理人员可对网络流量的设置进行一定的调整,使得网络资源的利用更加有效。

预想的获得流量与在线时间之间的关系还挖掘的不够。希望以后在增加相关数据的基础上,能对数据挖掘技术进行进一步的研究,能够等到更加实用的模型。

参考文献:

[1]JiaweiHanmichelineKamber.数据挖掘概念与技术(第一版)[m].机械工业出版社,2001

[2]w.H.inmon,王志海.数据仓库(第2版)[m].机械工业出版社,2000

数学建模含义篇8

关键词:图像检索;特征提取;神经网络;机器学习;相关反馈

中图分类号:tn711?34;tm417文献标识码:a文章编号:1004?373X(2016)21?0078?05

Designanddevelopmentofimageretrievalplatformbasedonartificialneuralnetwork

ZHanGweihua,Gaoang

(Departmentofinformationengineering,ZhengzhouChenggongUniversityofFinanceandeconomics,Gongyi451200,China)

abstract:Sincethedifferenceexistsbetweenthehigh?levelabstractsemanticsandunderlyingfeatureoftheuser?descriptionimage,theretrievalsystembasedontheimagecontentfeaturecan′taccuratelyaccomplishtheuser′sretriecaltask.tosolvetheaboveproblem,animagematchingcalculationmethodbasedonneuralnetworkisproposed.thecorrectmappingfromimagelow?levelfeaturetoimageclassificationisformedbymeansofsampleautomaticlearninganduserfeedbacklearning.theneuralnetworkafterlearningcanclassifyandretrievetheimageautomatically.thismethodiscombinedwiththeimagelow?layerfeaturedescriptionanduserhigh?levelsemanticsfeedbacktoeffectivelyrecoverthesemanticgap.thewholeprocessofneuralnetworklearningandimageretrievalwasrealizedbyintegratingthewebfrontend,imageextractionmodule,neuralnetworkmoduleanddatabasemodule.

Keywords:imageretrieval;featureextraction;neuralnetwork;machinelearning;relevancefeedback

在利用神经网络进行图像检索的过程中,图像的大小、精度及细节越来越丰富,信息含量相应的也越来愈多,当使用大量的信息进行神经网络的构建和训练时,所需的时间和成本都大大增加,并且神经网络的检索效率也会降低,这就使得其满足不了用户准确搜索图像的需求[1]。同时,随着神经网络技术的发展,可以利用各种改进技术提高神经网络的学习效率和预测准确率,使得利用神经网络来模拟人脑对图像的分类和检索可以得到更好的效果。

1图像特征的提取

系统使用图像分割方法对图像的形状特征进行描述,提取图像中各个部分的形状特征。

1.1形状特征的提取

使用K?均值聚类分割算法进行图像的分割。将图像分割后,由于每个簇中的像素在视觉特征上具有很强的相似性,因此对每一区域的特征进行简单的描述,提取相应的图像特征然后保存结果,并将其作为图像检索系统的区域特征库。系统针对不同的图像特征选取不同的方法进行描述:

(1)区域颜色特征,提取该区域中像素点在Lab颜色空间中的均值来描述。

(2)区域位置特征,提取该区域中像素点在二维空间中的坐标的平均值来描述。

(3)区域纹理特征,提取该区域中像素的平均对比度及平均各向异性来描述。

(4)区域形状特征,提取该区域的封闭轮廓,并将其分解为可由若干椭圆重构的由椭圆参数组成的序列,然后通过傅里叶描述符来描述该封闭曲线[2]。

1.2颜色特征的提取

由于颜色直方图的限制,选择颜色相关图进行图像颜色的提取。图像的颜色相关图就是由所有颜色对进行索引的表,在表中[(i,j)]的第[m]个条目表示找到与颜色为[i]的一个像素点距离为[m]的颜色为[j]的一个像素点的几率。在计算颜色相关图时需采用一些并行计算,这样可以提高计算效率。

1.3纹理特征的提取

通过对比基于tamura纹理特征算法的检索程序、基于灰度?梯度共生矩阵算法的检索程序和基于Gabor小波变换算法,基于tamura纹理特征提取算法的检索程序的查询准确率要比后两者都高,且其查询使用的时间也要少很多,因此系统选择采用tamura纹理特征提取算法。

2Bp神经网络模型的搭建

2.1Bp神经网络特点

选择Bp神经网络作为图像的神经网络分类器,其将[n]维图像底层视觉特征映射为图像的分类。通过实验对Bp神经网络进行一些改进和优化,使其能有效地完成图像检索的任务。典型样本集的选择、学习复杂性、网络结构的选择、输入特征向量的选择、预测能力的极限都是需要在搭建Bp神经网络时需要考虑的问题[3]。

2.2Bp神经网络的原理及拓扑结构

基于Bp神经网络相关原理的学习与分析,确定了系统中Bp神经网络的结构和构建过程:首先定义输入层、隐含层和输出层的神经元数目分别为[n,l]和[m,]则[(x1,x2,…,xn)]为网络的输入矢量,[(h1,h2,…,hl)]为隐含层神经元的输出矢量,[(y1,y2,…,ym)]为网络的实际输出矢量,同时定义[(d1,d2,…,dm)]为训练样本所对应的预期输出矢量。然后定义输出层神经元[i]与隐含层神经元[j]的连接权值为[Vij,]隐含层神经元[j]与输出层神经元[k]的连接权值为[wjk,]隐含层神经元[j]的阈值为[b,]输出层神经元[k]的阈值为[c。]由于传递函数需要表示具有线性特性的输入信号与输出信号的联系,又根据Bp神经网络要求传递函数必须连续可导,因此其一般使用在(0,1)之间连续并可导的Sigmoid函数作为传递函数,该函数公式为:

[f(x)=11-e-x](1)

实际输出矢量与预期输出矢量的误差计算公式为:

[e=12j=1m(dk-yk)2](2)

隐含层神经元输出矢量的计算公式为:

[hj=fj=1n-1Vijxi+?j](3)

输出层神经元输出矢量的计算公式为:

[yk=fj=0L-1wjkhj+θk](4)

Bp神经网络通过反向传播算法调整权值,其权值修正公式为:

[wij(n+1)=wij(n)+ηδjx′i](5)

在式(5)中,[wij(n)]表示第[n]次学习后的神经元[i]与神经元[j]之间的连接权值,信号输出的神经元为[i,]信号输入的神经元为[j,][Xi]为神经元[i]的实际输出,[η]为网络的学习速率,[δj]为神经元[j]的学习误差。

系统中Bp神经网络的构建流程如下:

(1)初始化网络的连接权值和阈值,其值为均匀分布的随机数。

(2)对网络使用一组样例数据进行训练。

(3)网络搭建完成,将输入矢量输入网络可仿真输出符合预期的输出矢量[4]。

2.3Bp神经网络的学习过程

通过对相关反馈算法的学习,提出了一种基于Bp神经网络进行学习的图像检索方法,它包含两种学习过程:

(1)自动样例学习,首先通过包含高层语义标注的样例图像的学习构建图像高层语义的分类器,其中对于图像的每种语义分别构造一个分类器,输入样例图像后使系统提取图像的底层特征作为神经网络的输入,然后经过一定时间的学习可以得到网络的解,使分类器能够初步完成分类任务;

(2)用户交互学习,首先通过用户的指导,将初步检索结果进行分类,然后系统将用户的反馈整理为学习样本,同样使用自动样例学习过程进行学习,最后得出网络最新的解,使分类器能更精确地完成分类任务。系统中Bp神经网络的学习流程如图1所示。

2.4Bp算法的改进

使用附加动量法可以使网络在修正连接权值时,不只考虑误差在其梯度上的变化趋势,还考虑误差在其曲面上的变化趋势。在没有附加动量的情况中,网络在训练过程中有可能陷入局部极小状态,通过使用附加动量则可以在一定程度上绕过这些极小值,避免进入极小状态[5]。附加动量法在反向传播过程中,在每一个神经元的连接权值及阈值的当次训练的变化量上附加一个正比于上次训练后的连接权值及阈值的变化量的项,根据新的变化量计算出新的连接权值及阈值。添加了附加动量因子的连接权值和阈值的变化量计算公式分别为:

[Δwij(k+1)=(1-mc)ηδjpj+mcΔwij(k)](6)

[Δbj(k+1)=(1-mc)ηδj+mcΔbij(k)](7)

式中:[k]表示第[k]次训练;[mc]表示动量因子,[mc]的取值一般在0.95附近。

在结合附加动量法的网络训练过程中,需要根据不同条件判断何时使用动量因子来修正权值,其判断条件为:

[mc=0,e(k)>e(k-1)×1.040.95,e(k)

式中[e(k)]为第[k]步的误差平方和。

自适应学习速率的调整公式为:

[η(k+1)=1.05η(k),e(k+1)e(k)×1.04η(k),etc](9)

式中[e(k)]为第[k]步的误差平方和。

动量法可以帮助Bp算法正确找到全局最优解,自适应学习速率法可以帮助Bp算法缩短训练时间,通过这两种方法的使用,可以有效地提高神经网络的学习效果。

2.5实验结果分析

实验目的为确定系统中Bp神经网络分类器的隐含层神经元数目。首先根据研究获得的图像特征向量的元素个数构建神经网络分类器的学习样例,此处每个样例的输入向量的元素个数为165个,因此构建16组含有165个元素的输入向量,4个一组划分为一种类别,最终形成含有4种类别的16组训练样本,以此方法再生成该4种类别的4组测试样本。然后根据经验公式获得合适隐含层神经元数目的取值范围,此处为9~17个。最后将训练样本及测试样本先后输入隐含层神经元数目不同的网络中进行训练和测试,记录数据。

表1记录了隐含层神经元数目及对应的训练误差和测试误差的数据,由其数据可以看出,随着隐含层神经元数目的增加训练误差总体上逐渐减小,当个数超过15后训练误差出现一定程度的波动,出现小幅的增加,虽然不影响网络的学习效果,但是过多的神经元个数会增加学习时间,而此时测试误差还是处于降低的趋势。综合分析实验结果,本系统确定采用较合适的15个隐含层神经元。

3检索系统的设计与实现

3.1系统结构分析

3.1.1系统结构

系统的结构如图2所示,图中除了与用户交互的web前端,其余的图像特征提取模块、神经网络模块及数据库都在服务器端,这种浏览器?服务器结构平台搭建后,用户可以通过不同客户端的web浏览器进行图像检索的功能,而不必安装本地应用程序,同时将主要的核心功能集中到服务器上,不仅大大简化了系统的开发和维护流程,降低了成本,还增强了系统的扩展性。

3.1.2系统流程

系统针对不同的功能需求设计了相应的不同流程,这些流程包括系统样例学习流程、用户反馈学习流程、用户查询流程。

如图3所示,在系统的样例学习过程中,系统接收到样例数据后会先对数据进行分析,然后交给神经网络进行学习,最终生成对应类别的分类器,这些分类器会在用户检索时对数据库中的图像进行分类,查找到符合用户需求的图像[6]。样例学习的流程是本系统学习分类知识的关键步骤,在该步骤中用户并不参与系统的学习过程,整个学习过程均为系统自动进行,因此需提供大量被正确标注的清晰图像样例,通过对这些优质样例的学习,系统会自动生成针对图像各种分类所对应的分类器,且经过长时间的学习,这些分类器的准确率会不断上升,最终使查询结果更符合用户需求。

如图4所示,在系统的用户查询流程中,用户的查询条件为图像特征的语义描述,系统最终返回为包含该描述特征的图像集,这个过程利用神经网络分类器学习的高层描述语义与低层图像特征之间的映射,因此随着神经网络学习时间的增大,这种映射也就越精确,系统完成的查询也就越符合用户要求。

3.1.3图像特征提取模块

如图5所示,当图像输入到图像特征提取模块中时,图像会进行K?均值聚类分割算法处理、颜色相关图算法处理及tamura纹理特征算法处理,这三个处理过程并行进行。

经过K?均值聚类分割算法处理,图像被分割为若干块区域,每个区域中的像素都具有相似的属性,对于每个区域,会提取其简单的区域特征,如颜色特征、位置特征、纹理特征及形状特征等;经过颜色相关图算法处理,生成当前图像的颜色自相关图;经过tamura纹理特征算法处理,计算出图像的粗糙度、对比度、方向度、线性度等数值。将经过三个算法处理后得到的数值整理后得到图像的特征向量[7]。

3.1.4神经网络模块

系统中的图像神经网络分类器由三层组成,分别为输入层、隐含层及输出层,其中输入层的神经元个数与归一化后的图像特征向量的个数相同,为固定值;隐含层的神经元个数通过前文中的实验得出,适合于本系统中神经网络的要求;输出层只有一个神经元进行分类,设定1为属于该分类的学习期望,设定0为不属于该分类的学习期望,但是实际运行时需要设定1为0.9,0为0.1,这是因为Sigmoid函数无法经过有限的连接权值计算得到1与0的值[8]。

3.1.5web平台模块

系统的web界面包括用户查询输入框、用户图像上传框、查询结果浏览框等。

3.2实验结果分析

为了检验图像检索平台的性能,首先将系统设置为学习模式,然后从图像库中选取1000幅已进行人工标注的样例集输入系统,最后当系统发出已训练完毕信号后,对系统已学习的分类当作查询输入系统进行检索,记录系统检索结果。

检索结果可知经过人工指导学习,系统可以仿真模拟更符合人类视觉感知的分类方式,并将其记忆于相应的神经网络分类器中,经过不断的学习,系统可以返回更准确的符合用户需求的检索结果。

4结论

本文主要研究包括基于内容的图像检索技术及人工神经网络技术两个方面。首先使用K?均值聚类分割算法、颜色相关图算法及tamura纹理特征提取算法提取图像相应的形状、颜色及纹理特征,通过整合形成可以完整描述图像信息的特征向量。同时,针对基于内容的图像检索系统中用户高层语义与图像底层特征之间存在的问题,通过样例自动学习和用户反馈学习两种学习方式,Bp神经网络通过反向传播学习算法调节网络权值,从而形成图像底层特征到图像分类的正确映射,学习后的神经网络通过这种映射可以进行图像的自动分类及检索,该方法结合了图像的底层特征描述及用户的高层语义反馈,有效地弥补了语义鸿沟。

参考文献

[1]KHeRFimL,ZioUD.RelevancefeedbackforCBiR:anewapproachbasedonprobabilisticfeatureweightingwithpositiveandnegativeexamples[J].ieeetransactionsonimageprocessing,2006,15(4):1017?1030.

[2]tRainaaJm,maRQUeSJ.FightingthesemanticgaponCBiRsystemsthroughnewrelevancefeedbacktechniques[C]//proceedingsof2011the21thieeeinternationalSymposiumonComputer?BasedmedicalSystems.[S.l.]:ieee,2006:881?886.

[3]周资云.基于内容的图像检索系统研发与应用[J].华章,2012(29):22.

[4]刘丽,匡纲要.图像纹理特征提取方法综述[J].中国图象图形学报,2013,14(4):622?635.

[5]KanUnGot,moUntDm,netanYaHUnS,etal.anefficientk?meansclusteringalgorithm:analysisandimplementation[J].ieeetransactionsonpatternanalysisandmachineintelligence,2002,24(7):881?892.

[6]wiLLiamSa,Yoonp.Content?basedimageretrievalusingjointcorrelograms[J].multimediatoolsandapplications,2007,34(2):239?248.

数学建模含义篇9

关键词:elman神经网络;松散回潮;出口含水率;预测

中图分类号S572文献标识码a文章编号1007-7731(2016)08-118-03

1引言

在卷烟制造过程中,制叶丝的过程含水率控制是制丝生产中的关键参数,在烘丝前的含水率控制主要通过松散回潮工序中加水比例调节。不同的加水比例下松散回潮机的出口片烟含水率不同,最终将导致烘丝入口叶丝含水率的差异。因此,调节松散回潮加水比例控制松散回潮出口含水率在制丝过程中具有重要意义。董伟等[1]采用piD反馈控制修正加水量,曹正良[2]将反馈控制改进为前馈控制方式,二者均从控制的角度出发,优化控制算法,调节加水比例。李秀芳等[3-5]则采用过程参数优化的方式,通过过程参数优化,调节加水比例。以上2种方法均对松散回潮机出口片烟含水率的调节作出了一定优化,但2种方法均从内部角度考虑,而忽略了环境温湿度等外部条件对出口片烟含水率的影响。

为此,本研究通过对历史生产数据的分析,采用基于双隐含层的elman神经网络建立松散回潮机加水比例预测模型,然后再获取当前环境温湿度下,通过大量模拟加水比例输入,找出相应输出中与设定出口含水率设定值最接近的加水比例作为生产过程参考加水比例,利用该加水比例进行生产,保障出口片烟含水率与设定值的误差得到改善。

2elman神经网络算法

elman神经网络是J.L.elman于1990年首先提出来一种典型的局部回归网络[6]。elman网络是一个具有局部记忆单元和局部反馈连接的前向神经网络。elman神经网络的网络结构如图1所示,由输入层、中间层(隐含层)、承接层和输出层构成,其中输入层、中间层和输出层和传统Bp神经网络相同,但elman神经网络多了一个承接层,用于保存上次输入后中间层的状态连同输出数据[7-9]。增加承接层后,elman网络比传统Bp神经网络具有更复杂的动力学特性,因而具有更强的计算能力,稳定性也优于Bp神经网络。隐层的传递函数仍为某种非线性函数,一般为Sigmoid函数,输出层为线性函数,承接层也为线性函数[10]。

3基于双隐含层elman神经网络的松散回潮出口含水率控制预测模型

3.1网络参数选择以松散回潮加水比例、相应环境温湿度为输入,出口烟叶含水率为输出,设定训练目标0.05,训练速度0.01,最大训练步数100,以Sigmoid函数为传递函数,进行神经网络训练。对于elman神经网络的神经元个数及隐含层个数的确定,首先通过对不同神经元个数分别进行10次运行,结果如表1,选取10次运行对应的决定系数平均值作为评价标准,从结果可知选取8个隐含节点的测试集决定系数平均值最大。再对不同层数的隐含层各进行10次运行,结果如表2,同样采用10次运行对应的决定系数平均值作为评价标准,从结果可知选取2个隐含层的测试集决定系数平均值最大。

3.2模型预测效果检验采用该神经网络对松散回潮机出口烟叶含水率进行预测,预测结果如图3。由图3可知,采用该神经网络模型预测120个样本的松散回潮机出口烟叶含水率预测曲线和实际数据曲线吻合度较高。且从误差数据计算可知,预测误差为0.149%。所有预测结果误差均控制在0.5%以内,准确预测(误差在±0.3%)比例为89.171%,能满足松散回潮工序出口含水率为(设定值±0.5)%的允差要求。

3.3与多元回归分析拟合模型相比较图4为采用多元回归分析方法建立的松散回潮机出口片烟含水率线性模型,用于预测的效果。预测误差为0.268%,大于本文方法的0.149%,存在个别预测误差大于0.5%,且准确预测比例为77.5%低于本方法的89.171%。

3.4松散回潮加水比例预估方法建立松散回潮出口含水率预测模型后,由于神经网络模型为非显性模型,因此可以考虑采用逼近法,不断尝试不同加水比例输入,比较输出与设定值的误差,取满足要求的加水比例作为加水比例预测结果即可,方法如图5。

4结论

采用基于elman神经网络模型建立松散回潮机出口片烟含水率预测模型,该方法建立的预测模型预测效果优于传统多元回归分析建立线性模型的预测效果。再通过逼近法给出了当前环境温湿度下,指定松散回潮机出口含水率所对应的加水比例预测值。采用该方法所确定的松散回潮加水比例生产,提高了松散回潮机片烟出口含水率的控制效果。

参考文献

[1]董伟,李坤,王健,等.HaUni松散回潮滚筒含水率控制系统的改进[J].烟草科技,2012(11):20-22.

[2]曹正良.片烟松散回潮含水率控制方式的改进[C]//2010年中国烟草学会工业专业委员会烟草工艺学术研讨会论文集,2010.

[3]李秀芳.烟片松散回潮关键工艺参数过程控制系统的优化设计[J].中国烟草学报,2015(3):34-41.

[4]俞仁皓,宋家海,王建,等.松散回潮工序回风温度piD控制参数的优化[J].烟草科技,2010(7):8-10.

[5]赵国庆,米强,钟青,等.因素筛选试验在松散回潮和筛分加料工序质量评价中的应用[J].烟草科技,2007(11):24-27.

[6]王俊松.基于elman神经网络的网络流量建模及预测[J].计算机工程,2009,35(9):190-191.

[7]钱家忠,吕纯,赵卫东,等.elman与Bp神经网络在矿井水源判别中的应用[J].系统工程理论与实践,2010,30(1):145-150.

[8]周云龙,陈飞,刘川,等.基于图像处理和elman神经网络的气液两相流流型识别[J].中国电机工程学报,2007,27(29):108-112.

[9]王宏伟,杨先一,金文标,等.基于elman网络的时延预测及其改进[J].计算机工程与应用,2008,44(6):136-138.

[10]范燕,申东日,陈义俊,等.基于改进elman神经网络的非线性预测控制[J].河南科技大学学报(自然科学版),2007,28(1):41-45.

数学建模含义篇10

关键词:计算机应用;中文信息处理;句法分析;模式匹配;句法树库

中图分类号:tp391 文献标识码:a

1 引 言

基于语料库的统计概率模型是句法分析的重要研究方向,代表性的有概率型上下文无关模型(pCFG)基于历史的分析模型、分层渐近式句法分析模型、头驱动的统计句法分析模型等。统计方法实质是一个评价句法分析结果的概率评价函数,即对于一个输入句子s和它的句法分析结果t,给出一个条件概率p(t|s),并由此找出该句法分析模型认为概率最大的分析结果,即找到argmaxp(t|s),句法分析问题的样本空间为S×t,其中S为所有句子的集合,t为所有句法分析结果的集合。统计方法的主要问题是数据稀疏问题、忽略上下文结构信息、需要大量计算等。

基于语料库的另一种方法是面向数据的分析(Dataorientedparsing,Dop)技术,它从句法标注语料库中抽取所有任意大小规模和复杂结构的片段,通过对片段的组合操作来实现句法分析,然后考虑所有结果的概率大小,来选择最优结果。Dop模型较好地利用了语料库中蕴含的知识,体现了“语言分析依赖经验”的思想,缺点还是没有充分利用上下文信息(片段间相互独立),注重片段而忽略了整体,另外片段组合与概率计算的工作量也很大。我们的基于模式匹配的句法分析与Dop类似,都是建立在“语言分析依赖经验”的思想基础上,但在算法实现上不同,借鉴了文法转换中的部分理论和技术,并在句法分析中注重整体匹配、局部转换。

2 基于模式匹配的句法分析

2.1基本思想

在计算机上输入汉语时,单个的汉字输入既慢又易出错,词组的输入则又快又准,究其原因是词组的重码率低,减少了歧义发生率,基于模式匹配的句法分析与此类似,模式即类似于词组,当然分析处理要复杂得多。在从句法标注语料库中获取了大量句法模式的基础上,不再如传统的概率模型,计算各种组合的最大概率,而是大处着眼,快速识别处理对象中包含的句法模式或隐含的近似句法模式。

模式匹配的句法分析方法与传统统计句法分析方法在处理方式上的不同,前者强调整体优先,在大块匹配的基础上,对局部没有能直接匹配上的部分做一定的转换处理,而后者是基于局部概率的计算,由点到线;前者是基于短语的(句法短语),后者是基于词的。基于模式匹配的句法分析是对人的处理方式的模仿(人做句法分析可以左看右看,把握整体,注重平衡,因而是二维的),可充分发挥大规模语料库蕴含的处理各类句法现象的能力。

2.2 句法模式的定义

定义1:对于一个句法树,从左向右画一条只穿过树中节点的线,这条线上的节点如果满足以下约束条件,则其节点序列即为一个句法模式。

这条线上的节点是树上全部节点D的一个真子集C,并且(1)C中没有一个节点处在由C中其他节点开始的任何一条后继节点路径上;(2)D中没有其他节点可以加入c而不违背规则(1)。

如图1所示,虚线上的节点序列是句法树S(dj(np(n(奥里诺科河))vp(pp(p(在)np(r(哪儿))))))中的几种模式,其中(d)为非法模式,因为该序列中节点p是节点vp的子孙,不满足模式定义约束。按定义,该句法树中共包含25个模式。模式数量按几何级数增长,1个包含20个词的句子,其模式数约为500多万,故构建数据支撑平台是一个海量数据处理过程。

一个模式的规约是句法树中该模式与树根节点之间的部分,图1(c)中模式为(npp哪儿),对应的模式规约为S(dj(npvp(pp(pnp(r(哪儿)))))),如图2所示。从本质上讲,句法分析的过程是从叶子节点向根节点过渡的过程,而模式及其规约正是对句法树库标注过程的动态记录,基于此的句法分析规约速度快,处理效率高。

2.3 模式的抽取

从句法树库的每一个树及其派生的子树中,抽取所有的句法模式,并记录对应的规约。该算法应用于后台处理,是构建数据支撑平台的基础。抽取算法基于句法解析函数及其链表表示,在算法中,结构树在内存中以中序优先的形式存储。模式抽取算

算法结束后List中的内容即为所求的句法结构s中包含的所有模式序列。

2.4 模式匹配及其局部转换

定义2:设模式p=a1a2…ai…an,处理对象S=b1b2…bi…bm,其中a、b为节点(即词或词性标记),若m=n,且ai?=bi,i∈[1,m],则称模式p与S完全匹配。

判断待处理语句是否与模式库中的模式相匹配,则成立相应的模式规约即为句法分析结果;否则进而判断近似模式(即模式中有部分不匹配,近似模式匹配不同于多模式匹配,因为待处理语句和模式中任何部分之间都可能进行匹配)。

定义3:设模式p=a1a2…ai…an=p1p2…pk,其中p1=a1a2…ai,p2=ai+1ai+2…,…,pk=ai+1at+2…an,1≤i≤≤t;S=bi+1bi+2…bi…bn=S1S2…Sk,其中S1=b1b2…bi,S2=bi+1bi+2…,…,Sk=bt+1bt+2…bn,1≤i≤t,pj与Sj不同时为空,若pj=Si,则称其为p、S中的相同子模式,包含若干相同子模式的模式p,即为S的近似模式。

根据定义近似模式有多种取法,不同顺序不同取舍会得到不同的近似模式,例如p=nsnpvpunpvp,S=nsumpnpvpvp,p与S之间存在多种模式对齐方式,如下所示。

近似模式的取舍按最大匹配个数(长度)优先和分布平衡优先的原则,兼顾统计句型的判断(这里的句型是从语料库中统计出来的出现频率较高的句法结构,其叶子节点序列也是一个模式,我们称这样的模式为强模式,频率高,有较强的吸附性,即它是很多模式的上位模式)。近似模式的计算公式如下:

其中,Len(s,p)为计算处理对象s与模式p中的节点匹配度,n(s)为s中的节点数,n(p)为p中的节点数,n'(s,p)为s与p中共同出现的节点数目;ord(s,p)为计算s与p中相同节点的顺序相似度,maxRev(s,p)表示共同节点在p中的自然数序列的最大逆序数,Saq(s)表示共同节点对应在s中的位置构成的自然数序列,Rev(s,p)表示Seq(s)的逆序数,公式(2)反映出s与p中的共同节点的顺序越接近,则s与p越近似;patt(p)给出句型p的频率,如果p不是句型,则patt(p)=0;ap为所求的最优近似模式,p为模式集合,α1,α2,α3是对应的计算权重。

定义4:设模式p1=a11a12…a1i…a1n和模式p2=a21a22…a2j…a2m是同一棵句法树上模式,n<m,a1i或是p2中的某个节点,或是p2中某个或某些节点在句法树中的祖先,则称p1是p2的上位模式。如图2,模式nppp即为模式nppnp的上位模式。

定义5:设p是S的近似模式,p'是p的一个上位模式,局部转换是指对S中与p不同的部分进行一定的规约处理,得到S',使得S'=p'。

对近似模式中不匹配的部分进行特别的转换和归并处理的目的是得到一个完整的匹配模式,如图3所示,待处理对象S(a1a2a3'a4a5a6a7)与模式p(a1a2a3a4a5a6a7)中的a3不能匹配上,则试探包含a3的上位节点b,且与模式p距离最近的上位模式p'(a1a2ba5a6a7),若处理对象S中局部转换a3'a46成立,则模式p'即为所求完整模式。

2.5 系统处理流程

模式匹配的句法分析是建立在大规模语料库包含的海量句法模式的基础上,其分析质量和处理性能,取决于整个句法分析系统的各个环节,可以分为数据和算法两大方面,数据是支撑,数据量愈大,句法模式涵盖面愈广,处理的精度和效率愈高,算法则是如何管理、调度大量数据,以及如何利用和发挥出模式库的句法分析能力。

图4是句法分析的系统结构图,其中数据支撑平台是后台实现的,处理的数据量较大,句法分析是实时处理,由于有后台大量的索引及其快速匹配算法,所以有较高的分析效率。

预处理主要是词法分析工作,模式匹配成功则直接进行模式规约处理,否则需要抽取最优的近似模式,进行局部转换处理,得到近似模式的上位模式。系统的复杂性涉及时间和空间两个方面,主要策略是以空间换时间,即建立大量多层次索引换取句法分析的高效率。

3 实验结果及其分析

我们以tCt973树库作为实验的资源,从其中29000余句句法树中抽取所有不重复的句法模式,构建大规模的模式库及其相应的规约库,模式总数大约8百万条。从29000中分别随机抽取百科、学术、新闻、应用类100句,抽取长句(词个数大于40)和短句(词个数小于20)100句,做封闭测试,再从29000句以外的句子中抽取1000句做开放测试,计算机CpU为pentium2.8G双核,内存1G.实验结果如表1所示。

实验的主要目的是检验基于大规模树库的模式匹配句法分析器的分析效率和分析结果的准确度。其中,对分析结果准确度的评估主要依据了以下几个性能指标:(1)标记正确率(Lp);(2)括号召回率(LR);(3)交叉括号数(CBs);(4)没有括号交叉的情况(0CB);(5)最多有一个括号交叉的情况(1CB);(6)最多有两个括号交叉的情况(2CB)。有关它们的详细定义,请查阅paRSeVaL评估标准,句耗时指批平均每句耗费的分析时间,单位为秒。

总的实验结果令人满意,准确率召回率等各项指标较文献[11]公布的同类测试有明显的提高,尤其是分析效率,传统的一遍Chart分析的方法的时间复杂度为句子长度的三次方,采用基于模式匹配的句法分析方法,由于在后台建立了大量的多级模式索引库,且在匹配算法上采取了规约深度优先、规约总次数最少优先等原则,所以分析的效率非常高,平均句耗时为0.46秒。

从实验结果中可发现,短句的分析没有长句的好,这和模式匹配的算法有关,短的语句,一旦匹配上错误的模式,各项分析分析指标的得分就会很低;长的语句,分析单元之间的约束较强,其存在多种分析结果的可能性相对小,即使在局部可能存在分析错误,总体分析结果也不会太差,故反而能够取得较好的平均结果。模式匹配的句法分析也有歧义组合的问题,如对于“货币学派/n及其/c政策/n主张/n”,其词性序列是“ncnn”,在模式库中有两种规约与之对应,分别为np(np(ncn)n)和np(ncnp(nn)),目前对于一个模式多种规约的情况,采用概率优先,即同等情况取概率大的规约,以后将考虑不同规约与上下文的关系,进行语境相似度计算。

4结 论