首页范文信息通信的概念十篇信息通信的概念十篇

信息通信的概念十篇

发布时间:2024-04-25 22:39:35

信息通信的概念篇1

[关键词]概念模型 信息系统 用户 理解 沟通 实验室研究

[分类号]n945.12

概念模型通过一套正规化的符号语言描述现实世界,是信息系统开发中记录系统需求的重要工具,如e-R图、数据流程图、UmL等。记录的系统需求成为项目中各方沟通的媒介:系统分析员与用户沟通以确认系统需求;系统开发人员间沟通开发细节。显然,两方面沟通均有效才能保证开发出符合用户需求的应用系统。而以往研究多关注系统开发人员间的沟通,忽视了与用户的沟通。

当前,用户参与需求分析愈加被重视,有效的用户参与被认为是系统成功和用户满意的有力保障。Davies等人的调查表明,与用户的沟通有效性超出其他技术和管理因素,成为概念模型使用中最重要的问题。然而还缺乏直接的研究和证据解释概念模型在与用户沟通中的作用机理。

鉴于此,本文将以概念模型与用户沟通过程中的认知特点为基础,分析和解释概念模型影响沟通效果的作用机理,并通过实验室研究方法获得数据支持。

1 文献回顾

1.1 概念模型的沟通有效性

基于概念模型的沟通效果本质是阅读者正确理解模型中信息的程度,可以定义为阅读者正确掌握的信息量与模型全部信息量的比率。但信息本身具有不同的类别,近年来研究中多依信息类别将理解效果划分为不同的维度,以深入分析模型对沟通有效性的影响。如agarwal等根据信息组成分为简单信息(仅包含基于结构的或基于过程的信息)与复杂信息(包含两类型信息),研究发现开发人员使用面向过程的概念模型理解复杂信息显著优于面向对象的概念模型。而在简单信息理解方面无显著差异。

理解效果的维度,即信息类别的划分不存在统一的标准,主要依研究目的而定,如上述研究中的信息分类是为了寻求信息结构与模型结构的匹配。

1.2 概念模型理解效果研究

阅读者理解模型中信息的过程是概念模型与阅读者个人交互的过程,因此分别受到模型特点及个人特点两方面因素的影响,如图1所示:

对于模型因素,以往研究发现了一些好的品质,如信息完整性、清晰性等。满足好品质的模型能够提升理解效果,如Gemino等通过实证研究验证了本体论语义更清晰的模型更利于理解。

个人特点中的因素关注较多的如个人经验、知识。经验越丰富,知识储备越充足,个人理解效果必然越好。如Khatri等的实验室研究验证了开发人员所具有的模型技术知识以及应用领域知识对阅读效果的影响作用。

然而,这些研究能够回答的现实问题很有限。首先,用户具有高的应用领域知识水平及低专业技术知识和实践经验,现有研究对这样的复合因素组合的情况难以解释。此外,除了模型特点中的“好品质”,不同的模型仍然存在其他差异影响阅读者理解过程,但作用效果可能因人而异。如有研究发现相对于面向对象的建模方法,面向过程的模型更利于开发专家全面识别信息,而对开发新手不存在这样的差异。因此,本文将根据用户整体的认知特点分析其与概念模型特征的交互关系。

2 理论与假设

2.1 用户阅读的认知过程

概念模型主要的呈现形式是图形,为了更深入认识用户阅读概念模型时的认知特点,可以借鉴图形理解的相关理论:感知理论与认知理论。

感知理论解释了阅读者将所看到的图形信息放入短期记忆的感知过程,包括三步:辨识图形中各符号对象;根据模型中符号的空间布局对符号进行分组及确定层次关系;对符号初步组织并放入短期记忆。专业的训练和实践能够使开发人员具备组织图形信息的技巧;而用户未接受过培训,只是按照阅读文本时的习惯策略从左向右、自上而下地组织模型信息,因此放入短期记忆中的信息基本是按照模型的信息组织方式。

认知理论解释了信息放入短期记忆后的认知过程,包括两个活动:搜索长期记忆中的相关知识;对图形信息进行解释并与长期记忆整合。影响认知效果的根本因素是认知计算量。对用户来说,主要依靠搜索长期记忆中关于业务环境等的知识来解释图形所传达的含义。根据认知匹配理论,当放人短期记忆的信息结构与用户长期记忆中的知识组织方式一致时。搜索相关知识的效率将提高,整合新知识时也减少了结构关系的转换计算,使得总的计算量降低,因此认知正确性将提高。

综上所述,概念模型的信息组织方式与用户长期记忆中知识结构的匹配程度是影响认知过程正确性的重要因素。

本文将以面向对象与面向过程的概念模型为例,验证上述分析。两类模型对信息的组织方式显著不同:面向对象的模型将信息分类、抽象为对象,以对象为中心组织与对象相关的属性、行为、通讯等信息,如用例图中围绕各角色的行为活动(即用例);而面向过程的模型将信息抽象为信息流,通过信息处理流程中的前后衔接组织信息,如数据流程图中“处理模块”的输入和输出“信息流”。

认知心理学中众多研究结论显示出人们的自然思考方式首先是分类,这正是面向对象思想的基础。因此可以说,面向对象模型的信息组织方式与未接受过专业学习的用户脑中的知识组织更加匹配。由此判断,与面向过程的概念模型相比,采用面向对象的概念模型更利于用户理解。

假设1:描述同一系统信息时,用户使用面向对象模型的理解效果显著高于面向过程模型。

2.2 基于语义网络理论的理解效果

语义网络理论对人脑中的知识组织方式作了很好的解释:人的长期记忆中,知识是通过节点互联的网络来组织的。节点代表任何实体、抽象类、属性等概念;节点间的连接表示概念间的某种关系。一条信息可能包含一个、两个或多个节点,而多个节点之间的关系可能是直接关联,或是通过某些节点间接关联。

显然,当信息包含的节点数较少、节点间的连接较少时,认知过程的搜索和整合计算量都更小。因此,为了进一步分析用户认知特点与概念模型的交互作用,本文根据信息中所包含的节点数及连接关系的复杂程度,将理解效果分为简单理解与复杂理解。

有研究曾发现,不熟悉概念模型的阅读者在使用用例图和使用数据流程图识别单个信息点的完整性上没有差别。这是因为,理解简单信息时的认知计算量很少,面向对象模型信息组织的优势不显著;但随着信息复杂度增加,两类模型认知计算量的差异将显现出来。

假设2:描述同一系统的简单信息时,面向对象与面向过程概念模型的用户沟通效果无显著差异;

假设3:描述同一系统的复杂信息时,面向对象概念模型的用户沟通效果显著高于面向过程模型。

3 研究方法

3.1 实验对象及实验过程

本文采用实验室研究方法收取数据。实验在大学课堂道行,选修同一课程的管理学院各专业学生自愿参加,最终参加学生41人。实验中学生被随机分为两组,依次完成三项任务:阅读描述同一系统的系统需求说明,两组的阅读材料不同;回答关于系统理解效果的测试问题,包括简单信息及复杂信息;填写个人经历以及实验感受的问卷。

3.2 实验设计

3.2.1 实验情境 待开发的系统是一个校友录系统。大学生对这样的系统较为熟悉,符合学生作为系统用户的角色。实验人员在实验开始时将以系统开发者的角色进入,并说明实验参与者将作为该系统的用户,实验目的是使用户理解系统的构建内容。

3.2.2 需求说明 两组阅读的需求说明分另0由用例图(UseCaseDiagram)与数据流程图(DataFlowDia-gram)来描述,两者是当前使用最广泛的概念模型,分别代表面向对象与面向过程的概念模型。两组模型描述了相同的系统内容,所传达的信息量一致,只是表达形式不同。由于实验时间的限制,所描述的系统只具备简单的功能。

3.2.3 理解效果 用户的理解效果通过回答问题的正确率来反映。所有问题均为判断题,共14题:关于简单理解的问题共7题,只涉及需求中两个概念及直接连接关系;关于复杂理解的问题共7题,涉及三个以上概念及其关系。所有14道问题的正确率反映用户的整体理解。

3.2.4 实验后调查问卷 问卷主要通过五点量表测量实验中的假定条件以及控制变量。包括三个问题:阅读者对概念模型的学习程度、阅读者对校友录系统背景的熟悉程度(这两者用来保证学生作为用户角色的有效性)以及阅读者感知的模型阅读难度。感知的阅读难度也是影响模型使用的重要因素,因此在本研究中作为控制变量。

4 实验结果与讨论

4.1 实验数据剔除

实验收集到数据41份,首先剔除回答不完整的数据1份,然后对实验的前提假定进行检验。统计阅读者的模型知识表明所有参与者都没有学习过概念模型知识,同时95%的参与者较熟悉或非常熟悉校友录系统。为进一步保证实验的有效性,根据参与者对系统背景的熟悉情况剔除了解很少或完全不了解的参与者数据3份。最终获得有效数据37份,其中用例图组19份,数据流程图组18份。接下来将使用SpSS统计软件对数据进行分析、验证假设。

4.2 模型对用户理解的影响

采用多元方差分析方法验证两概念模型组阅读效果的差异,并将用户感知的模型阅读难度作为协变量以控制其对因变量的影响。两组用户的简单理解效果没有显著影响(显著性=0.617),支持了似设2;复杂理解效果方面,用例组(均值=0.722)显著高于数据流程图组(均值=0.579),显著性=0.007,支持了假设3;总体理解效果方面,用例图组(均值=0.726)也显著(显著性=0.043)高于数据流程图组(均值=0.643),支持了假设1。如表1所示:

4.3 用户不同层次的理解效果

通过对同一用户简单理解效果与复杂理解效果的配对均值检验来反映前文中关于理解划分的认知基础。用户对简单问题的理解效果显著高于对复杂问题的理解(显著性=0.045),如表2所示:

4.4 讨论

4.4.1 用例图组用户的总体理解效果显著高于数据流程图组(假设1) 基于前面的分析,该结论在理论上验证了影响用户理解效果的一个重要的概念模型因素――模型信息组织结构特征,该因素与用户知识组织结构交互影响用户理解效果,即使用与用户知识组织结构更相近的概念模型得到的用户理解效果更好。这为概念棋型的选择和评价提供了一个较可靠的一般性的依据。该结论为实践中而向对象的概念模型在用户沟通方面的意义提供了证据支持,为开发项目选择概念模型提供了直接的参考。

本文基于认知特点的分析认为用户与开发人员在理解概念模型时(无论是感知过程还是认知过程)具有显著差异,对比以往研究中面向过程的慨念模型更有利于开发人员理解的结论,本实验室研究的结论间接证明了用户与开发人员认知特点上的差异。

4.4.2 用户对不同复杂度信息的理解效果差异显著

用户对简单问题的理解效果显著高于复杂问题;且用例图/数据流程图在简单和复杂信息理解效果方面的表现显著不同(假设2,假设3)。这些结论验证了认知复杂度是用户理解效果的本质影响因素,进一步解释了具有不同信息组织特征的概念模型是通过影响用户认知计算量影响用户理解效果的。

同时,该结论具有更高的可靠性。可以对以往一些研究结论进行解释:即由于所设置的信息过于简单或没有选择对用户认知计算量有影响差别的概念模型,以往研究可能获得概念模型对用户沟通效果无影响作用的结论。这再次肯定了该领域研究中以用户认知特点为基础的重要意义。

5 结语

信息通信的概念篇2

关键词:分布式;多媒体信息系统;概念建模;UmL;本体

中图分类号:tp271+、31文献标识码:aDoi:10.3969/j.issn.1003-6970.2012.02.014

ResearchontheConceptualmodelingmethodinDistributedmultimediainformationSystemfUDa-jie(JiangxiVocationalCollegeofFinanceandeconomics,Jiujiang,Jiangxi,332000)

【abstract】Conceptualmodelingistheimportanttechnologytoimprovethequalityofdemandanalysis.thereareproblemsinthe

distributedmultimediainformationsystem,whichincludeheterogeneity,differentformaofmassdataandtime-spaceinconsistency.thispaperintroducessomecommonconceptualmodelingmethodssuchasstructuredconceptualmodeling,object-orientedconceptualmodelingandontologyconceptualmodeling,thendescribesandrepresentstheconceptmodelofthedistributedmultimediainternetteachingsystemusingUmLclassdiagram,andestablishesthetranslationofUmLclassdiagramtoontologymodel.

【Keywords】Distributed;multimediainformationSystem;conceptualmodeling;UmL;ontology

0引言

多媒体信息系统涉及文字、图形、图像、动画、音频、视频等各种信息媒体,特别是分布式多媒体系统,其数据结构的复杂性、系统功能的多样性、交互实现的实时性对系统提出了更高、更新的要求,从而加剧了系统开发的难度。实证研究表明在系统开发过程中一半以上的错误是由需求的不准确和不完整引起的,在开发的早期阶段的质量保证要比在末端测试的效益高出33倍多[1]。而概念建模是提高需求分析的质量的重要技术。研究多媒体信息系统概念建模方法,对于多媒体信息系统的开发、引进、改造、标准化和集成都具有积极的质量保证作用。

1分布式多媒体信息系统概念建模面临的问题

文献[2-6]从不同角度对概念建模进行了定义,不难发现,信息系统的概念建模是并不考虑系统底层的具体实现技术,它从需求的角度表述了系统的主要特征并形成抽象的轮廓。对于多媒体信息系统而言,概念建模并不涉及到媒体存储、转换、检索等相关的技术问题,但需考虑媒体的相关应用和类型。要在一个分布式多媒体信息系统中实现各种多媒体对象的集成、同步、交互和展现,就必须为其建立一个独立于现实环境的抽象的表示模型。当前,分布式多媒体信息系统概念建模主要面临如下问题:

(1)分布式系统的异构性。分布式多媒体信息系统的跨平台的特点,涉及不同的计算机体系结构、不同的操作系统、不同的网络协议标准和不同的数据库,从而产生各种异构,导致应用系统开发的复杂化。

(2)海量数据存储和格式的差异性。多媒体数据有别于一般数据,它集成多种形式的内容,其数据量是海量(maSSData),数据量大,且数据格式差异极大,不利于信息系统的组织和存储,增加了数据处理的难度。

(3)时空的不一致性问题。很多多媒体数据带有时间属性和空间属性,如音频数据、视频数据、图形数据,在分布式多媒体信息系统中,由各计算节点的计算延时、网络传输延时、节点空间坐标系不同等容易造成的时空不一致问题,从而影响概念建模的准确性和适应性。

2分布式多媒体信息系统概念建模方法介绍

概念建模方法是提供使用概念建模语法的程式,通常主要规定如何把对一个领域的观察结果映射为概念模型[7]。从上世纪70年代起新的概念建模方法开始激增,据不完全统计,大概有1000多种概念建模方法,而且每年还在不断地增长[8]。文献[9-11]结合应用领域对概念建模方法做了实践性研究,从理论上讲,当前概念建模方法主要有三种:结构化概念建模、面向对象概念建模、本体概念建模。

(1)结构化概念建模。即根据“自顶向下、逐步细化、模块化设计”的思想,将采用自顶将整个系统功能划分成一系列实现独立功能且可相互调用的模块,用模块结构关系来表示系统模型。但其存在“需求冻结”的隐患,不适合结构复杂的分布式多媒体信息系统。

(2)面向对象概念建模。使用类、对象、继承和消息机制进行概念建模。分析阶段通过类或对象的认定,确定类之间(或对象间)关系,然后对它们的属性、所提供的方法和所需要的方法进行描述,并按照它们之间的关系进行组织,得到类(或对象)结构。面向对象概念建模,就是要将类和对象映射为概念,只要找出类和对象并建立了类结构,也就建立了概念模型[12]。面向对象建模单个对象表示的行为粒度过于精细,难以把握问题的实质和总体结构,容易造成系统结构不合理及各部分关系失调等问题。

(3)本体概念建模。通过对静态的领域本体和动态的任务本体两个部分进行分析描述,并结合用户需求分析,获得语义层面上的概念模型;借助本体描述语言及建模工具将概念化的实体与过程图形化表达,形成具体的功能模型[13]。本体作为共享概念形式化建模工具,可增强系统模型的语义表达能力,以便更好的消除语义差异,实现不同系统间的知识共享和互操作,是未来建模技术的发展方向和趋势[14]。

3分布式多媒体信息系统概念建模实践

通过上述介绍,可以发现几种概念建模方法各有所长,下面笔者以分布式多媒体网络教学系统中课程实例为例,简要说明面向对象概念建模念建模方法与本体概念建模方法的具体应用。

3.1基于UmL的面向对象概念建模

UmL是国际对象管理组织omG制定的可视化建模语言标准,主要用于面向对象建模,UmL的核心是以面向对象思想来描述客观世界,即通过类图、构建图、部署图等表示系统静态结构的静态模型和对象图、用例图、顺序图、协作图、状体图、活动等表示系统动态结构的动态模型来描述系统的及其内在的联系。其中,UmL类图是面向对象概念建模的核心,对于系统的核心概念,用类、属性和方法表示,概念间的关系主要采用聚合、组合、泛化(继承)以及依赖、关联等关系来表达。

基于UmL的概念建模,主要用于系统需求与分析阶段人与人之间的沟通交流,它只对问题域的对象(现实世界的概念)建模,而不考虑定义系统中技术细节的类(如处理用户结构、数据库、通信和并行性等问题的类),从这一点上来讲,分布式多媒体信息系统比较适合采用基于UmL的面向对象概念建模。同时,UmL统一了Booch、omt和其他面向对象方法的基本概念和符号,汇集了面向对象领域中的多种思想,为概念模型的表达提供了科学的、通用的、标准化图形符号表示,并能被交互的可视化建模工具所支持,使得领域内的系统相关者都可以通过概念模型了解相关概念。另外,UmL包括概念的语义、表示法和说明,提供了静态、动态、系统环境及组织结构的模型。图1为网络教学系统中用类图表示的用户(User)概念模型。

图1网络教学系统用户(User)类图

3.2类图与本体模型的转换

在信息系统领域,本体的核心是描述领域的本质概念及其之间的关联,是领域共享概念模型的形式化规范说明[15]。本体表达的概念间关系通常包括部分关系、所属关系、实例关系、属性关系。比较本体与UmL类图,可以看出:本体中的类或概念相当于UmL中的类,以及类的属性和方法;本体中的基本语义关系可以与UmL类图中的关系相对应,比如,部分关系可以对应类图中的聚合或者组合关系,所属关系对应类图中的泛化(继承)关系,实例关系可以对应UmL中的类与对象的关系,属性关系实际上对应一个类图中类与其本身属性的所属关系[16]。将图1中的类图转换为本体模型如下:

o-User=

至于本体概念建模的实现,一般采用owL(webontologyLanguage)标准描述语言完成。owL本体包括类、属性和它们的实例(即个体)的描述,通过采用owL对复杂的跨平台、异构性的分布式多媒体信息系统系统概念模型及其之间的联系进行形式化描述,使得系统概念模型表达为语义和语法准确规范的领域本体,能够被计算机自动识别处理,在同一领域不同信息系统之间共享知识,从而有效保证分布式多媒体信息系统的最终质量。具体实现可参考其他相关文献[18-19]。

4结束语

信息系统建模,实际上是对信息系统进行认识、描述、分析并抽象表示的过程。对于复杂的分布式多媒体信息系统,如何综合权衡各种概念建模方法利弊,“择其善者而从之,其不善者而改之”,直接影响了未来系统质量。本文结合UmL类图对面向对象概念建模和本体概念建模做了具体的实证分析,下一步笔者将结合owL语言针对分布式多媒体信息系统建模做进一

步研究[19]。

参考文献

[1]moodyDL,ShanksGG.improvingthequalityofdatamodels:empiricalvalidationofaqualitymanagementframework[J],informationSystems,2003,28(6):619-650.

[2]mylopoulosJ.Conceptualmodelingandtelos.Loucopoulosp,ZicariR.Conceptualmodeling,database,andcase:anintegratedviewofinformationsystemsdevelopment[J].wiley,newYork,1992.49-68.

[3]孙凡.信息系统概念建模方法绩效评价的研究[J].计算机系统应用,2009,(4):15-17.

[4]吴永波,何晓晔,谭东风,等.军事概念模型研究综述.系统仿真学报,2005,17(12):3076-3080.

[5]Horrocksi,patel-SchneiderpF,HarmelenFV.FromSHiandRDFtoowL:themakingofawebontologylanguage[J].JournalofwebSemantics,2003,1(1):7-26.

[6]Grahamwidemana.Conceptmodeling:whatitis,andwhere’stheSoftware?-intelligenceandChangeinenterprises[eB/oL].[1999-03].http:省略.

[7]wandY,weberR.ResearchCommentary:informationSystemsandConceptualmodeling--aResearchagenda.informationSystemsResearch,2002,13(4):363-376.

[8]SiauK,Rossim.evaluationofinformationmodelingmethodsareview[J].SystemScences,1998,5:314-322.

[9]贾美英,杨炳儒,张文海,等.情报信息系统概念模型建模方法研究[J].情报研究,2009,53(22):35-39.

[10]谢春燕,李为民.区域反导组网作战战术信息分发系统军事概念建模研究[J].军事运筹与系统工程,2005,19(3):34-35.

[11]华玉光,徐浩军,刘凌,等.军事体系对抗复杂系统概念建模方法[J].系统仿真学报,2008,20(23):6507-6510.

[12]徐宝祥,刘爽.ooa在信息系统中概念建模方法[J].情报科学,2001,19(1):66-68.

[13]张维明.信息系统建模[m].北京:电子工业出版社,2002:35-53.

[14]唐晓波,韦贞,徐蕾.基于本体的信息系统建模方法[J].情报科学,2008,26(3):391-395.

[15]曾宪文,陈向东,杨明福.基于UmL的本体建模研究[J].计算机应用与软件,2006,23(7):42-43.

[16]严璐,李利.从UmL类图到本体的自动映射[J].科学技术与工程,2008,8(13):3645-3648.

[17]冉婕,,昌霞,等基于owL的成语典故本体构建研究[J].计算机技术与发展,2010,20(5):63-64.

信息通信的概念篇3

关键词:网络教育;智能搜索;个性化;概念网;智能兴趣

中图分类号:tp18文献标志码:a

personalizedintelligentagentsearchengine

orientedtonetworkeducation

wULihua1,2

,LUoYunfeng1,FenGJianping2

(1.instituteofSystemeng.,HuazhongUniv.ofSci.&tech.,wuhan430074,China;

2.Dept.ofComputerSci.&edu.tech.,HainannormalUniv.,Haikou571158,China)

abstract:tostudytheintelligentizationofsearchtoolsfornetworkeducationresourcesandprovidepersonalizedinformationserviceofintelligentagentsystemforstudents,thedesignandimplementationofapersonalizedintelligentagentsearchengineisproposedbasedontheconceptnetworkandintelligentsearchagenttechnologyunderthebackgroundofcurrentnetworkeducationresourceenvironment.Comparedwiththetraditionalsearchengine,theengineimplementskeywordsearchinginconceptandhasbettersearchprecisionandefficiency.

Keywords:networkeducation;intelligentsearchagent;personalization;conceptnetwork;intelligentinterestingagent

0引言

随着internet信息资源以指数递增,现有的搜索引擎已越来越难以满足人们高质量地获取网络信息的需求,特别是网络教育环境下的用户,其学习行为及兴趣基本上在本学科领域之内,常用的传统搜索引擎不能更准确、及时、权威地检索出他们所需求的信息.现有搜索引擎的局限性表现在:(1)基于简单的关键词或查询条件匹配,往往输出大量的文档,而真正与用户信息需求相关的文本却很少;(2)对查询结果的排序算法主要依据关键词的词频、位置、邻近度以及更新日期等指标,这种基于关键词的需求模型不能全面反映用户的兴趣趋向.

[1]面向网络教育信息资源环境下的用户,提出构建个性化智能搜索引擎的一些新观点和新方法,如学科领域语义网络、兴趣过滤模板和个性化智能兴趣等.设计个性化智能搜索引擎,屏蔽与用户需求不相关的信息,并帮助用户根据个人兴趣类型和学科专业信息需求,自动在internet上查找所需的信息,提供真正意义上“所得即所需”的个性化网络信息服务.

1智能搜索

近年来,出现许多满足用户个性化信息需求的技术,如垂直搜索引擎、主题网站、数据推送技术、过程跟踪技术、智能搜索和协同过滤等.其中,智能搜索技术[2]克服传统搜索引擎的缺陷,通过网络信息挖掘技术提取用户的兴趣,然后根据用户的兴趣过滤搜索引擎所返回的结果,使得搜索结果可以极大地满足用户的个性化需求.目前它已经成为web网络信息检索的核心技术.与传统的搜索引擎相比,其特色主要表现在:(1)信息收集和处理智能化.采取有效搜索策略,按一定语法规则智能地、有选择地自动收集网络信息,运用推理机制和学习机制,对收集来的网络信息智能处理和理解.(2)信息检索智能化.采用自然语言检索入口,允许用户自由表达查询请求.(3)信息检索个性化[3].利用数据挖掘技术对用户访问的历史信息进行兴趣规则抽取,以此预测用户将来的行为,并根据用户的评价和反馈调整自己的行为.

2个性化智能搜索引擎设计

2.1设计思想

系统主要从“信息检索模块”和“个性化智能兴趣”这两个方面进行智能化研究.主要设计思想为:在全文检索的基础上,运用“概念语义网”构建“学科领域语义网络”,实现概念的扩展检索,以提高系统的查全率;再通过“网页过滤器”和“个性化智能兴趣”,建构学生的个人兴趣模型,过滤出学生所需要的信息资源,以提高系统的查准率.

2.2系统结构系统主要分为5个组成部分(见图1):信息检索模块,搜索Robot,网页过滤器,兴趣索引数据库和个性化智能兴趣.

(1)信息检索模块进行查询子句的分词处理后提取关键词,采用“概念树”结构,实现关键词在概念方面的检索,将目前基于“词”的检索提高到“概念”层次;

(2)搜索Robot按照一定的策略在internet网络教育资源中抓取网页,并将网页交给网页过滤器;

(3)网页过滤器根据用户提交的“领域词”(兴趣主题关键词)建立网页过滤模板template,每日多次调用Robot获取过滤信息源进行过滤,找出用户感兴趣的网页,并将网页交给兴趣索引数据库进行存储;

(4)兴趣索引数据库采用全文检索技术,对搜索来的网页内容进行基于“词”的索引,再对应概念语义网中所出现的“领域词”,用“词频法”计算领域词在网页中出现的频率,以表示该领域词与网页的相关度,最后按照词频大小进行排序,并形成倒排文档,存储在兴趣索引数据库中;

(5)个性化智能兴趣通过对学生检索结果的个性化信息提取,建构学生的个性化兴趣模型,并对模型进行维护和更新,实现为学生提供个性化服务的目标.

3模块设计及实现

3.1信息检索模块

信息检索模块基于概念语义网络实现.“语义网络”是知识的一种图解表示,“概念语义网络”由节点(概念)和弧线或链线(节点之间的关系)组成.其中,概念(Concept)通过字、词和词组等描述元素表达.概念语义网络[4]的构建需要具有一定规模的知识作为基础,而且知识表达要准确、清晰,整体结构层次要完整并具有较高的稳定性,在较长时间内不能发生变化.在网络教育环境中,用户学科领域知识的分类相对稳定且准确,使用领域知识表示用户的某种学习兴趣偏好完全可行,见图2.

这里,系统通过构建“学科领域语义网络”提取用户兴趣特征,然后建立用户的兴趣模板template过滤网页信息,完成对用户学习兴趣的定制.为了能尽快接近用户的实际兴趣,在系统注册时也可以通过分类列表让用户自愿选择感兴趣的学科领域或研究方向,记录在用户profile文件中.

3.1.1学科领域语义网络的构建

构建“学科领域语义网络”的具体方法如下:

(1)用“概念树”的方法建立概念之间的上下层关系.上层概念是其所有下层概念共同属性的归类,下层概念则是从不同角度对其上层概念的细化.最上层Ω是虚拟层,使整个概念树形成一个整体.用户对概念节点的访问频率体现出用户对该概念内容的兴趣.

这里,每个概念节点都可以按学科分类代码(1992年国家颁布的《中华人民共和国学科分类与代码国家标准》)为基础进行概念编码标志,并且每个概念都带有一个集合,由该概念的同义但不同描述元素组成,比如:Φ(计算机软件)={软件,程序,software}.集合可以根据同义词词典或实际需要进行添加、删除、修改等操作,这样处理还可以忽略概念的语种差异,对文档中存在的中英文互用进行识别,将这些信息存入概念库(ConceptBase)中.概念标志可表示如下:

Code[Concept]{Discriptor1,Discriptor2,…,Discriptorn}

(2)每个概念可与其他概念建立相应的关系.该关系不同于分类中上下层关系的横向关系,可采用不同的弧线来表达概念之间的不同关系.3.1.2概念扩展检索

在系统“分词词典”中提供一个主词典、同义词词典及蕴涵词词典.学生输入查询请求后,由“分词词典”进行分词后提取领域词,并根据概念语义网赋以相应的概念编码标注,检索模块对概念进行扩展.具体而言,它实现概念层次上的同义扩展检索、概念拓展检索和相关联想功能.

3.2网页过滤器

网页过滤器是整个系统的重要组成部分.针对某一网页具体过滤过程如下:根据用户学科领域语义网络中的“领域词”建立网页过滤模板(用户兴趣模板),过滤模板template向量表示为

添加到兴趣索引数据库中.这里,过滤阈值θ的确定十分困难,理论上尚没有很好的解决方法.阈值设定过高或过低,都会影响系统查全率或检准率;而用户的兴趣不同,过滤阈值也会有所不同.这里阈值的设定可以参照相应的用户兴趣示例网页集确定.[5]

3.3个性化智能兴趣

由于系统面向的是网络教育环境中的学生,而这些学生的学习行为基本上在本学科之内,其兴趣范围较internet上的普通用户要稳定,因此可以在语义网络上形象地构建学生个人兴趣网络.在概念语义网络的基础上,系统通过学生对检索结果的反馈信息,逐渐建立起各概念节点的横向联系,采用对学生的学科子树上的各节点及节点之间的关系进行等级计算,得到学生兴趣点的概念和关联等级排序.即系统不仅可以得到学生感兴趣的关键词,还能得到学生所感兴趣的一组相互有关联的兴趣词,以此确定学生的兴趣趋向.智能兴趣运行在系统的查询接口模块中,学生提出查询请求后,信息检索模块通过检索对概念进行扩展,然后智能兴趣再根据学生的个人兴趣模型提取学生感兴趣的信息,并将检索结果呈现给学生.

4系统特点

本系统的主要特点如下:(1)自动过滤用户不相关文档,以提高检索精度和效率;(2)将目前基于词的检索提高到概念层次,实现关键词在概念方面的检索;(3)在全文检索的基础上,运用概念语义网络实现概念层次上的同义扩展检索、概念拓展检索和相关联想,提高系统的查全率;(4)通过个性化智能兴趣建立学生的个人兴趣模型,过滤出学生所需信息资源,提高系统的查准率,并能快速自适应用户兴趣的变化和环境的变化.5

结束语

将智能搜索技术应用于网络教育信息检索的个性化服务,是一个极具挑战性的研究方向,其研究内容属于目前智能信息检索领域的重要课题,具有很强的理论意义和现实意义.但由于认知领域的复杂性和个体学习的差异性,学习过程中有很多因素影响个性化网络教育信息检索的实现,系统中还面临着许多有待今后研究解决的问题.如过滤阈值θ的合理确定、过滤的速度和精度等.虽然该智能搜索引擎能通过概念网对查询领域词进行概念扩展,但也只是在查询语句分词、提取领域词的基础上进行扩展,始终不能完全理解学生的查询请求,尤其不能理解学生查询语句的语法结构,应该在句法的理解上进行进一步的研究.

[6,7]

参考文献:

[1]饶增阳.网络环境下的个性化信息服务[J].情报探索,2004(3):3-4.

[2]李伟超,牛改芳.智能技术分析及应用[J].情报杂志,2003(6):29-33.

[3]汪晓岩,胡庆生,李斌,等.面向internet的个性化智能信息检索[J].计算机研究与发展,1999(9):1040-1046.

[4]黄曾阳.HnC(概念层次网络)理论[m]北京:清华大学出版社,1998.

[5]张春元,康耀红,王曙光,等.中文搜索引擎的缺陷与改进[J].海南大学学报,2004,22(1):42-46.

[6]赵立江.个性化学习系统的聚类技术[J].计算机辅助工程,2006,15(3):59-61.

信息通信的概念篇4

abstract:inordertoenhancetherateofaccuracyandcoveragefractionintheinformationextractionprocess,ithasintroducedthedomainmainbodyintheinformationextractionretrievalsystem.thispaperintroducedsomebasicconceptsaboutmainbody,domainmainbodyanddiscussedsomemappingrelationsbetweenthedomainmainbodyandtheinformationextractionandhasrealizedthehandsetdomainmainbodyinthisinformationextractionprototypesystemandhasappliedthisdomainmainbodyintheinformationextraction.

关键词:概念;本体;信息抽取;领域本体

Keywords:concept;mainbody;informationextraction;domainmainbody

中图分类号:tp391文献标识码:a文章编号:1006-4311(2010)14-0158-02

0引言

最近几年来,为了使人们能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的内容,把本体广泛应用于各个信息领域中,同时已经成为目前信息科学研究的一个热点和难点,备受世界很多国家的重视。在信息检索和抽取[1]等领域中,本体发挥着越来越不可缺少的作用。信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。基于领域本体的信息抽取系统,可以实现让用户得到具有个性化的信息服务,同时通过领域本体为信息源提供相应的语义标注,这样可使系统对本领域内的概念以及概念之间的联系有统一高度的认识,从而在一定程度上提高信息服务的查准率和召回率,实现为用户更有针对的信息服务。

1领域本体与信息抽取

1.1本体的基本概念本体论(ontology)是一个哲学上的概念,是指哲学中研究世界的本原或本性的部分。不少哲学家把本体论看作是西方传统哲学思想(从柏拉图到黑格尔)的主干或”第一哲学”。从本体论的基本概念出发,哲学上把本体论定义为”对世界上客观事物所进行的系统描述”。

1.2领域本体的概念领域本体(Domainontology)是用于描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述[2]。

1.3领域本体[3]在信息抽取中的应用基于领域本体信息抽取是新型的信息抽取方式,它利用领域本体而不是扁平结构的辞典与词表来识别抽取信息,领域本体信息抽取可以在语义层而理解抽取信息,同时可以通过领域本体实例对抽取信息内容进行语义标注,从而提高了信息抽取的查准率和召回率。

1.4信息抽取检索系统中领域本体的构建知识工程中的本体是人为设计的关于某个领域的概念模型的一种表示。目前己有的本体很多,出于对各自问题域和具体工程的考虑,构造本体的过程也是各不相同的。由于没有一个标准的本体构造方法,不少研究人员出于指导人们构造本体的目的,从实践出发,提出了不少有益于构造本体的标准。

2领域本体的构建

2.1领域本体的设计原则通过分析总结,本体的设计原则可以概括如下[4]:①明确性和客观性:即本体应该用自然语言对所定义术语给出明确的、客观的语义定义。②完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。③一致性:即由术语得出的推论与术语本身含义是相容的,不会产生矛盾。④最大单调可扩展性:即向本体中添加通用或专用的术语时,不需要修改其己有的内容。⑤最小承诺:即对待建模对象给出尽可能少的约束。⑥最小编码偏差:本体的建立应尽可能独立于具体的编码语言。⑦使用多样的概念层次结构实现多继承机制。⑧尽可能使用标准化的术语名称。

2.2领域本体的构建步骤在实际的构建过程中,根据问题领域和具体工程的不同,形成多种构建本体的方法。目前,知识工程界比较成型的建模方法主要有:如骨架法[5]、企业建模法[6]等。参照这些构建领域本体的方法,结合信息抽取中的具体情况,并参考软件工程中的某些思想,领域本体的构建步骤如下所示。

具体如下:①确定领域本体的范围:明确构建的本体将覆盖的专业领域、应将本体的目的、作用以及本体的用户范围。②列出领域中的重要术语:列举出本系统想要陈述的或要向用户解释的所有概念。③建立本体框架:这时需要按照一定的逻辑规则把它们进行分组,形成不同的工作领域,在同一工作领域的概念,其相关性应该比较强。④设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。⑤对领域本体编码、形式化。⑥领域本体的检验评价。

3信息抽取在手机领域本体的实现

根据以上关于领域本体的设计原则和实施步骤,本文在开发领域信息抽取原型系统时,主要使用手工和半手工的方式实现了手机领域本体,在系统的销售领域中起了很大作用。

3.1手机领域本体的框架设计基于领域本体的web页面信息抽取主要是利用本身的描述信息进行抽取,因此对网页结构的依赖较少。采用这种方法进行信息抽取,预先需要领域专家采用手工方式书写某一应用领域的本体(其中包括对象的常值、关键字的描述信息)。根据领域本体的概念、概念属性以及属性之间的关系需要建立相应的关系数据库。然后根据本体中常值和关键字的描述信息产生抽取规则。对每个无结构的文本块进行抽取获得各语义项的值,最后将抽取出的目标信息放入根据领域本体的描述信息生成的数据库中。那么,下面对比较重要的数据表及其作用进行各个说明如下。

①实体概念数据表用于保存手机领域中可能相关的实体概念。刚刚建成时,可以通过人工查找、识别出领域实体的一些概念,并保存到数据库中。在此以后,可通过计算机辩别出领域实体概念,并把它追加到数据库中手工进行检验。②实体概念特征词数据表,该表存储每个实体概念在文本中又可能出现的近义形式或术语。例如实体概念“手机”而言,在文档中有可能变成为“大哥大”、“手提”、“mobile”、“mobilephone”。③属性概念数据表用于存储手机领域中可能存在的属性概念。该表主要用于保存属性概念中在真实文本中有可能出现的近义术语或形式。④属性值概念数据表用于保存领域中可能的属性值概念。该表主要用于保存每个属性值概念在文本中出现的术语或形式。⑤概念关系表主要描述手机领域的实体概念之间存在的种种关系。

3.2领域本体中概念间关系的实现手机领域本体中概念间的关系的表示通过几个概念关系表和各数据表之间的关系来实现。该领域本体由多个数据表组成,它们不仅描述该领域的实体概念、属性概念、属性值和相对应的特征词,而且对实体概念之间的关系、实体概念、属性、属性值之间的关系进行描述。而实体概念关系表描述的是实体概念表中的两个实体概念之间的关系。实体概念、属性、属性值关系表描述的是实体概念、属性、属性值之间的相互关系,如表1所示。

3.3手机领域本体的具体应用本文的信息抽取原型系统的命名实体识别、实体关系抽取和任务抽取3个抽取任务,对显示器领域本体都有大量的应用,主要集中在如下几方面。

①命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。在命名实体识别阶段,领域本体可以提供许多语义信息。利用这些语义信息对本体中的实例进行实体和关系的抽取有非常重要的意义。基于领域本体的抽取检索系统可以利用本体中的实例进行实体和关系的抽取,并不试图运用规则来发现新实例,不对知识库进行丰富,其目标是抽取的精准率和效率。②信息抽取系统基本上主要采用机器学习算法来实现抽取任务,其目标是最大程度地实现关系的抽取。它实现的关键是算法在关系识别任务中的正确率和效果,适合应用于精粒度的信息抽取。③信息抽取系统基本上都是基于模式匹配的,即首先从文本中学习出事件抽取模式,然后再用抽取模式去发现新的事件。而领域本体的语义信息能够用于抽取模式的获取过程事件抽取模式的自扩展过程,能够对已有的抽取模式进行语义扩展。④此外,在进行文本或某些网页的段落中的一些重要概念提取时,领域本体起了非常重要的作用。

参考文献:

[1]万捷,滕至阳.本体在基于内容信息检索中的应用[J].计算机工程,2003,29(4):122-123.

[2]张志刚.领域本体构建方法的研究与应用[D].大连:大连海事大学,2008.

[3]肖敏.领域本体的构建方法研究[J].情报杂志,2006(2):70-72.

[4]郭嘉琦.领域本体的构建及其在信息检索中的应用研究[D].北京:北京邮电大学,2007.

信息通信的概念篇5

摘要:文章在分析财务报告附注中多维表格的微观模式的基础上,对其进行了形式化描述,提出了元组模式中财务信息元素是构建XBRL财务报告分类标准的最基本单元,维度模式中表、轴成员和项目概念等结构信息元素是构建XBRL财务报告分类标准的最基本单元,由轴成员和项目概念信息元素构造了影子财务信息元素,对XBRL财务信息元素理论进行了细分和扩展。

关键词:财务信息元素;元组;维度;形式化

一、引言

自美国注册会计师查尔斯霍夫曼Hoffman等(1999)开创性的将有丰富语义表达能力的XmL技术应用于财务报告,并逐渐形成了可扩展的商业报告语言(eXtensibleBusinessReportingLanguage,XBRL)的概念以来,XBRL在全球范围内实践和发展已经经历了十五载。

在XBRL财务信息元素理论(张天西(2006))的研究中,“财务信息元素是构建XBRL财务报告分类标准(以下简称XBRL-FRt)的基本单元”已成为许多研究者的共识(杨周南and赵秀云,2004;Graning等,2011;张天西等,2011;Kim等,2012;Vasarhelyi等,2012)。对于格式固定的财务报表类信息的确如此,然而财务报告的附注中还存在大量格式可变的多维表格,它们也是以财务信息元素为构建XBRL-FRt的基本单元吗?

目前,财务报告附注中多维表格的构造模式可以分为元组模式和维度模式。本文在深入剖析多维表格不同微观模式的基础上,对两者进行了形式化描述,提出了在构造多维表格信息时,元组模式中财务信息元素是构建XBRL-FRt的最基本单元;维度模式中表信息元素、轴成员信息元素和项目概念信息元素是构建XBRL-FRt的最基本单元;由轴成员和项目概念信息元素构造了影子财务信息元素。对现有的XBRL财务信息元素理论进行了细分和扩展。

二、微观模式

1.元组模式。

元组(tuple)是一种组合信息的建模技术,其中既可以定义财务信息元素,也可以嵌套定义其他元组,对于采用元组技术建模财务报告附注中的多维表格的方式,可称其为元组模式。财务信息元素是元组模式中构建XBRL-FRt的最基本单元。在表达数据表格信息时,元组模式直接定义和引用了财务信息元素的标签、来源、表达和计算等关系,构成XBRL-FRt的模块。中国采用元组模式的XBRL-FRt有:上交所制定的“上市公司信息披露分类标准”、“金融业上市公司信息披露分类标准”、“基金公司信息披露分类标准”、深交所制定的“上市公司信息披露分类标准”和证监会制定的“证券投资基金信息披露分类标准”等。以上交所制定的“上市公司信息披露分类标准”表达财务报告附注中的货币资金明细表为例,货币资金明细表元组中直接定义的财务信息元素有:货币资金外币币种、货币资金外币金额、货币资金外币汇率和货币资金外币折合人民币金额等。通过分析货币资金明细的XBRL语法的定义,可以得出货币资金明细的语义层次结构图如图1。

图1可以看出,元组模式下,财务信息元素是构成财务报告附注明细表信息的最基本单元,财务报告附注中的多维表格由财务信息元素集合直接构造而成,企业通过直接定义新的财务信息元素来扩展财务报告附注的多维表格。

2.维度模式。

由轴和项目构造的维度也可以建模财务报告附注中的多维表格,可称其为维度模式。维度(Dimension)是由轴、成员、项目、概念和事项等原子概念构造而成(Hoffman,2012),其中:表由行(轴)和列(项目)构成,用于构造表格类事项信息,用table表示,表中的轴可以是一维也可以是多维,但是项目只能是一维的;轴描述了财务报告中经济事项的特征,用axis表示,成员是轴的可能取值,用member表示;项目描述了财务报告中经济事项的概念,用Lineitems表示,概念是项目的可能取值,用concept表示;事项定义了财务报告中可观测的和可报告的信息片段,用fact表示。

维度模式基于多维表格的微观结构特征,将表格类信息拆分成轴成员(行)和项目概念(列),其所表达的信息内涵由轴成员和项目概念共同决定,即:通过维度的行集合成员和列集合成员的笛卡尔乘积间接构造了财务信息元素,该财务信息元素并未在XBRL-FRt中直接定义,而是通过轴成员和项目概念的定义构造而成。为了与直接定义的财务信息元素相区别,可以将该模式下形成的财务信息元素称为为影子财务信息元素。中国采用维度模式的XBRL-FRt有:“通用分类标准”;“石油和天然气行业扩展分类标准”和银监会“银行监管报表XBRL扩展分类标准”等。

多个行集合和一个列集合的组合建模可以构造一个n*1型维度。最简单的情况下,一个行集合和一个列集合的组合建模可以构造一个1*1型维度。以通用分类标准①金融工具列报模块(CaS37)中的货币资金年初期末余额表格(参见表1)信息为例,该表格信息采用了2*1型维度建模方式构造(参见图2)。

该维度模式的第一个轴元素集合反映了货币资金类别,其中包含了三个成员:库存现金、银行存款和其他货币资金;第二轴元素集合反映了货币种类,其中包含了三个成员:人民币、美元和欧元;唯一的概念元素集合中包含了三个成员:原币金额、折算汇率和人民币金额。通过对上述两个轴元素集合成员和一个概念元素集合成员进行笛卡尔乘积,可以得出该2*1型维度可以构造出27个影子财务信息元素【3*3*3】。例如,可以用它来构造库存现金美元原币金额、银行存款欧元折算汇率和其他货币资金美元人民币金额等影子财务信息元素。

图2可以看出,维度模式下,表、轴成员和项目概念信息元素是构成财务报告附注明细表信息的最基本单元,维度中的影子财务信息元素由轴成员信息元素集合和项目概念元素集合间接构造而成。企业通过扩展轴成员和项目概念中的信息元素来间接定义新的财务信息元素,形成了对财务报告附注明细信息的扩展。

三、财务信息元素理论的扩展

黄长胤(2012)通过集合论的方法对财务信息元素、实例的财务信息元素空间和分类标准的财务信息元素空间进行了形式化表达。即:分类标准的财务信息元素空间可以形式化为:

Φ={ej|j∈J},?摇(1)

式中:j用来指定某个报告主体的财务报告中某个具体的列报项目,j∈J,J是列报项目集合。该形式化没有对财务报告中的信息元素进行细分,通过上节对财务报告附注微观结构的解析可知,构造财务报告附注多维表格的模式有元组和维度之分。我们将财务信息元素理论做如下扩展。

信息通信的概念篇6

信息的概念成了“鸡肋”,问题还是出在老师们不知道怎么才能让学生弄明白“信息是什么”。如果真的把“信息的概念”当作纯粹的概念课、理论课来上,效果恐怕不会好。先不说对高中学生来说,信息概念中那明显的哲学味儿能否被理解,就是学生能理解,我们还需反问自己,我们真的搞清楚“信息是什么”了吗?

世界上的事情往往就是这样,我们越熟悉的,越密不可分的事物,反而越难以说清楚,越难下个定义,硬要给出个定义的话,没准越弄越糊涂。信息就是这样一个东西,它无处不在,充斥在我们周围,却又看不见摸不着。“信息是什么”这个问题就如同“人是什么”、“真理是什么”、“知识是什么”这类问题,看似简单,实则不然。有人管这一类“是什么”的问题叫“苏格拉底式”问题,对这类问题,不要以为我们看了书上的定义就能真正弄懂了,堆砌名词对更多处在感性认识阶段的高中生而言毫无意义。

如果直接从信息的定义入手,好像课本中为我们罗列的名家定义都有些似是而非,细细品味这些定义,并没有让我们从中增加多少对信息的理解。据说信息科学家、哲学家们已经给信息下了200多个定义,就拿我们最熟悉的三大定义来说:香农把信息定义为“用来消除不确定性的东西”,一看便知,香农讨论的信息是通信系统中的信息。这个过程中信息甚至可以用信号、波形来测度,“消除不确定性的东西”是完全可以度量的。但香农定义也仅限于此,当“信息论”如日中天之时,香农本人就多次告诫世人:“信息论肯定不是万能药,它是一个严格的数学分支,不适用于那些统计原理不能成立的场合。”现实世界中的许多信息问题就不能归结为数学问题,如同我们不能把粮食定义为“消除了的饥饿状态”,信息也不能简单地描述成“消除了的不确定性”。我国著名学者钟义信则把信息定义为“事物运动的状态和方式”,这个抽象的定义并没有告诉我们信息到底是什么,因为事物运动的状态有很多,而几乎任何现象都是事物运动方式的反映。最后,我们不得不搬出维纳的定义:“信息就是信息,不是物质也不是能量。”这等于干脆放弃给信息下一个定义了。

既然直接从信息定义入手频频碰壁,不少老师就绕个圈子,从信息的特征入手,通过对信息特征的了解,试图间接搞明白“信息是什么”。这里面最重要的特征就是信息的依附性,也就是探讨信息与载体的关系。因为信息必须依附载体而存在,不存在与载体无关的“裸信息”,如果我们能研究清楚信息与载体的关系,就能把握信息的本质了。可是在某些情况下,我们甚至对“信息必须依附载体而存在”这一铁律都可以提出疑问。比如,我们在生活中会遇到的一种状况,家里有人在外地打工,他有时候会给家里打电话,更多的时候家人得不到他的消息。当他没有打电话给家人的时候,家人会理解为他在外地平安无事,这正如一句俗语所说的“没有消息就是好消息”。但这个例子却给我们讨论的信息和载体的问题带来了麻烦,这等于说家人获得的平安无事的信息来自于一个“没有的信息”,由于没有信息,当然不需要任何载体,那么信息还必须依附载体而存在吗?

其实,试图定义“信息是什么”越来越被认为没有意义,早期那种追求大一统的信息定义的做法正逐渐被放弃。因为几十年来的研究表明,期望某一个单一的信息概念能够被大多数人满意的认可,几乎是徒劳的。

信息通信的概念篇7

[关键词]面向主题 web信息融合 模型 技术

[分类号]G354

1、引言

随着web2.0技术的发展,企业运作日益向inter-net扩展,企业web信息的容量和多样性呈爆炸式增长,web信息日益成为企业决策的重要依据。由于web信息具有半结构化和非结构化的特征,web信息的急剧增长在为人们获取所需信息和知识带来更多机遇的同时也带来了更大的挑战。传统搜索引擎的性能已达到极限,其基于关键词匹配排序来检索web信息的工作原理存在检索结果信息冗余和不精准的问题,无法满足用户基于主题查询的需求,更无法适应企业决策的需要。信息融合借鉴人脑的工作原理,利用计算机对具有相似或不同特征的多源数据和信息进行处理,为用户提供统一的信息视图和可综合利用的信息。信息融合技术已在生物、经济和军事等领域得到广泛应用。信息融合技术为web信息处理提供了新的途径,但其研究成果主要针对结构化数据。

现有web信息融合研究主要集中在多源web信息检索融合和多web文档的知识融合两方面,对应于传统信息融合中的数据级融合和特征级融合,不支持信息的多维度和多粒度查询与综合分析,远远不能满足用户从web有效获取信息进行决策的需要。

2、国内外研究综述

2.1 信息检索融合

信息检索融合将多个搜索组件的文档结果集视为多源证据,综合利用和声效应、撇取效应和/或黑马效应,基于综合评分或排序对多源结果集中的文档进行优化组合,为用户提供更高质量的搜索结果。采用的主要方法包括:

2.1.1 基于统计的方法 分为评分融合和排序融合两类。评分融合算法根据各源(即搜索组件)的性能赋予其权重,用线性组合计算出现在多源结果集的文档的综合评分,将综合评分最高的n个文档返回给用户,如webFusion算法。基于排序的融合算法对多源结果集按相关度排序后采用轮循的方式从结果集抽取文档返回给用户,如SR融合算法。

2.1.2 基于人工智能的方法 主要是利用人工神经网络等人工智能技术进行文档聚类与模式识别。如文献利用人工神经网络自组织映射(som)算法对web网页进行聚类,识别各类主题之间的关系,从而实现搜索结果的聚合。

2.1.3 基于统计和人工智能的混合方法 基于统计的方法中文档评分函数的形式,文档的内容、链接和结构三方面各自的权重,以及各搜索组件的权重对融合结果有很大影响,通常结合人工智能的方法确定,如文献采用模式识别和启发式学习调整搜索源权重。

2.2 基于多文本的知识融合

基于多文本的知识融合将搜索结果集中的多个文档视为多源证据,主要利用语义本体和自然语言处理技术分析多个文档,利用基于逻辑的规则、基于本体的映射与合并消除其中的知识冗余、知识不完整性和知识冲突,为用户提供具有一致性的知识。根据处理对象的结构化程度可分为半结构化文本的知识融合和非结构化文本的知识融合。

2.2.1 半结构化文本的知识融合 主要对XmL格式的信息进行融合。如文献采用语义本体技术构建了面向半结构化信息(XmL格式)的知识融合模型,文献提出了一种将融合规则与知识库相结合的对半结构化信息进行融合的方法。

2.2.2 非结构化文本的知识融合 主要对HtmL格式和其他文本格式的信息进行融合。大致可分为两类:一是基于web的本体学习,从网页学习本体概念及概念间关系、获取概念属性和填充本体实例;二是多文档的自动摘要系统,核心问题是摘要旬的抽取与融合。

2.3 面向决策的信息融合

这方面的研究成果很少。中国科学院YuL等人提出面向web挖掘的信息融合工具――web仓库,设计了web仓库体系结构和eFmL处理模型,在信息的融合上采用中介模型。但作者的讨论仅限于web仓库的概念模型与工作机制,没有深入讨论具体的信息融合模型与方法。

2.4 研究现状总结

总结国内外研究现状,web信息检索融合的研究成果相对成熟。由于半结构化文本实现模式(Sche-ma)映射相对容易,结合融合规则和知识推理可以获得较好的半结构化文本知识融合效果。较困难的是非结构化文本的知识融合,原因在于机器理解自然语言仍有难度,目前的自动摘要系统会产生较大的信息损失。基于文本的语义标注进行知识融合是解决问题的一种途径。现有web信息融合算法基本上都是面向web查询设计的,不支持多粒度与多维度查询,无法满足决策支持的需要。面向主题的web信息融合模型与技术是亟待研究和解决的问题。

3、面向主题的web信息融合模型设计

面向决策的信息融合必须支持信息的多粒度与多维度查询和分析,其关键基础是多维信息模型的构建,并通过维度的分类关系(即对维度继续细分得到新的子维度)反映信息的多粒度特征。由于web信息融合的对象,即web信息,具有半结构化和非结构化特征,无法直接用于决策支持,其关键是找到一种有效的方法,根据决策主题对相关web信息进行融合且融合的结果能按多维信息模型进行组织,同时在多维信息模型的基础上可以进一步进行信息的多粒度、多维度融合,以满足决策支持的需要。基于上述原理设计的面向主题的web信息融合模型如图1所示:

3.1 web仓库模型

包括web文档本体模型、web仓库信息结构模型、基于代数的操作语言三个方面,具体原理如下:

3.1.1 web文档本体模型建立web文档本体元模型,设计包括web文档本体元模型、web文档概念层、web文档属性层(包括概要属性、链接与结构属性、内容属性和信任属性)、web文档实例的四层结构框架模型,为非结构化信息向结构化信息的转换提供语义范式,并利用该本体的元模型机制实现面向不同主题的扩充。

3.1.2 web仓库信息结构模型 采用多维信息模型组织信息,以本体概念为中心,将本体的属性映射为维度,将本体概念的继承与包含关系映射为维度的分类关系,设计web模式,构建事实表和多个维表的星型结构。利用语义模型到多维信息模型的映射关系将web文档本体实例装载入web仓库。

3.1.3 基于代数的操作语言 利用语义模型到代数系统的映射将基于语义的查询转换为面向关系模型的查询,设计基于代数的操作语言和映射算法将基于语义的查询等操作映射到代数系统的集合操作;设计基

于一阶谓词逻辑的概念和属性约束,用一阶谓词逻辑的子句归结方法判定组合约束的真假实现选择运算。

3.2 web信息融合功能模型

该模型为具有反馈优化机制的“信息检索融合――属性级融合――概念级融合――决策级融合”的四级融合功能模型,基于web仓库实现web信息的多粒度与多维度融合。其基本工作原理是:首先利用面向主题的信息检索融合技术检索web网页,利用本体学习技术从web网页生成本体实例,并装载入web仓库;然后根据用户的查询分析需求,在web仓库已有多维度信息的基础上,进一步利用本体概念的多粒度关系和本体实例的合并消重算法,在属性层级、概念层级或综合概念与属性层级实现信息的钻取、切片、切块和旋转等操作,实现web信息在属性级、概念级、综合概念与属性的决策级进行多粒度、多维度融合,以提供满足用户需求的信息融合结果。

3.2.1 功能模型 具有自我优化机制的闭环结构信息融合功能模型,定义各级功能实现的输入输出及各级功能的依赖关系,具有基于评估反馈的自我优化机制,能够分析评估反馈结果与各级融合参数和融合规则的关系,并能根据评估反馈结果实现融合参数和融合规则的自动或半自动调整。

3.2.2 主要算法 主要包括与功能模型相对应的各级融合算法以及本体实例填充算法。①与功能模型相对应的各级融合算法:在已有信息检索融合算法的基础上引入信任评价机制,综合信息源信任度、文本相似度和搜索组件权重三个方面的信息检索融合算法;基于多文档的相同概念相同属性的属性值归并融合算法;基于本体概念上下位关系的属性级多粒度融合算法;基于本体属性合并的概念级多粒度融合算法;基于图理论、本体概念合并、本体属性合并和本体实例消重的决策级融合算法。②本体实例填充算法:把每个文档视为本体实例,重点解决本体实例概念和属性的学习问题,其中概要属性如所在站点、创建时间等概要信息通过URL和Http响应信息获取;链接与结构属性通过文本分析器分析获取;信任属性由人工赋初值后基于反馈机制调整;设计基于Som和层次凝聚的聚类算法获取实例概念及概念间关系,设计基于文档模板匹配和句法模式分析的算法获取内容属性。

3.3 人机交互接口

负责用户与融合功能模型层之间基于语义进行交互,其实现形式是语义浏览器。语义浏览器以图形化的方式显示本体,用户通过对本体进行操作来表明面向主题的查询与分析需求,用户请求被封装成基于语义的形式后提交给融合功能模型层,融合功能模型层返回查询分析结果给用户并且可以让用户追踪到融合的相关原始web信息。

4、原型系统实现

面向服装行业企业主题,满足服装行业按企业和产品进行综合分析决策的需要,构建web信息融合原型系统。该系统架构如图2所示:

主要包括数据中心、融合功能、系统管理、应用开发接口和用户接口五个部分,信息源为web文档。整个系统基于tomcat+mySQL+Jena实现。web文档模型本体和服装本体采用protege工具构建并存储在mySQL数据库中,通过Jena的aRQ查询引擎采用SpaRQL查询语言进行查询;融合规则的前项和后项以数据表的形式存储在mySQL数据库中;web仓库则采用mySQL数据仓库引擎infoBright实现。web仓库模式依据服装本体的“概念――属性”关系建立,目前根据“企业”和“产品”概念建立了两个事实表,并分别根据“企业”概念和“产品”概念的属性建立了以事实表为中心的维表,实现了本体实例填充算法和基于概念上下位关系的多粒度融合算法,用户能够根据不同概念和属性粒度实现融合结果的查询。按产品分级(服装产品――男装――休闲衬衫)检索的融合结果如图3所示:

信息通信的概念篇8

随着新一轮基础教育课程改革和教育信息化的不断推进,以信息化环境下的整合教学为代表的新型教学形式,正日益成为当前教育教学改革的新视点,引起课改专家与广大教师的高度关注。

如何跨越整合理念、技术以及策略的高门槛,并在新课程教学实践中,不断开拓创新,实现有效整合与高效整合,真正惠及各学科的教育教学,促进信息化背景下师生的同步发展,我校在整合理念、技术应用以及资源建设等方面引进了概念图这一先进的工具。

概念图是上世纪60年代美国康奈儿大学诺瓦克教授等人,根据奥苏贝尔学习理论提出的一种教学工具和思维工具。在西方国家,概念图在中小学教学中运用非常普遍,有着很好的教学效果。目前随着建构主义、认知主义学习理论的发展,尤其是以inspiration为代表的,一批功能强大的概念图绘制软件的普及与推广,概念图的时代特征更为明显,在教育教学领域的运用更加广泛,它不仅可以用来评价学习,建构知识,进行头脑风暴,合作交流,促进意义学习,还可以用来进行网络课程开发、信息化教学设计及整合教学课件制作等,作为指导师生整合教学的实用性工具化平台的价值日益显现。

概念的界定

概念图是一种用节点代表概念、连线表示概念间相互关系的图示方法,是一种崭新的教学工具和思维工具。“以概念图为支架的整合教学”是指以概念图基础理论为指导,以概念图应用软件为基础性整合平台,并可实现与信息化媒体资源,以及Blog、moodle等信息化专家平台多元整合的教学形式。

理论与实践基础

主要理论基础是认知主义学习理论和建构主义学习理论以及信息技术和脑科学现论。

研究的主要内容

(一)运用概念图提升整合教学能力的师训研究

课题组从概念图在整合教学中的应用实践出发,通过报告、示范、展示、研讨、评优竞赛与网络研习等活动,结合自我反思、同伴互助与专家引领等行动研究,进行有针对性的培训;并辅助以考核、激励等策略,点面结合,分层递进,整体提升教师运用现代教育技术的能力。

(二)概念图在整合教学中的应用策略研究

深化概念图的理论研究,从教与学两方面梳理概念图与教学的内在联系,发掘并拓展概念图在整合教学环境中的功能与应用方式。按学科分类下设11个二级子课题,通过概念图在不同学段与不同学科中的运用,探索和形成可推而广之的应用策略,指导和优化以概念图为支架的整合教学实践。

(三)概念图在整合教学中应用模式的建构

以概念图软件inspiration为整合教学实践的基础平台,积极探索这一软件与信息化教学资源的整合方式,同时重点研究概念图inspiration与Blog、moodle等信息化专家平台的有效融合。

研究的主要成果

(一)探索并总结了概念图及其软件inspiration在教学中的六大应用功能

鉴于概念图绘制软件inspiration良好的易用性和功能性,课题组在深入实践的基础上,结合教与学中的各种典型案例,提出并总结出了概念图及其软件inspiration在整合教学中的六大功能:知识可视化的表征功能、高级思维的发展功能、合作交流的媒介功能、促进教学的评价功能、一体化的教学设计与课件开发功能,以及构建网络课程的设计功能等。

传统的概念图通常是用手工绘制的,只要有纸和笔,即可绘出教学需要的各种概念图。随着课题研究的推进,目前手绘概念图已逐步成为师生常态的思维工具与研习策略。实践表明:师生共绘概念图不仅仅可以促进教,而且同样可以有效地促进学,它既可以充当教的平台,也可以作为学的工具;既可以建构知识与思维路径,也可以同步发展认知与思维能力。

以概念图为支架的整合教学实践表明:作为一款集整合技术、功能、理念与应用策略为一体的信息化专家平台,概念图inspiration软件的推广与普及,能够有效促进信息化背景下师生的快速成长,符合教育信息化建设与发展的现实需求。

(二)总结并提出了概念图及其软件inspiration与课程整合的两大操作策略

策略一:“放眼网络、内外整合”的信息化教育资源建构策略

课题组积极地引导教师把目光投向网络,重点依托互联网免费性、共享性资源,以及学科软件平台,提升信息化资源建构的针对性和实用性,引导把教师有限的时间放在资源的合理选择,以及与课程的有效整合的设计上,从而极大地解放了教师的劳动,有力保证了整合教学的质量和效益。

如生物教学中引入的Flasteethwise,不仅可以帮助学生通过互动探究认识牙齿、组装牙齿,而且还可以练习如何正确刷牙等,很有趣味性;如在数学图形教学中引入的七巧板Java动画资源软件,可以让学生自主选择多样化的造型,尝试各种拼接技巧,同时还提供涂色美化的功能,学生非常喜欢;再如在物理光的色散教学中引入的Shockwave动画资源,不仅可以定性地比照各种色光透过棱镜后的偏折情况,而且还提供了偏折角度的测量工具,帮助学生进行定量研究;他们在弥补学生直接经验和生活体验不足的同时,也丰富了教学互动过程,有力支撑了新课标各学科的教与学。

策略二:多元教育信息化专家平台整合策略。

同概念图软件inspiration一样,博客、魔灯以及一些学科类的教育软件,功能强大且简单易学,是实实在在的教育信息化专家平台。但是这些平台往往各具优势与不足,多元教育信息化专家平台整合策略旨在通过以概念图为支架的多元平台整合,取长补短,弥补概念图单一平台在整合教学中可能存在的功能不足,拓展优化概念图的资源开发功能、网络互动功能与课程开发功能。

(三)基于inspiration等信息化专家平台与课程整合的模式初步形成

本课题组在探索与实践的过程中,并没有一味地纠缠于空泛的理念、策略以及纯粹的技术培训与灌输,而是独辟蹊径,通过引入技术零障碍,但又饱涵当今先进教育理念与策略的概念图inspiration、博客Blog、摩灯moodle等信息化专家平台,帮助广大一线教师又一次快速成功地跨越了整合技术、理念以及策略的“高门槛”。

Blog具有很好的互动特征,但由于本身技术的限制,它的页面结构和呈现方式,则明显逊色于inspiration的表现。鉴于此,课题组在网络教学实践中成功引入整合策略,实现了inspiration和Blog两个零障碍专家平台的优势互补。借助于inspiration与Blog的课外整合,有效打破了时空等因素的制约,实现了隐性课堂显性化,封闭课堂网络化,静态课堂动态化,交互形式多样化,教师同行之间也可以通过网络课件与Blog进行深度研习和交流反思,有效推进教师网络教研共同体建设,促进教师隐性知识显性化,最大限度地提升课堂教学的共享度。

相对于Blog而言,moodle在教育教学领域则显得更为专业,功能也更为强大。不仅在信息管理方面支持的类型更为丰富,而且最为突出的是,互动形式不再仅仅是简单的回复,还可以是投票、讨论、测验、评价、问卷调查等,既可以很好地满足网络课堂教学的需要,又可以在远程网络教学与管理方面游刃有余。而且概念图inspiration与moodle的整合也有利于改变moodle课程界面过于线性化、单一化的不足,课题组相信随着教育信息化建设的持续推进,inspiration和moodle与网络教学的整合可能会成为一个新的亮点,值得期待。

当然随着整合教学的发展和需要,网络互动平台也会不完全局限于Blog和moodle,教学中教师们可以结合整合的理念加以发展和充实,但是就现阶段而言,这两个平台应该是当下乃至今后较长一段时间内的网络互动平台的首选,因为它们既不需要额外的经费,也没有高难度的技术培训,但是确功能强大,非常适合整合教学的现实需要。

(四)以概念图为支架的整合教学师训策略与模式日趋完善

课题研究与发展的过程,也就是教师培训与发展的过程,在启动阶段,课题组主要围绕与概念图有关的理论专题研习、技术培训展开工作。整理了《概念图参考文献专辑》,涉及国内外核心期刊发表的数十篇文章,供教师学习参考,有效更新了教师的教育理念,深化了对概念图理论的认识和理解,学校每学期均组织2次以上的专题学习,有效推进了以概念图为支架的整合教学逐步走向深入。

随着课题研究的逐步深入,不同学科、不同年级段、不同教师的整合教学开始呈现出许多个性化的亮点,当然也伴随着出现了许多问题与困惑。对此课题组及时开展了以概念图为支架的整合教学展示研讨、教师论坛,以及理论与技术的高级培训,坚持扶持与推进相结合,在有效分享科研集体智慧的同时,有效化解了新的矛盾和困惑,课题研究得以进一步深入和深化。

信息通信的概念篇9

[关键词]知识检索 检索模型呈现技术 本体

[分类号]G250.73

知识检索的产生与发展一方面来源于用户对知识检索的需求;另一方面来源于信息检索理论与实践的发展与完善。知识检索模型和知识检索呈现方法是知识检索的重要研究方面,以本体作为知识组织的方法,能实现基于语义的知识检索。

1 知识检索技术的研究与发展

在讨论区中呈现了如下的关于知识检索的介绍:①知识检索的基本思想就是模拟扩展人类关于知识处理与利用的智能行为和认识思维方法;②知识检索通过挖掘其深层含义,充分精确地表达知识资源和用户需求,进而在各类异构的数据库、数据仓库、知识库中进行检索,返回最相关的结果的检索机制;③基于ontology的知识检索可以阐述为:在领域专家帮助下建立领域ontology,把收集来的数据按规定格式存储在关系数据库、知识库等的元数据库中;④查询转换器按照ontology把查询请求转换成规定的格式,从元数据库中匹配出符合条件的数据集合,检索的结果经过定制处理后返回给用户;⑤知识检索的基本特征有:支持自然语言检索;支持语词、语义内容的处理,实现同义词扩展检索和关联检索;具有概念推理和学习功能;具有强大人机交互接口。

知识检索是一种全新的信息检索方式,是在现有的信息检索技术以及模型上发展而来的。搜索引擎是当前检索信息的主要方式,它们能在短时间内反馈给用户大量的信息,但反馈信息中的信息噪音过大,其中包含了太多的无用信息;目录分类的数据库规模较小,以致某些主题下收录的范围不够全面,检索到的信息数量有限。可以看出,传统的信息检索缺点在于没有从语义层次上对信息进行标引,不能够满足用户在语义和知识上的需求。而知识检索是综合运用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理与多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取文本、图像、视频、声音等媒体类型的知识源,并能准确精选用户需要的结果。知识检索是将信息或知识按照一定的方式组织、存储,并根据用户的需求找出相关信息和知识的过程。在这个过程中,被检索的对象是知识资源、知识库。知识检索就是采用一种从语义上标引文章的技术,形成知识库,再从知识库中查询用户所需的信息。

知识检索和信息检索的不同,在于知识检索强调了语义,它从文章的语义、概念出发,能够揭示文章的内在含义,而不像信息检索只是基于字面的机械匹配。知识检索提高了查全率和查准率,减轻了用户的负担。表1从检索语言、检索模型、组织方式、搜索方式和检索效率方面进行了归纳。

与主题词表或分类表不同的是,本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联;形式化能力最强,同时具有高度的知识推理能力,能通过逻辑推理获取概念之间的蕴涵关系。因此,本体是一种知识组织体系。以本体作为知识组织的技术和方法,能实现基于语义的知识检索。知识检索是传统信息检索的发展,随着人工智能、系统信息管理等相关高新技术的运用,提供个性化、智能化的主动信息服务也将是知识检索的发展方向。当前,图书情报档案的知识检索系统更加注重文本挖掘的功能,如大规模实例描述的汉语分词排歧知识库,具有主题词典和内容相似性检索功能,自动分类、聚类和自动摘要功能,文本数字理解和新词学习功能等。

2 基于本体的知识检索模型

2.1 信息检索模型的发展

经典的信息检索模型包括布尔检索模型、向量空间模型和概率检索模型,目前大多数检索系统往往综合上述各种模型,以达到认为最佳的检索效果。这些检索模型的不足是:在文献的组织与描述上,采用词切分和单汉字或两者结合标引文献,将关键词作为描述文献的基本元素,文献之间是相互独立的;在检索操作上,是基于关键词的无结构查询,难以反映词语问各种语义联系,查询能力有限,误检率和漏检率很高;在模型约束方面,索引项之间独立性的要求不符合实际情况,计算查询和文档之间的相似度的方法也有局限;虽经不断完善,也难以从根本上适应网络巨量信息的检索。

由此,一些学者从不同角度提出了基于知识的检索模型,如分类检索模型、多维认知检索模型、分布式检索模型、概念检索模型等。特别是概念检索模型克服了以往检索模型中以词及其权值为中心建立相关性而忽略了语义关联的缺点,以概念词典为辅助,采用人工智能技术,增强搜索引擎概念分析理解能力,从概念层面上来处理用户的查询请求,从而实现特定领域的概念检索。上述检索模型由于没有知识组织体系的支撑,没有实现对检索对象的语义标注,也没有对其语义进行解析,因此被解释为基于知识的信息检索模型。

2.2 基于本体的知识检索

基于本体的知识检索模型在资源对象的组织、描述、表示、检索和模型约束等方面都具有自己的特征,主要表现为:

在检索对象的组织上,知识检索模型利用领域本体作为组织资源的基础。首先构建一个涵盖相关领域概念及概念间关联的领域本体库作为资源描述和知识表示的工具与模型,如各学科领域的主题词表、分类表,在此基础上确定领域知识本体的主要概念和概念间的各种关系,构筑领域本体的概念模型。

在检索对象的描述上,知识检索模型借助语义标引工具,按照领域本体的概念及关联,对资源对象进行概念分析、分类、标引、描述和处理,形成机器可以理解的带有语义信息的元数据。

本体概念的优化检索依赖于本体检索语言的功能。在支持本体检索的诸如RQL,DQL,0wL-QL,SquishQL,RDFQL,RDFpath和Versa等知识语言中,以RQL作为知识检索模型的检索语言可以满足知识检索的需要。

知识检索模型提供了特定领域可控的概念语义体系,并建立与概念体系相对应的具有层次结构的自然语言术语体系,能对自然语言提问和本体概念库的术语进行语义的理解、分析和匹配,依据本体概念问的语义关系,实现知识检索。

在模型约束上,知识检索模型的约束比较少,但要求概念和关系构成一个有向图,关系必须是有方向的;另外,要求每一个概念/实例都需要有一个唯一的标识。

2.3 ont-KRm:基于本体的知识检索模型

基于上述约束和所建立的本体原型,笔者设计了的基于本体的知识检索模型ont-KRm(KnowledgeRetrieval

model0nontology)。ont-KRm分为人机交互部分、知识源部分、检索匹配和本体库等部分,如图1所示:

人机交互部分主要是分析用户提交的检索请求,返回整理检索结果。检索请求的分析主要是依据本体知识,分析用户的真实检索意图,形成规范、准确的检索请求,提交给检索匹配模块。检索请求的分析主要分为以下步骤:①对检索请求进行预处理,提取需要检索关键字(词);②借助本体并在必要时通过和用户再次交互,判断检索请求中关键字(词)的领域、相关概念等等,确定用户的真实意图;③将用户的真实意图形成统一、规范的检索请求提交给检索匹配部分;④在对用户意图进行分析和交互的基础上补充和完善本体库中的相关知识;⑤对检索匹配部分返回的检索结果进行处理、合并后返回给用户。

知识源部分主要对知识源进行收集、并对收集的知识源根据本体库中的知识进行标注和分析,对从知识源中抽取的知识进行转换,对本体库中的相关部分进行补充和完善,建立对应的索引信息,放入索引库。

检索匹配部分主要是从人机交互部分收集统一的检索请求,并依据本体库中的相关知识对检索请求和索引库进行语义与语法层面的匹配,并将检索结果返回给人机交互部分。

本体库部分应该说是整个模型的核心部分,从对检索请求和检索结果的处理,到对检索请求和索引的匹配,再到对知识源的标注、索引的建立都基于本体库中的相关知识。同时,上述各个过程又可以对本体库中的知识进行补充和完善。当然,对本体库中知识的任何修改都要经过领域专家和系统的双重认定。

3 基于本体的知识检索呈现

3.1 知识组织体系及本体的语义标注

所谓知识组织体系,是对资源内容概念及其相互关系进行描述与组织的机制。目前图书情报界公认的知识组织体系是主题词表和分类表,但本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联。本体是一种知识组织体系,以本体作为知识组织的方法,才能实现基于语义的知识检索。因此,本文的知识检索模型和方法都建立在本体基础之上的。

目前信息机构中采用的元数据方案大多源自于对馆藏进行长期保存的目的,并不能够完全满足知识组织的要求。通过元数据的描述,可以充分揭示元数据的元素及元素揭示内容的语义含义,达到进行元数据互操作和对内容进行知识组织的目的,笔者重点研究以下问题:

标注元数据元素的语义。元数据互操作常见的困难是元素问同名异义和异名同义,RDF的思路是如果不同元数据中的元素指向同一个资源,那么这些元素具有同一语义。根据信息机构数字资源的特点,选用DC元数据作为元素语义的最终解释。也即如果说不同元数据中的元素都可以使用DC元数据中的同一个字段进行解释,那么这两个元素就认为在语义上相等。操作时将元数据与DC元数据元素之间的映射关系放在数据提供者方,当数据提供者在进行注册或者使用的元数据发生变化时,由其管理人员对映射进行定义。

标注元数据元素内容的语义。在解决了元数据元素的语义以后,采集回来的元数据应该用什么方法进行组织,与元数据元素内容的语义相关,因此还需要揭示元数据元素内容的语义。笔者通过RDF的描述方式来对元数据元素内容的语义进行揭示,框架中定义了一个关于元数据元素内容的ontology,并通过URi建立元素与ontology中的条目之间的关系,以此来标注元素的语义。

标注知识组织的内容。在对数据源的元数据进行描述时,数据源的管理人员可以根据元数据元素的功能对其进行区分,只提供标注内容的元素。这样,既减少了进行元数据描述的工作量,也为知识组织能够更有效的进行提供了方便。另外,对知识的组织还需要根据系统的实际需要有所选择,在进行元数据采集时,可以通过定义对DC元数据的哪些元素内容进行组织,然后再反向定位到与其相关的元数据元素来确定知识组织的内容。

3.2 知识检索呈现

知识检索呈现要解决的问题就是知识提供的形式和检索结果显示的形式。常见的知识呈现方式主要有概念图(conceptmap)、思维导图(mindmap)、认知地图(cognitivemap)、语义网络(semanticnetwork)、思维地图(thinkingmap)等。信息检索和知识检索呈现之间虽在呈现方式上存在着相互借鉴,但它们之间的区别还是很大。表2从呈现对象、呈现目的、呈现方式和交互类型等方面加以区别:

从呈现对象看,信息检索呈现的对象是信息,而知识检索呈现的对象是知识,包括知识本身和检索结果中的知识;从呈现目的看,信息检索呈现一是从大量信息中发现新的信息;二是将检索结果直观的呈现给用户以提高检索效率。而知识检索呈现则在于促进知识的传播和创新,方便用户更好的认识和获取知识;从呈现方式看,信息检索呈现的方式通常是图形、图像,而知识检索呈现的方式包括知识图表、视觉隐喻等;从交互类型看,信息检索呈现的交互是人机交互,而知识检索呈现的交互是人人交互。

资源的显示方式取决于资源的组织方式。信息组织线性的、无结构的方式,决定了信息的提供与获取是以关键词和分类目录及索引等途径来实现的,检索结果显示的是一组基于关键词层面上的没有语义的文献集合。而知识组织基于领域本体,是对概念关联的组织,所以知识检索显示的应是反映知识内容和概念关联的知识网络(或称知识地图)。简单地说,知识网络是对领域知识结构的展示,是对已获取的知识以及知识之间的关系的可视化描述。

3.3 基于本体的知识检索呈现技术

基于本体的知识检索呈现,是指通过一定的知识表示技术,将领域知识按照一定方式,清晰有序地在一个统一的界面上展示出来,以供检索者方便地查询与获取知识。基于领域本体的知识网络具有三个特征:①定位知识,给出任何一个概念,都可以显示该概念在知识体系中的位置;②揭示知识关联,知识网络不仅要确定概念的位置,还要揭示此概念和其他概念间的语义联系,描述知识网络中各种关联;③可视化展示,通过直观、形象的模式、模型、图形、图像等方式,展现知识地图。

下面以笔者开发的知识集成原型系统中的“知识检索系统”为例,来说明知识检索的呈现方式。

该系统是一个基于与鲁迅相关资源知识的领域本体原型的知识检索系统。这个领域本体原型的构建以分类/主题一体化词表为基础。由于分类和主题表达的对象都是主题概念,两者之间存在着隐含的概念对应关系。与鲁迅相关资源知识的领域本体概念网络的显示以及对知识的获取,是通过概念浏览和概念检索实现的。

页面布局。用户界面分为概念导航区和概念检索区两个部分,概念导航区是领域本体中各类概念的分类导航,点击具体的分类之后就可以在右侧的知

识导航区,显示概念的网络关系图。概念检索区在输入需要检索的概念,并进行进一步细化之后,就可以看到以相关的网络概念图和相关的概念实例。

概念浏览。概念浏览主要实现经济本体概念的分类导航和主题导航,可循着学科等级和概念间的语义关系进行浏览,起到知识导航作用。分类导航可对领域本体的分类知识树进行逐次浏览,选择一个分类概念,即可同时显示与该分类概念对应的主题概念关系,包括等同关系、等级关系和相关关系。反之亦然,可通过音序对领域本体的主题概念树进行层层浏览,选择一个主题概念,即可同时显示与之对应的学科类目(可以是一个类目或多个类目)。例如,在“分类导航”目录树中选择“阿Q正传”,主题概念浏览区便显示“阿Q正传”概念关系,点击概念关系就可以显示属于“阿Q正传”概念的文献实例,如图2所示:

概念检索。概念检索可以通过自然语言检索本体概念及关联。如果检索词是本体概念,即显示该概念及其概念间关系,同时显示与之相关的学科分类类目,以实现语义的扩展检索和关联检索。对于本体库中没有的检索词,由于系统建立了与本体概念对应的自然语言术语库,在主题概念显示区即显示与该检索词对应的主题概念及关系,分类概念显示区显示与之对应的分类目录。例如,在检索框输入“阿Q正传”,主题概念显示区显示“阿Q正传”的概念关系,“分类导航”目录树中显示与之对应的类目(图书资源中的《阿Q正传》出版物,档案资源中的《阿Q正传》手稿,其他资源则是显示讨论阿Q精神的各类网络文章和站点等);关键词浏览区显示与之对应的关键词(阿Q正传手稿、阿Q精神、阿Q话剧等);文献概览区显示与“阿Q正传”相关的资源(题名或关键词含有“阿Q正传”的资源)。

信息通信的概念篇10

近年来,无论在教学还是在学术研究领域,人们总是将会计信息化和会计电算化相混淆,认为两者是同一概念,没有实质区别,可以替换使用;也有人认为会计信息化的概念优于会计电算化,但不知道优在何处,只是在朦胧中意识到会计信息化可能会替代会计电算化。笔者认为搞清楚两者的来龙去脉,对两者加以正确的区分,有利于教育教学、企业信息化的发展与定位甚至学术机构的确切命名。

一、会计电算化和会计信息化概念的由来与含义

1979年,计算机应会计工作在我国拉开了序幕,当时人们的认识就是将计算机技术应用于会计领域能够有效地提高会计的工作效率,学术界并没有提出一个权威性的概念统一人们的思想认识。1981年于长春召开的“财务、会计、成本应用电子计算机问题讨论会”上,第一次提出了“会计电算化”的概念。

会计电算化的基本含义是指将计算机技术应用到会计工作领域,用会计软件指挥各种计算机替代手工完成,或手工很难完成、甚至无法完成的会计工作的过程。

2005年8月,由《会计之友》杂志社承办的中国会计学会会计电算化专业委员会年会在山西太原召开。会上提出了“会计电算化”向“会计信息化”发展的理念,与会专家就这两个概念进行了热烈的讨论,一致认为用“会计信息化”可以更好地概括“会计电算化”的进一步发展,也可以进一步提升“会计电算化”的应用水平。

会计信息化是会计与信息技术融合的过程,是将会计信息作为管理信息资源,全面运用以计算机、网络与通讯为主的信息技术对会计信息进行获取、加工、传输、存储应用等处理,为企业内部的经营管理者、企业外部的信息使用者提供全面、及时的信息,会计信息化是企业信息化的重要组成部分。

可以看到,两个概念是人们在不同时期、信息技术发展的不同阶段提出来的。

二、会计信息化与会计电算化的区别

应当看到,没有过去20多年会计电算化所积累的丰硕成果,今天的会计信息化也就无从提出与研究。会计信息化与会计电算化,没有划定的边界,只是随着信息技术的不断发展与其在会计领域应用深度和范围的不同而在认识上产生了飞跃,两者都以信息技术为特征,所不同的是,由于在不同时代所依托的信息技术迥异而使其各自应用的外延和内涵产生了较大的区别。

(一)信息技术环境的区别。人们通常所说的信息技术不是单纯的一种技术,而是计算机技术、网络通信技术和信息感测技术等组群技术的简称。会计电算化阶段,人们谋求能够开发出解决会计领域的单项工作或整体核算工作的软件,从而帮助会计工作人员实现劳动力的解放和生产力水平的提高;硬件方面则主要以单机环境或f/s(文件/服务器)架构为主,很少涉及网络通信技术和感测技术。会计信息化阶段,人们需要研究和开发集财务管理、生产管理、供应链管理、人力资源管理乃至决策支持等诸多子系统于一体的管理信息系统,会计信息系统属于管理信息系统的重要子系统,这个阶段的mis(管理信息系统)、erp(企业资源计划)、scm(供应链管理)、crm(客户关系管理)等产品和概念的提出无不建立在网络和通信技术基础之上。

可见,电算化和信息化都应用了计算机技术;电算化较少使用网络通信技术,信息化则更多地依赖于网络通信技术的支持;电算化几乎没有用到感测技术,信息化则会随着其发展越来越多的使用诸如条码感测、智能感测等感测技术。

(二)系统地位层次的区别。会计电算化主要服务于财务部门的核算与管理,属于部门级应用;而会计信息化则是企业信息化的有机组成部分,会计信息系统是管理信息系统的核心子系统,除了服务于财务部门外,还要为信息管理层、决策支持层和决策层提供服务,属于企业级应用。

(三)系统目标的区别。会计电算化和会计信息化是人们随着信息技术在会计领域应用的不断深入而提出的差异概念。会计电算化以解放生产力,提高工作效率为出发点,首先强调的是会计数据处理的规范化,改变手工会计的不规范现实,要求会计软件的开发、会计信息系统的运行按照我国统一会计制度的要求规范操作,立足于财务报告的规范生成;而会计信息化则更强调会计输出结果的效率和增值性,这种增值效应依赖于网络环境下会计数据的快速搜集、实时传递以及对不同层次数据的深加工。会计信息化的成效依赖于会计信息输出的多元化研究。

(四)信息输入的区别。会计电算化条件下输入系统的是记账凭证,数据主要由财务部门自己输入;而会计信息化的大量数据可从企业内外其他系统直接获取,同时可以预见,随着原始凭证标准化问题的解决以及网络安全技术的日臻成熟,经过数字签名的原始凭证会直接进入会计信息系统。

(五)数据处理的区别。会计电算化主要通过批处理方式处理业已发生的数据,而会计信息化使实时处理数据成为可能。在计算机网络环境下,企业的业务部门通过intranet(企业内部网)协同工作,所产生的各类数据信息存储于系统集成的数据库中,企业信息的内部用户可以通过对数据库的实时访问,对数据进行实时处理。

(六)信息输出的区别。电算化环境下,会计信息的输出主要有显示、打印、磁盘等方式;信息化环境下,内部需求除了上述方式以外,更多的可以通过网络实现信息传递与共享,通过授权、划分权限级次,企业内部各个机构、部门从信息系统上直接获取。随着xbrl(可扩展商业报告语言)深入研究以及b/s(浏览器/服务器)体系架构在大型系统中的逐步推广和应用,会有越来越多的企业在internet上公布其财务信息。

三、区别会计电算化与会计信息化的意义

会计信息化的概念提出以来,学术领域、教学领域都在同时使用这两个概念,造成的结果是人们疑惑丛生,疑惑之余只能盲从,继续盲从会导致企业无法正确定位自己的信息化进程、教学概念继续模棱两可、学术机构不能正确定位自己的研究和工作方向,上述结果最终会影响我国会计信息化的健康发展。

(一)有利于澄清教学中的模糊概念。目前,计算机会计教材比比皆是,名称不一,有会计信息系统、计算机会计学、会计电算化、电算化会计、计算机在会计中的应用等诸多称谓,笔者不反对“百花齐放、百家争鸣”的宗旨,但教学过程的授者是教师,受者是学生,名称和概念过多会导致授受双方无所适从,会使教学缺乏说服力,也会使学术研究缺乏统一的认识和思想,这可能是会计信息系统教材参差不齐、内容相左的重要原因。会计信息系统结合了信息论、系统论的思想,吻合了会计信息化的概念,适应了当前信息技术发展的大趋势,是计算机会计教材名称的首选。

(二)有利于企业正确定位自己的信息化进程。企业信息化进程受制于信息技术的发展,1979年我国开始搞计算机会计的试点,1983年国务院成立了电子振兴领导小组,直至1990年国内才推出第一批品牌的会计软件,可以说到上世纪90年代末,一个企业能够拥有自己的计算机硬件,找到合适的会计软件已属不易,不存在网络大规模的应用和遍地开花,而且这十几年的时间里企业的计算机会计确实是只在会计电算化阶段徘徊,软件生产厂商开发的会计软件业主要停留在会计电算化上,即能够用软件替代手工完成传统的手工会计核算工作,阿尼塔。s.霍兰德所谓的“传统会计信息系统是手工会计的翻版”即是这个意思。20世纪末本世纪初,随着大中型、分布式数据库逐步应用于国内信息处理领域;随着f/s(文件/服务器)逐步向c/s(客户机/服务器)、b/s(浏览器/服务器)体系架构的发展;随着越来越多的erp产品推出,特别是越来越多的企业有实力、有能力取得上述技术与服务以后,计算机会计脱离了“信息孤岛”时代,进入了集成财务、生产制造、供应链、人力资源、经营决策的企业信息化时代,会计信息系统不再是孤立的系统,会计信息系统不再单独地服务于部门需求,会计信息会随着更准确的输入、更深层次的加工、更实时的处理以及满足了更多样的需求而为企业带来了更多的增值服务。

当然并非所有企业都适用c/s、erp,所有企业都应该对自己的信息化程度进行正确定位,无论企业规模大小,无论企业的硬件架构和所选用的软件层次如何,不可否认的是企业一并进入了信息化时代。可见,会计信息化取代会计电算化已是趋势使然。