首页范文大全大数据时代的定义与特点十篇大数据时代的定义与特点十篇

大数据时代的定义与特点十篇

发布时间:2024-04-26 02:07:58

大数据时代的定义与特点篇1

【关键词】云计算智能终端语义网个性化服务大数据

1前言

基于网络的计算架构在从Client/Server方式发展到Browser/Server的三层结构,再到移动化Client/Server(智能终端代替客户机)方式的过程中,人们一方面充分利用网络能力实现了远程计算和存储服务,另一方面又受限于网络能力而不得不在可用性、可靠性和服务体验之间进行折中设计。

随着网络发展进入光纤时代,带宽有了更好的保证,云计算开始显现出巨大的生命力。云计算是分布式计算、并行计算、网格计算等理论在互联网时代的延续,其愿景是以互联网为中心,提供安全、快速、便捷的数据存储和网络计算服务[1]。另一方面,从通信、计算机和智能感应技术的交叉领域发展起来的智能终端,使得人们随时随地连线世界的梦想得以实现,已经完全改变了人们的工作和生活方式。

随着云计算和移动互联网的发展,智能走向网络两端的趋势越来越明显:云计算多体现为业务平台,实现总体的业务逻辑和业务推送;终端负责为用户定制好的业务体验。未来,“云端共存、云端互动”的计算架构将成为移动互联网时代新的主流计算方式,本文将从语义和语用的角度,结合通用服务平台、用户个性化需求和大数据技术,分析这一新的发展趋势。

2个性化服务是新技术发展的果实

2.1个性化服务需求是人类天性使然

人类对服务需求的天然不同决定了移动互联网应用的多样性和动态性。移动电话发展早期,个性化铃音、换彩壳就曾是一些手机吸引用户的手段。在芯片逐步升级、各种设计方案不断出现、手机操作系统逐步智能化过程中,个性化设置功能越来越丰富。一些智能终端如苹果、三星手机,在初始化时要根据用户所在区域设定时钟、语言、度量衡单位等。随机安装的应用程序如天气预报、股票市场等,也需要用户自己进行设定。由于终端将和各种应用平台如appStore、微信、微博等进行信息交互,安全和隐私如是否允许应用访问通信簿、位置信息,是否接受平台推送的信息,以怎样的频率与平台做交互等,都需要用户根据个人喜好进行设置。

众所周知,基于不同的公理体系,知识的推演及结果是完全不同的。一款应用在提供快捷可靠的基础服务的同时,还要根据用户分群进行特殊考虑,以提供更加贴身的服务。如果能针对用户个性化特征及现时状态如地理位置等定制个性化体验,那将更加完美。

2.2云-端两点计算使低成本差异化成为可能

差异化和成本领先是两种截然不同的营销策略,同时实现难度极大。在信息服务领域,这个问题有了变化:信息服务研发和部署成本包括硬件和网络配置等是相对固定的,而服务交付等变动成本相对较少。开发商开发好业务平台和必要的客户端程序,用户购买了智能终端,固定投入就已经完成。用户连网下载客户端就可使用应用,获得需要的服务。整个过程中,用户分担了推广和应用交付成本。

用户在使用手机时,有意无意地把自己的个性化特征保留在手机上,有意的如通信簿及分组信息、微信微博好友信息等,无意的如各种连线、下载信息、应用使用记录、系统log等。手机上沉淀了用户本人的个性特征和爱好、消费习惯甚至是价值观。借助于网络和ota(overtheair,空中下载)技术,软件传播和升级便捷而便宜。因此,应用提供者可以通过手机的客户端收集用户允许的各种信息,理解用户个性特征,从而以用户设定和软件分析与定制的方式实现低成本的差异化服务。

3云—端两点计算:云为语义,端为语用

3.1下一代互联网是一种语义网

软件等于程序加数据。移动互联网时代,程序是以云-端两点计算架构为基础的,而互联网就是数据所在。互联网之父蒂姆·伯纳斯·李将下一代互联网称为“语义网”(Semanticweb),“语义网”其实就是“数据网”(webofData)[2]。

所谓语义就是为数据赋予生命——以元数据形式为每一片信息贴上标准化、计算机能够理解的“意义”。这样,互联网就是一个全球性的数据库,通过元数据的连接,计算机就能自动检索、搜索和集成网上的各种信息。

3.2语义、语用和两点计算模式

语义与语用通俗来讲就是一般和特殊的关系。语义形成是特殊到一般的过程,构成语句的词义通常有一定的概括性,包括一般性、模糊性、通用性,从而表达通用意义或本意;而语用则是一般到特殊的过程,通过词义的组合、搭配规则,表达在特定语境下的具体意义或派生意义。

在云-端两点计算架构中,云平台对应于语义部分,经过充分抽象的业务逻辑和交付流程,是通用的和公共的;而终端实现(或客户端)部分则对应着语用,能够根据用户个性化特征和需求进行特别处理与展现,给用户以完全个性化的体验。用户的各种特征记录和现时的需求则是语境,应用提供商需要根据这个语境进行语用推理。对用户信息掌握得越完整,对本次用户的需求了解得越贴切,定制化服务就越符合用户实际需求。例如一个搜索引擎,不同的人输入同一个问题,搜索结果如果是一样的,那么还只是停留在通用功能语义层上。如果能够针对不同人的个性特征,根据具体语用的情境推理,给出不同的、贴合用户本次搜索目的的精准结果,才达到了个性化服务层次。要实现这一点,需要把搜索同终端计算结合起来,获得用户实际语境。如果知道用户搜索目的是购物,就可以索引分析其曾经的交易数据、正使用的服务(如CRm信息)、近期浏览记录和社交媒体数据等,从而推测出用户购买意愿和消费习惯。

一个语句在一定语境中的真实含义除了要考虑字面意义,还要考虑一些额外意义。在个性化服务方面,语境就是用户的相关信息,包括用户特性:年龄、性别、教育背景、工作经历、兴趣爱好以及与本应用相关的习惯和偏好、本次服务的具体要求等。

从理论上看,完整字面意义的获得需要借助语境完成一个或多个下述操作:

(1)指称指派:为代词和时间副词确定具体指称对象。对应于识别语境中的用户并获得各种相关信息,并标出时间和地理位置。

(2)充盈丰义:补出省略的句子成分和句法不需要但语义理解上必要的成分;并对语义进一步细化,如补充隐含的逻辑关系、深化某些词语的意义等。这对应于两个过程:一是通过标准化语义理解字面意思;二是结合用户静态信息,进行必要的补充,获得特定语境下完整的意义,实现将云平台抽象的语义具体化。用户静态信息包括个人属性、兴趣标签、社交图谱、消费图谱等不易变化的信息。

(3)消除歧义:选定歧义语句在具体语境的单一意义。结合时间和地理位置,根据用户习惯和连线记录,分析确定用户的实际需求。

3.3云-端两点计算的分工与基本流程

终端是系统与用户接触的第一界面,负责接受用户命令、记录用户操作、根据语境进行语用推理预测用户基本需求。为此终端要根据用户个性化信息和时间、位置与环境参数,按照特定的业务逻辑和规则进行计算,并将结果传送给云端业务平台。

云端平台具有处理大数据的能力,存储着大量的业务数据和用户交互、交易数据。平台利用空闲处理能力进行业务数据的整合分析和索引,利用用户数据进行个性化分析和元数据标记,建立各种语境的特殊业务数据和用户个性化信息,并将处理规则和信息下发给终端;接到终端发来的运算结果后,平台根据语义判断和语境、用户信息匹配确认用户需求,获取基础服务内容,将结果下发给智能终端。

终端将平台返回的信息以适合终端特性和用户喜欢的形式展现给用户。在复杂的业务场景下,如用户首次使用业务或存在歧义平台无法判断用户真实需求时,平台和终端可能要经过多次交互,也可以以交付样例的形式请用户快速确认需求的符合性。

云-端具体分工和数据存储分布可以根据业务本身的特点进行设计,一般原则是尽量降低对网络高速大容量传送的依赖,利用终端越来越强大的计算和存储能力,保证用户随时随地的高质量业务体验。一些比较消耗网络资源的工作如数据同步(如图片视频)可在网络闲时由系统触发。

云平台存储着大量业务数据,甚至可以通过泛化和语义推理帮助用户澄清实际需求,或者给用户以建议从而交付超出用户期望的业务体验。例如,Linkedin网站在你注册时,会给出和你同期毕业的校友、曾在相同公司的同事,意外地帮你找到失散多年的老同学、老同事。

4云-端两点计算是以数据为中心的计算模式

4.1下一代互联网的核心是数据

随着软件业的成熟,各种开发环境、高级语言、开源软件使得计算越来越多地被复用;而数据则带有与业务和用户相关的特征,是特别的、个性化的,它已逐渐成为软件系统的核心。

Facebook的社交购物是基于社交关系图谱或兴趣图谱产生的购物行为,支持其F-Commerce购物的,是7500万个用户小组、每月超过450万的事件或活动。人们在互联网上进行交互、交易的同时,留下了大量的数据,这些数据将现实和网络生活连接了起来。未来移动互联网的两点计算架构将是以数据为中心的,这标志着智能化和大规模个性化定制时代的到来。

4.2让数据拥有生命

数据需要特定的业务环境来解释其具体意义,元数据则是表达数据意义的标准化标签,有了这些标签,数据和数据就可以自动发生联系,就像有了生命、有了智能。

以客户需求为起点的“产销反向定价”揭示了个性化需求与营销配合的新趋势。在信息化帮助下,企业能够根据用户分群设计差异化产品,在满足大众基本需求获得规模效益的同时,让最能实现商品使用价值的人支付高价,实现“情境定价”,甚至由用户自行选择产品配置并确定价格。

以数据为中心的计算模式实际上是以人为中心的计算模式。通用数据保存在平台,个性化数据则驻留在终端,数据和服务都围绕着个人需求。过去,人要告诉计算机做什么,还要告诉计算机怎么做;未来,只需选择平台决定做什么,终端将告诉平台怎么做。数据是这一切的基础。

4.3大数据应用技术

在世界每一个角落,都不断产生着数据;企业、个人的每一个动作也都会产生数据;描述一件事可以有很多维度……随时随地产生的大量数据如海洋一般,而处理数据的能力总是有限的。因此,要有选择地进行数据的测量和记录;同时,要解决海量数据的获取、存储、管理和搜索等问题,尽量使数据变得结构化、智能化。相关研究领域将涵盖数据索引和检索、数据整合和存储、数据分析和挖掘、元数据设计和语义网建设等。

具体应用的开发、部署是以服务为中心展开的。服务不同于一般产品的特征在于生产与消费同时性。服务不仅包括产品,也包括产品的展现形式、用户交互形式等。在两点计算架构中,平台提品的基本内容,终端决定产品展现形式和交互式体验。广义地讲,平台、广告、搜索、终端定制、多屏互动和分享等技术也是新业务模式下的重要研究领域。以用户需求为中心,进行大规模低成本个性化定制是软件企业努力的方向。

5新计算模式面临的挑战

5.1语义网:互联网的基础语言标准

以元数据为基础的语义网给网上每一片信息赋予一个信息化标签,从而使平台与终端、应用与应用、数据与数据之间能够相互连接,获得需要的更多相关数据。这种连接是根据数据含义和属性来实现的,与传统互联网人为点击跳转不同,是由数据本身内在关系决定的关联。

语义网建设最大的挑战来自于元数据标准的统一。现实情况是,各种应用系统都有自己定义的编码标准和业务数据;即使同一公司的软件产品,也常因为不同团队开发而建立了不同的元数据体系;还有的应用甚至没有明确定义的元数据。这样的系统和数据间是无法连接的。

智慧城市将是公共数据的入口和集中平台,建设运营、社会服务数据的用途是多种多样的,一组数据其元数据可能是多维度、多粒度的,因此元数据数量非常大。美国政府Data.gov网站曾公布各机构按语义网标准的400多组数据,其元数据竟达64亿。面对庞大纷繁的基础工作,且短期利益又不明显,可以推知语义网建设任重而道远。

5.2云平台上的大数据:统一数据门户、发掘集体

智慧

互联网上各种平台、应用的数据通常具有四个高“V”的特征:即多样性、容量、速度、价值,这就是大数据。大数据是信息基础设施关于数据的部分,能够实现数据自动匹配、寻找关系,甚至可以发掘人们只可意会不可言传的东西。当然,只有经过适当的处理才能获得这些高速产生的异构数据内在的价值。如根据用户交互和交易数据,可获得用户的关系图谱、兴趣图谱、消费图谱、活动轨迹等。在两点计算架构中,大数据不可能存储在终端,只能存储在平台侧。以虚拟化、并行分布式计算和自动化为特征的云计算正是适合大数据处理的创新性技术架构。

云计算、大数据应用已在国内被炒得火热,但大多数人忽略了一个问题:技术是业务背后的支撑,大数据应用是业务驱动而不是it驱动的。只有对具体业务的用户需求、商务模式和业务流程有足够的理解和把握,才有可能做好大数据应用。典型的云计算、大数据应用如智慧城市、云社区等已经在启动,但如何根据长远规划和业务特征,建立高效、安全、灵活的业务逻辑平台和大数据处理流程,仍是一个大的挑战。

5.3终端感知:智能情境感知和个性化交互体验

智能终端已经成为人的感官系统的延伸,能够同步体验到人的感觉和行为。与此同时,智能终端又可以随时和网络平台交互,甚至可以根据环境变化随时更新自身的软件。通过建立与业务相关的情境模式,根据用户设置或行为判断所处的情境,进而根据终端特性和用户喜好进行服务展现和交互,是用户体验提升的关键要素。

6小结

光纤网络的发展、云计算的兴起与智能终端的繁荣使得低成本大规模定制服务成为可能,实现这种服务的基础将是云-端两点计算架构。云端平台通过互联网大数据分析与挖掘获得用户个性化服务基本内容,终端则感知个性化情境和交互动作预测用户的行为,从而自然地实现个性化服务体验。

要实现这个目标,语义网建设、云计算平台上大数据处理和终端智能感应、适配技术将是主要的技术挑战。

参考文献:

[1]张亚勤.未来计算在“云-端”[eB/oL].(2008-07-12).http://.cn/it/2008-07-12/14302322570.shtml.

[2]涂子沛.大数据[m].桂林:广西师范大学出版社,2012.

[3]姜奇平.从精准到推荐:大数据时代重构网络广告商业模式[J].互联网周刊,2012(20).

大数据时代的定义与特点篇2

大数据对组织管理的影响

首先,大数据对组织管理的影响来自其生产力特征。这种特征主要包括四个方面:第一,掌握大数据的劳动者是智力工作者,他兼具劳动和资本于一身,是知本家,因此组织的数据管理,将从以管理者为主,转向一线员工掌握数据。第二,管理对象从管物、管钱,转向管理数据,大数据的特征一是大量化(Volume),一般在10tB规模左右,多用户把多个数据集放在一起,形成pB级的数据量;二是多样化(Variety),它包括结构化数据与非结构化数据,这些数据来自多种数据源,以实时、迭代的方式来实现;三是这些数据不仅是资源,而且是财富。因此组织管理中资源管理与财富管理将一体化。第三,劳动资源包括语义网等公共基础设施上分享的开源软件、Hadoop、noSQL、数据分析与挖掘、数据仓库、商业智能(Bi)等技术条件。管理资源可能是分享的,这不同于以专用性资源为组织边界的管理。第四,从劳动目的看,从事大数据是为了“从中获得知识和洞见以提升能力”,进一步说,要洞见的是意义,要获得的能力是智慧;有意义的数据是智慧的,没有意义的数据是垃圾;大数据要完成从客体的数据向主体的智慧的转换,忘记这一点就会陷入为数据而数据。

其次,大数据对组织管理的影响来自其生产关系特征。表现在生产、交换、分配和消费四个环节上。第一,在生产上,分布式计算的大数据,推动生产组织向去中心、扁平化转变,向自组织、自协调方向演化,智能化的大数据将促进劳动与资本的一体化,推动决策前移,并且可以提供平台支持创造性的自主劳动(如DiY+3D打印的“创客”)。第二,在交换中,具有语义功能的智能网络成为与现有市场互补的新组织形式,商品交换与包括情感在内的信息交流在新的市场结构中相互融合,用户体验和意义满足成为定价的重要因素,情境定价成为可能,依托数据分析可以实现一对一精准营销和“人单合一”。第三,在分配上,在数据财富归属与利用的平衡中,形成以“使用所有权”(accessoverownership)为特征的分享型经济(Sharingeconomy),在物质财富极大丰富的基础上,逐步实现以自由看待发展。第四,在消费上,在大数据引导下,出现产消逆转(C2B)和产消合一趋势,人们在满足生存发展需求基础上,日益产生通过自主劳动满足的自我实现需求。

第三,大数据对组织管理的影响来自其生产方式特征。不同时代,人相对于劳动对象的作用方式不同,生产的社会目的也不同,形成农业生产方式、工业生产方式与信息生产方式。大数据推动着信息生产方式的形成。农业时代的生产力以土地为中介,分散地从对象中解析出有助于满足人的温饱需求的功能;工业时代的生产力以货币为中介,集中地从对象中解析出有助于满足人的社会发展需求的价值;信息时代的生产力以数据为中介,集中与分散结合地从对象中解析出有助于实现生产目的的意义。功能、价值与意义的关系,在于前者为后者的基础,后者有条件地决定前者。对人均收入5000美元以上的社会来说,大数据有助于企业专业化地提高以意义满足(所谓“满意”)为核心的智慧水平,推动企业从因大而美向因小而美转变,实现小批量多品种、差异化、多样化的生产。推动企业在业态上从产品、服务向体验升级,在提高GDp水平(功能与价值水平)的同时,提高社会幸福水平(意义水平)。

大数据时代,组织决策的挑战和机遇

大数据时代组织决策会遇到以下三个方面的挑战,这些挑战又构成了组织发展的主要机遇。

企业化解风险的方式发生变化

在大数据时代之前,人们更多的是利用数据从历史中总结规律,例如按以往的需求分布来组织生产,以此来消除市场的不确定性。大数据时代决策最主要的功能是预测未来,也就是把握那些只存在于未来,从以往历史中难以推导出的需求,以此化解企业的市场风险。反过来说,这对于企业决策带来新的挑战,如果竞争企业可以预测未来,而自己的企业不能,企业就会失去未来。

巴拉巴西的《爆发》认为,人类行为93%是可以预测的。在日趋精密的数字技术条件下,有了从四处搜集来的信息,我们不会再把人类的行为视为互不相关、随意偶然的独立事件。相反,它们应该是相互依存的奇妙大网的一部分,是相互串联的故事集中的一个片段。它们会在不经意时显示次序,在意想不到之处偶然出现。人类行为遵循着一套简单并可重复的模型,而这些模型受制于更加广泛的规律。

如果说,企业生存的一般风险是德鲁克所说的企业系统不能适应环境变化的风险,在大数据时代,这种风险更多地体现在日常决策中,体现在组织决策要面向最终客户的需求变化,进行组织神经末梢上的随时随地的响应。

企业权力转移带来“无组织的组织力量”

大数据的特点在于意义主导价值,它将引起组织结构的变革。对于组织来说,价值体现在结构之中,意义也体现在结构之中。原有的组织形式是为价值而建立的,其结构是价值的结构。未来的组织形式,是为意义而建立的,其结构是意义结构。组织的价值结构与意义结构非常不同,最核心的不同在于,价值结构是机械结构;意义结构是生态结构。具体表现在:第一,机械结构是自上而下控制的,生态结构是自下而生涌现的;第二,价值结构是以集中方式控制的,意义结构是以去中心的方式自组织自协调的。大数据所赖以存在的语义网,就是一个自下而上涌现生成意义,在分散的节点间自适应与他适应的网络。

随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化的weB2.0应用,如RSS、维基、博客等。这些变化,一开始不易为人们理解。例如,人们经常不明白碎片化是怎么回事。事实上,碎片化是意义存在的状态。意义只有呆在适合自己的结构中,才得以呈现。人们容易忽略这是一种让组织变得更加智慧的力量。例如,面向weB2.0化的客户关系,如果处理不好,是一种极大的挑战。因为一个能量极大的未知节点可以给组织带来拉登、郭美美一级的毁灭性打击,《公众风潮》就是对这种挑战的描述。相反,如果象同一作者所写《创新推动者》那样,使关于客户关系的组织决策碎片化,会使企业低成本地响应分散化的风险,避开网上客户无组织的组织力量的打击。因为大数据可以建立一条意义通道,使生产者与赋予企业意义的消费者建立一种多元化的联系,使产消双方产生一种象鱼水关系那样的无间隔的互动,从而从源头上获得更多的智慧。

大数据通过追随意义而获得智慧,这是它可以摆脱因追随价值带来的被动的根本原因。因为价值是组织化的,意义是无组织的,无组织的组织力量本质上就是利用意义来控制价值的力量。

企业价值生成方式发生变化

大数据将带来的另一个始料未及的变革性影响,是将使数据业务成为各行各业的主营业务,从而改变各行各业的业态。换句话来说,决策本身会发展成为一种主营业务。各行各业数据业务的主营化,有一些共同的规律,与大数据内在相关。它们都伴随着业务转型,从因大为美,转向因小而美:从集中但赢利越来越薄的大企业服务,转向分散但高价值的最终消费者服务。大数据的优势,正在这个方面。通过大数据,可以实现以往做不到的低成本洞察高差异的客户,在去中心的互动中贴近2.0化的客户。

电信业、金融业、流通业是数据业务主营化最先成形的产业。例如电信业原有主营业务是语音业务,但腾讯的数据业务占到76%以上,只用几年就以500亿美元市值超过了联通和中国电信,带动了行业的主营业务重心的从语音向数据的转移。未来各行各业几乎无一例外,都会冒出本行业各种各样的“腾讯”来;而原有的巨头都将成为各行各业的“联通”和“中国电信”。这种挑战从另一面看,就是完全的机遇,这种机遇一般属于12岁至22岁的未婚青年,一不靠老子,二不靠刀子,三不靠裙子,只靠大数据,10年赚100亿,而且阳光致富。

大数据时代的组织决策

一是决策从后台向前端转移,要把握后端决策与前端决策的平衡。大数据时代的组织决策朝向的方向是人单合一,即生产者与消费者的融合(钱皮又称之为“合工”,与分工相对)。由于要对分散的、需求多变的消费者进行随时随地的响应,过多依赖后台决策,难以即时响应市场变化,为此就要把决策从后台向前端转移,例如向位于“人单合一”前沿的客户关系人员充分授权。海尔采取的组织决策就鲜明的具有这种特点。

当然,决策前移后,要把握后端决策与前端决策的平衡。一般来说,一线员工对当面市场的响应灵敏是优势,但一线员工对市场全局和未来趋势未必能很好判断,这就需要后台决策,包括研发部门,提供服务。这种服务甚至需要社会化、外包,形成分析即服务(aaaS)产业。例如数据挖掘、数据分析、数据咨询等产业,以及一切以大数据为基础的高附加值的创造。

二是决策从集中向分散转移,要把握集中决策与分散决策的平衡。人们对大数据决策容易有一种误解,以为就是数据大集中的决策。这是传统集中控制思维方式运用到分布式计算条件下常有的惯性。海尔的决策模式强调“群龙无首”。因为如果调动起每个自主经营体的主动性,使人人成为自己的Ceo,这些一线员工就会进行分散Ceo式的决策,没必要事无巨细非得通过龙首来决策。为此海尔用战略损益表等制度,进行战略性的价值管理,使每个员工在决策时,可以按企业的战略利益来权衡当前的形势,达到比集中式决策更优越的决策效果,其最高境界,就是企业无为而治。

事实上,大数据决策应是集中决策与分散决策的结合。共性的问题适合集中决策,个性的问题适合分散决策。而且二者不一定是对立的关系。例如,一线员工的分散决策,也需要并且可以调用数据中心的分析资源和计算能力;数据中心的决策,也需要与员工的本地数据,甚至客户的本地数据进行锚定和关联。按美国最新的情境定价理论,在一对一的营销中,产品和服务定价这种最关键的决策,可能要依靠用户本地数据(如手机中的数据)的参与,通过与数据中心数据的即时匹配来完成。用户数据参与决策将成为分散化决策的一个趋势。

三是决策从价值向意义转移,要把握理性选择与感性选择的平衡。受传统思维定式干扰产生的另一个误解,就是以为大数据决策就是事事用数据说话,排斥直觉判断和感性判断。固然大数据会使理性选择在决策中更为专业,并形成产业化的空前发展,但这只是大数据发展初级阶段的特征。当大数据发展到高级阶段后,它将回到自己的本性,也就是图灵当年指出的人工智能的理性与感性平衡的更高阶段发展。在大数据发展的初级阶段,人们通常沿袭理性派的思维,通过数据大来把握人的个性。理论上典型的代表人物就是巴拉巴西。认为人的随意之举也可以被完全预测,人的行为93%都可预测。

但是,人的自由意志哪怕只占7%,仍是数学算法无法穷举的。从意义分析观点看,人的潜意识、梦想、情感等高价值的数据,靠机器算法本身是难以全面把握的,这既不是数据量不够大,也不是算法不够优化,恰恰在于理性算法的盲区上。例如,Facebook倚重的人际算法(人看人,看对了眼,计算量并不大,但却可能是精准的),就补在理性大数据的盲区上。在大数据的高级发展阶段,直觉判断和感性选择,将成为比理性计算更高级的计算模式。因此,企业在借助大数据进行决策时,从长远观点看,要定位于体验――也就是意义决策――充分发挥大数据在面向高附加值的艺术、情感等体验领域的决策支持作用。在it业,科学的赚小钱,而科学与艺术平衡的乔布斯赚大钱,就是现世的证明。

四是把握精英决策与草根决策的平衡。传统决策模式是精英决策,大数据不仅可以支持精英决策,它最独特之处,在于可以支持草根决策。精英决策的基础是优化,但以优化为核心的决策有两大盲区,一是无法对策“人算不如天算”型的问题,如复杂系统问题,非常规的问题等等;二是难以应对效率不经济类型的问题,如个性化问题。生物进化的历史告诉我们,对上述两类问题最有效的决策方式,就是生物多样性决策。草根决策由于不依赖优化,排斥“英雄所见略同”,恰恰保持了精英决策过滤掉的核心竞争力,也就是解决方案多样性。大数据靠分布式计算模式,可以把分散在各个节点上的草根的智慧汇集起来,形成臭皮匠反而胜过诸葛亮的决策效果。

大数据发展起来后,决策将形成精英与草根决策的互补:简单系统问题归精英决策,例如通过简化,可以找到规律的问题,由精英进行数据分析来决策;复杂系统问题归草根决策,例如无法简化,也找不到规律的问题,可以采用众包方式来解决。

用好大数据,需要培养“大数据思维”

大数据思维如果聚焦到一个点上,我把它归结为意义导向型的思维。培养这种思维的关键,是要把思维方式从价值导向,转型为意义导向。我在《新文明论概略》中,用上下卷70万字讨论的核心,就是这种思维方式的原理。

大数据时代的定义与特点篇3

【关键词】终端一致性测试tD-SCDmattCn 模块

1 背景介绍

终端一致性测试是商用终端走向市场所必需的入网测试中的重要内容,同时,终端一致性测试对提高和保证不同厂商终端(芯片)与终端(芯片)之间、终端(芯片)与系统之间的互连互通有着十分积极的作用。第二代移动通信GSm系统由于采用一套统一、完整的终端一致性测试标准,不同厂商的GSm/GpRS终端具备了良好的互通性,极大地提升了GSm/GpRS系统在全球市场中的竞争优势,为GSm系统抢占市场绝对优势地位发挥了独特作用。

在第三代移动通信的标准制订过程中,3Gpp(第三代移动通信伙伴组织)对终端一致性测试标准工作更加重视。相对第二代移动通信(2G)系统,第三代移动通信(3G)系统的复杂性大大增加,不同终端与系统问互连互通的问题更加突出,建立终端一致性测试标准的需求更加迫切。出于对3G终端复杂性的考虑,为了更好地保证3G终端的一致性要求,3Gpp在制订终端一致性测试标准文本规范的基础上,采用了itU(国际电信联盟)推荐的标准测试语言ttCn2,(treeandtabularCombinednotation2,树表结合语言第二版),统一开发出一套ttCn代码级的终端一致性测试集。

由于终端一致性测试需要对3Gpp核心协议几乎所有的技术特性和流程分支进行完备性测试,加之3G处理流程的复杂性和多样性,决定了3G终端一致性ttCn测试集的开发是一项开发工作量极大、开发投资量巨大、开发周期特别长的工作。以FDDRel99版本的开发为例,自2000年起历经4年,先后有十几家厂商参与,单在etSi从事ttCn编码工作的技术专家就累计超过300个人月,在etSi投入开发的人力成本费用超过400万欧元。其开发完成的500多个测试例,涵盖了wCDma终端协议栈各层次模块的测试,以及3G/2G间多模场景测试等各个方面。如此庞大复杂的测试代码集开发完成后,每年还需要投入十多个人月的人力进行升级和维护。

2003年,为了推动tD-SCDma终端与芯片的快速发展,tD产业联盟开始承担tD-SCDma终端一致性测试ttCn代码集的开发工作。当时,tD-SCDma终端一致性测试产业尚处于起步阶段,在借鉴wCDma已有的庞大而完善的测试代码集体系的基础上,认真学习、研究同行的经验,分析tD-SCDma技术的特点,巧妙使用有限的人力、财力和时间资源,完成了tD-SCDmattCn测试代码集的开发工作,为整个终端产业的发展做出了重要贡献。

2 对tD―SCDmattCn代码集的模块化定义

ttCn2是树表结合的语言,其中树用于描述测试例的流程、分支情况,表则用于罗列数据类型、原语。由于整套ttCn代码集中涉及到的定义、数据元素多达上万个,其中交叉引用、互相嵌套的结构又很复杂,加上3Gpp对空口协议的不断完善和修改,还产生了多个并行的空口协议版本,使得维护工作十分庞杂。为同时维护和向这些协议版本兼容,在设计中将整套tD-SCDmattCn代码集采用了模块化定义,同时又对模块采用分级调用的模式,力图在最简化的模式下达到对代码模块的功能划分及调用,以利于不同模块间同步开发、整合,简化多个协议版本的维护工作。

根据ttCn2语言的限制,不同模块之间只能单向调用,不能互相调用。因此,对于tD-SCDmattCn代码模块的设计必须采取分层的级联式划分,即:所有公共模块也按照普适性分为上层和下层模块,每一模块可单向调用其下层任意模块的定义及数据单元,但下层模块无需也无法调用上层的任何定义。

2.1tD-SCDmattCn代码集模块划分简介

tD-SCDmattCn代码集的模块具体划分如图1所不。

Basicm为基本模块,包含了基本数据类型定义、大多数接口数据类型的定义、基本消息内容的定义、基本测试流程控制和错误处理、小区建立基本内容、缺省系统消息的内容及调度、测试例前导步骤及结尾步骤等内容,是所有测试例模块及其它公共模块的基础。

aSn.1_m模块为空口消息定义模块。虽然3Gpp定义aSn,1结构时考虑了前向兼容及不同版本问共存的问题,但由于协议研究中不可预见的错误和偏差,无法完全用兼容方式弥补。因此,3Gpp的不同版本之间还是存在一定的不兼容。为了在不同情况下同时维护多个版本的测试例内容,时常需要变动aSn.1的版本,因此tD-SCDmattCn模块设计时将此部分从Basicm模块中独立出来,仅为Basicm所调用,使在很小的改动工作量下同时维护多个版本的测试例成为可能。

L3m是所有链路层以上的测试模块所需调用的基本模块。

naS_m是单独为mm、CC、Sm等naS模块测试所调用的公共消息模块。

RRC_m为所有涉及RRC模块状态模型的公共测试数据模块,包含了一些基本的RRC消息流程,小区重选,切换,测量报告等测试中所涉及到的参数数据。

m_Rat_Ho_GeRan_m模块中定义了3G/2G多模测试场景中,2G小区的接口定义,基本配置和数据单元,为多模测试模块iR_U、iR_G所调用。

2.2模块化设计下数据单元的命名

对于Re15及之后协议加入的单独功能测试,如HSDpa,HSUpa,mBmS,HSpa+等测试模块,其测试范畴横向涵盖了链路层、RRC、naS、多模测试等,因此有可能同时调用上面所有的公共模块,以及一些特定的公共模块如mBmS_m等,甚至针对某个特定版本的特定功能而单独定义的公共模块。

对于调用公共模块的模块,在ttCn运行时,会将其调用的公共模块及间接调用的下层公共模块的内容全部输入编译。因此,公共模块的内容多少直接影响到整个ttCn系统的编译和运行速度。同时,为避免公共模块中的定义与本地模块中的定义冲突,在ttCn各测试模块中数据单元的命名,也遵循了一定的命名规则加以区分,增加了可读性和可扩展性。

如ttCn发送的数据单元前缀以CS_开始,接受数据单元前缀以or_开始,如是根据已有数据模板引申的数据单元,则分别以cds_和cdr_开始。如果数据单元是针对某一特定版本下使用,则以类似r5、r6的方式结尾以区分标示。

2.3模块化ttCn测试集的

ttCn测试集的则是将各个代码模块反向整合的过程。首先建立iteXt程文件,包括所有涉及到的相关模块,以树的形式从最高级的测试例模块一直关联到

底层的Basicm模块和aSn.1模块,以及到包括空口协议25.331中摘录出的aSn.1接口定义文件。在保证各模块内部没有错误以及模块间调用没有交错的情况下,可编译生成一个完整的包含所有模块内容的iteX_mp全集文件。在此全集文件中再依据相关测试例中实际用到的定义,数据单元进行关联整理,去除冗余项,即可得出可的用于终端一致性测试仪表运行的测试例代码集。

3 基于wCDma经验之上的创新发展

3.1充分考虑tDD与FDD的差异

借鉴了GpRSttCn测试代码开发的经验,etSi对wCDmattCn代码的模块设计和开发在2000年已开始,而tD-SCDmattCn代码的模块设计和开发在总结了wCDmattCn代码设计经验后,于2003年由tD产业联盟牵头进行。由于FDD和tDD系统的差异,在tD-SCDmattCn代码的设计上不可能完全参照wCDma的体系进行。如表1所示,同样位于CpHY口的LCRtDD小区配置的参数消息与FDD的小区配置参数消息就有很大不同。

因此,在充分考虑FDD与tDD差异的情况下,创新设计了tD-SCDma终端一致性测试ttCn代码集模块的不同定义,使得tD-SCDma所特有的帧结构、上下行配比可调、特殊的专有信道等特性,全部体现在ttCn的配置中。比如在Basicm模块中,约有70%的接口定义与FDD相同,另外30%为tDD所特有。

3.2充分满足多频点高速分组数据接入需求

为了满足日益增长的对高速分组数据接入服务的需求,tD―SCDma小区配置又引入了n频点和多载波技术,使得tD-SCDma小区配置参数更加复杂,而终端在多个小区主/副载波上测量,又使得切换和重选的场景更加复杂。在小区系统消息调度过程中,tD-SCDma系统消息块的大小又决定了系统消息调度的特殊性,加入副载波参数后的小区系统消息块面临着重组和新的调配机制。

在引入HSDpa后,情况变得更为复杂:为进一步提高系统实现的灵活性,在多频点HSDpa系统中,可以把每个nodeB能统一调度的HSDpa资源(载波)称为一个HSDpa载波资源池,不同HSDpa载波资源池的资源不能被统一调度。一个HSDpa载波资源池有一个标识号,可以在LocalCell(Cell)内唯一地标识它,并且其还有一个表示其能力的属性,即它能统一调度的载波数。一个多频点小区可以有一个或者多个HSDpa载波资源池等。

从n频点到多载波,HSDpa、mBmS、HSUpa及至HSpa+,tD-SCDmattCn测试代码集的模块内容不断丰富和增加,在某些领域已超越了wCDma同期的开发进度,达到了国际领先水平。

4 结语

在tD-SCDmattCn终端一致性测试代码集的开发中,采取了自主开发与国际合作并举的方式,与3Gpp、etSi开展了全面合作,初期版本后的后续开发和维护工作也由tD产业联盟和etSi合作进行。从2004年起至今每年已2个更新版本,支持测试协议版本也从3GppRelease4演进到了Release8。

大数据时代的定义与特点篇4

关键词:图书馆特色文献资源数字化深加工模式

中图分类号:G259文献标识码:a文章编号:1672-3791(2012)09(a)-0255-02

图书馆作为文献资源收藏和服务机构,承担着为社会提供各类文献的主要职责,而其馆藏特色文献是衡量一个图书馆的资源地位并为读者提供特色服务能力的重要指标,是图书馆为文化建设服务的知识特色宝库。在当前互联网和数字技术高速发展的大环境下,图书馆原有的“藏”为主将转变为“服务”的功能,因此有责任充分利用数字和网络技术的发展,将传统的特色馆藏文献纸质资源进行数字化深加工。进行数字化深加工不只是进行文献的扫描和保存,而是将文献的本元以数字化深加工的形式进行充分展示,从而为读者进行全方位的应用和服务,这是现代化图书馆的一个重要使命。

图书馆重要文献资源进行数字化,可以使文献得到更有效利用和保存;进一步深加工,则可为读者深入服务提供平台和工具。本文就上海图书馆从事近代期刊、古籍等特色馆藏资源数字化深加工过程认为,目前特色文献资源的数字化深加工有多种模式和类型,图书馆工作者要根据文献的特性进行分类,可以通过oCR识别、知识标引、检索系统的多功能化等手段来实现特色馆藏资源的数字化深加工。

1馆藏特色资源的定义

图书馆馆藏特色资源类型可定义为:具有一定的地域和历史人文特色,或与地方的政治、经济和文化发展密切相关的资源。这些资源往往具有特定及一定规模的研究群体,文献研究价值大,市场需求度较高。通常按文献类型可分为:图书、期刊、报纸等;按文献种类可分为:书籍、论文、字画、照片、讲座、手稿、地图、档案、传单、广告、标本、实验、观测数据等。

2数字资源深加工模式类型

数字资源深加工模式类型可根据不同文献需求进行不同类型的深加工。

2.1全文识别数字化(oCR)

在图书馆馆藏特色文献中,报刊资源是一类相对比较有研究价值的文献。(1)民国时期期刊由于该类文献开本不尽相同,纸张材质和出版样式不同,繁体字样式繁多,因此在oCR过程中,要选择一个支持繁体大字库的识别软件,在图像扫描时为深度标引作好各类标识。在图像的展示上要实现放大、缩小功能,同时亦可输入百分比,控制放大缩小功能。同时要实现期刊全屏展示,全屏内容为页面内容;(2)报纸应根据出版期间不同版式、不同内容的报纸进行样本抽取和研究。由于报纸量大,特色栏目较多,需要对新闻、广告、等特色内容进行较深入研究,以确定是否在oCR过程中专门制定特色栏目内容的标识。

2.2深度标引

特色馆藏资源通常具有显著的地域特色或者文献价值,在标引时要注意这些文献的特性。目前图书馆在进行深加工时往往只考虑到统一和跨库检索,而忽略了揭示文献的本质,因此在数据库的检索服务系统的检索字段设置较为简单,检索功能有待强化,要加强标引深度。

深度标引可按学科或专业进行分类,从增加检索字段来实现多种途径检索,以提高文献的利用率。除了书名、作者、书号、类别、写作年代、地点等外,还可以根据不同文献的特点进行深度标引。例如:对文物价值较高的古籍文献中的诗进行深度标引时,可以根据它的特点设置诗体、韵、平仄、主题等;对词进行深度标引时,可以根据它的特点设置词牌名、词调结构、长短词等;对期刊进行深度标引时,可以根据期刊的研究领域设置学科、专业等;对报纸数据库,不但要展示报纸每篇文章的篇名、作者,还应根据报纸的特点设置专栏、广告、公告、新闻等。

2.3检索系统多功能化

2.3.1检索导航

建立强大的以全文检索为基础构造的智能化检索系统,将大大节省研究者在文献检索、辑佚方面的时间和精力,还将极大地启发和扩展其研究的广度与深度。在加工过程中目前可以借助现有的检索技术,实现条件检索、逻辑检索、模糊检索、组配检索、属性检索等多种类型的检索[1]。其中属性检索对于特色文献使用者具有突出的价值和意义,可满足其特定的需要,例如以写作年代、地点、题材、体裁、事件等作为属性,即可汇集撰写于同一时间、地点的文献,采用同一题材、体裁及记载同一事件的文献。此外,根据不同类型文献的自身特点,还可针对性地开辟各种特殊的检索项目。

2.3.2辅助检索工具

在数据库中载入辅工具(字词典、历史年表、电子地图等)已在部分古籍数据库中得到实现,例如在《四库全书》电子版中,设有单字字义查询、古今纪年换算、干支/公元年换算、八卦·六十四卦表等辅助工具,这样的设计使得研究者不需要为了弄清某些知识点再查阅其他资料,就可以依靠该工具迅速进行确认。但是现有的辅工具还很有限,因此在今后的数字资源深加工过程中可以根据各类文献的特殊情况,开发更具专业性、系统性和针对性的工具,在附带字词典、历史年表、电子地图的基础上,建立相应的知识支撑系统或专门的辅助数据库[2],例如有关历代官制、兵制(或谓军制)、科举制及历代政区等的知识系统。在设置期刊数据库的辅助检索工具时,可以设置近义词或同义词查询、刊名辅助导航、期刊聚类检索等功能。

通过这些知识系统,正确反映各个时代的政治、军事、文化、地理等方面的信息,为研究者提供具体的时空坐标和背景资料,及时解决他们在文献阅读过程中的问题,甚至有可能帮助发掘出原本隐藏在文献背后的关联信息。

2.4知识单元链接

数字化资源不只是纸张版本的简单翻版,而应采取多种方式和技术手段,以原文本为中心进行发散和延伸,为使用者提供基于超文本的立体阅读环境。因此可采用知识单元链接的方法,该方法可分为同种文献和跨文献类型的知识链接。

2.4.1原文与相关知识点之间的链接

在古籍文献资源中的世传经典著述通常有古代著名学者、训诂专家为其注疏,注疏包括传注、章句、义疏、集解、音义等各种不同类型[3],其中包含着丰富的内容,不仅有对字词句及篇章文义的注解,也有对名物制度、成语典故的诠释,是后人阅读和理解原文的重要纽带,也是继续研究的前提基础。在原文与注疏之间进行链接应是拓展古籍阅读内容的有效和必要方式。

除此之外,链接的内容还可包括文献本身相关内容之间、相关文献之间以及文献与相关网站之间的链接等。例如:在期刊数据库中,可以链接至期刊杂志社的网站、上海图书馆ipaC目录中的馆藏信息以及其他馆的馆藏信息等。而国家图书馆在所建特色资源库——敦煌遗珍中尝试链接了有关敦煌和丝绸之路、相关文献收藏机构以及文物保护的网站,以丰富读者对数字化敦煌文献的认知,推进敦煌学研究[4]。

2.4.2文献不同版本之间的链接

这种链接包括数字图像版与文本版、不同文本版之间的对照和切换。数字图像版可以展示版本类型、版刻特征、字体、墨色等信息,满足版本研究、书史研究、文物鉴定等多种需要;不同文本版的切换则便于异文的对照和批校内容的互补互证。

2.5检索统计研究功能

对文献有关内容及各类检索结果进行计量统计,提供科学、准确的统计数据和信息,是对数字化资源的内容补充与增值。统计结果作为许多后续研究的基础数据,不仅可以改善研究者的研究条件,而且还会带来研究思路、研究方法的变革。20世纪90年代中期,北京大学开发的古诗研究系统即专门设置了统计功能,并以图、表等直观形式显示。其中包括:诗作统计(按年代、地点、诗体、主题等分门别类地进行统计)[5]、汉字统计(各种字词信息如字数、字频、词频的统计)、总体统计(对于全宋诗整体的诗作和汉字统计)。各类统计数据和信息如果具有一定规模,可进一步为它们单独建立统计知识库,为研究者展示了多个角度以供其分析问题,例如从多种词汇使用现象的统计中考察作者的创作风格,从作品中人名、地名的统计中分析作者的交游与游历情况,从某一时段词汇的引用频度变化中探讨词汇的时代分布和变迁[6]。

应在各个统计知识库之间建立更密切的关联,以便于研究者将各种统计结果相互结合、参照、对比,获得更大的思考和研究空间。例如,把作者一生的游历地点与各时期撰著数量的统计相结合,与作品用词用语变化的统计相结合,与整个时代同类文献数量的统计、语言变化的统计相结合,就能对某一作者在整个时代中所处的位置、所受的影响、撰著的背景等有一立体的认知。

3结语

特色资源的数字化深加工建设是图书馆的重要工作之一,作为一个公益机构,图书馆应立足于广大读者,根据特色文献的类型,选择不同的深加工模式,同时要深入分析这些文献的特性,设置最能反映文献本质的数字化检索字段,才能顺应社会和时展的需要。

参考文献

[1]魏艳玲.网络环境与图书馆信息资源建设[J].延边党校学报,2006(1).

[2]李惠霞.论图书馆特色资源数字化建设[J].法律文献信息与研究,2003(1).

[3]关燕云.论图书馆在“共享共建”中的数字化建设[J].中共贵州省委党校学报,2006(5).

[4]邢秋霞.浅谈高校图书馆特色数据库的建设[J].科技情报开发与经济,2010(4).

大数据时代的定义与特点篇5

[关键词]JSpXmL数据库电子商务

随着internet技术的进步和应用领域的不断扩展,使得电子商务具有更加坚实的技术基础和良好的应用前景。JSp和XmL技术在构建电子商务站点上有其独特的优越性。

一、web服务器编程技术比较

要构建一个电子商务网站,首先就是要对外其web网页,而静态的HtmL网页已经不能满足网络交互性的要求。而通过动态网页,可以避免在客户端安装专门的应用程序,只需要在客户端有一个web浏览器即可,而且服务程序的改动对于每个客户端来说都是透明的,不需要重新设置客户端的状态或安装客户端程序。CGi、aSp、pHp以及JSp都是现阶段非常流行的动态网页编程技术。

1.CGi

CGi(CommonGatewayinterface:通用网关接口)是web服务器与CGi应用程序之间进行通讯的协议。CGi程序需要读入一长串的字符串,然后解析字符串,从中得到数据,这样便会在解读字符串上要消耗比较多的时间。而且,对于每个新用户的CGi服务,都会在web服务器上产生新的进程,当用户数量急剧增加时,web服务器的负担将非常沉重,整体性能下降很快。另外,CGi程序在改动后,需要重新编译,这些都限制了CGi的应用。

2.aSp

aSp(activeServerpages)是一个web服务器端的开发环境。aSp以及pHp、JSp都是在HtmL代码中混合某种程序代码,由语言引擎解释执行程序代码,而由HtmL代码负责信息的样式。当用户在客户端通过访问web页面,向服务器发送消息时,程序代码的在服务器端执行,结果被重新嵌入到HtmL代码中,然后一起返回给客户端浏览器。aSp采用的脚本语言是VBScript或者JavaScript。但是,aSp只能在微软的服务器产品上实现,这样就限制了aSp的可移植性。

3.pHp

pHp(Hypertextpreprocessor)可在windows、Unix、Linux的web服务器上正常执行,用户在更换服务器平台时不需要变换pHp代码,可移植性好。pHp有很多实现与数据库相连接的函数,也可以编写外部函数去间接存取数据库,利用pHp可以很方便地修改编码来适应数据库的变化。但是,对于负荷较大的电子商务站点,pHp缺乏多层结构支持和规模支持,数据库接口也不够统一。

4.JSp

JSp(JavaServerpage)的内置脚本语言是基于Java的程序设计语言。JSp的引擎负责将JSp页面翻译成Servlet代码(.java文件),而后再编译成Servlet可执行文件(.class文件)。JSp引擎接收客户端对JSp页面的请求,并且生成JSp页面返回给客户端。

JSp具有Java技术特点。可移植性强,“只写一次,各处执行”,在wndows、Unix、Linux等各种平台上的程序移植可不需要改动代码,直接运行。并且,由于Java的完全面向对象的机制,使JSp具有良好的安全性。

JSp技术强调可重用的群组件。基于组件的方法可以加速总体开发过程,节约开发时间和成本。

JSp程序员可以使用JSp标识或者小脚本来产生页面上的动态内容,采用HtmL或者XmL标识来设计和格式化页面。这种内容与现实分离的机制,既可以保护代码的安全性,又可以保证web浏览器的可用性。并且,通过开发定制的标识库,可以很容易地来扩展JSp功能。这样既减小了系统开发的难度,又大大增加了系统的可扩展性。

JSp页面仅在第一次被执行时需要编译成Servlet,以后客户端进行浏览和执行时无需再次编译,可以直接运行,这样避免了服务器端运行时的语法分析,从而提高了系统响应的速度。

所以,JSp技术可以实现功能强大的站点,JSp在开发电子商务网站,尤其是大型电子商务网站上有其独特的优越性。

二、XmL技术在电子商务应用中优势

XmL(eXtensiblemarkupLanguage:可扩展的标识语言)是用来定义文档标识语言的框架,主要用来定义、存储和发送数据信息,以使各种基于web应用之间能更方便的交换数据。它与HtmL技术的主要不同点在于XmL的标识描述的是数据自身的结构而不包含格式信息,而HtmL的标识设置了数据的格式。

XmL文件是纯粹的文本文件,并且是w3C(worldwidewebConsortium:万维网联盟)推荐的internet标准。因此,无论什么样的操作系统、编程语言等都可以接收、发送和识别。

XmL支持用户标识,允许文档复杂性嵌套级别到任意一级,这就使得具有良好的可扩展性。

XmL具有浏览器自适应性。当浏览器同时使用不同的信息源时,以及文档在不同平台的显示样式不同时,XmL具有优势。

XmL利用了一个DtD(DocumenttypeDefinition:文件类型定义)规范,用来定义XmL文件的语法、句法和数据结构的标准。这种结构化信息模式可以允许不同格式数据进行交换。并且现阶段有很多现成的技术和标准来定义、处理以及转换XmL文档。

利用XmL技术还可以在客户端处理消息,从而提高整个系统的效率。

XmL在内容定义和数据交换上的重要特性,使得XmL在不同的系统和组织之间交互数据非常有效。因此,无论是B2C(商务―消费者),B2e(商务―企业),还是B2B(商务―商务)的电子商务解决方案,XmL都是进行内容定义和数据交换的有效途径。

三、JSp与XmL结合技术

JSp用来创建应用程序服务器端程序;XmL用来定义和描述数据,并在服务器与系统的其余部分之间传递数据。两者结合有利于提高页面代码与XmL数据的分离水平,有利于简化开发的复杂度并且改善组件与页面代码的可重用性。

1.JSp与XmL的结合方法

(1)直接使用XmL。JSp页面中可以直接使用XmL。例如:通过JSp内嵌的Java程序,可以直接调用一个分析程序来读写XmL数据;读取XmL文件并且基于这些数据执行动作;创建XmL文件以发送数据到客户程序或其他应用程序。

(2)使用JavaBean。JavaBean技术可以使JSp将尽可能多的可重用代码封装起来,转变成可重用组件。这样,就可以达到最大优化JSp代码的目的。

JSp与JavaBean整合可以自动地把超文本标志语言的表单元素翻译成JavaBean属性。类XmL的标识允许JSp页面访问JavaBean。可以使用通用的语法分析程序,在单独的JavaBean里与XmL文件交互作用。并且可以在不改动JSp页面的情况下改变分析程序。此外,Beans还可以使用XSLt来执行XmL文件的转换。

(3)通过标识库与XmL结合。自定义标识库可以把特定的Java代码与每个标识都关联起来。标识库的描述符是一个包含一个或多个自定义标识的XmL格式的描述文件。这个文件被称为tLD(tagLibraryDescriptor:标识库描述)。tLD描述自定义标识并把它和标识处理程序类关联起来。一个标识库德表示可以代替为了完成这段程序的逻辑的相应的Java程序代码。每个标识都相当于一个相同名称的Java类。当使用标识库时,JSp页面看上去就非常象XmL文件了。当JSp页面被处理时,引擎执行与标识相关联的程序代码。

2.解析XmL的api

Dom和SaX是SUn公司开发的两个解析XmL的api。

(1)采用Dom(Documentobjectmodel:文档对象模型)。XmL的数据组织为层次的树型结构,树的节点是一个个对象。Dom就是对这个树型结构的每个节点对象的描述。通过访问Dom树和存取节点对象就能够达到解析XmL和存取XmL文档的内容的目的。

在处理Dom的时候,需要读入整个XmL文档,然后在内存中创建Dom树,生成Dom树上的每个节点对象。当文档很大时,处理Dom将会大量消耗内存等资源。

(2)采用SaX(SimpleapiforXmLparing)。SaX模型与Dom的文档驱动不同,SaX是基于事件驱动的,即通过事件驱动来识别XmL文档的内容。与Dom相比,SaX并不需要读入整个文档,文档的读入和SaX解析过程是同步进行的。

四、XmL与数据库技术的交互

值得注意的是,仅仅依靠XmL这样的文件系统是不够的。例如,在经常要接受用户更新信息的情况下,文件系统由于缺乏并发机制,并不支持同时写入。而数据库技术则支持事务处理,可以进行并发控制。并且,现在流行的关系数据库管理系统提供复杂的查询语句,存取控制策略等强大的功能。各种程序设计语言也提供了强大的数据库编程功能。

但是,数据库技术不具备XmL灵活轻巧,可扩展性好,交互性强的优点。这时,我们可以将XmL和数据库技术结合起来,充分利用这两者的长处。

现在主流的数据库,如SQLServer、oracle等,都提供了很多方法和技术充分支持XmL,使之能够与XmL交互数据。

1.XmL与SQLServer交互

microsoftSQLServer2000完全支持XmL。利用SQLServer,用户在浏览器端输入一个URi地址,即可访问SQLServer数据库,而返回的结果是一个XmL文档。它还允许通过输入样式参数来指定样式信息,这样就可以在浏览器中输出丰富的页面。

2.XmL与oracle交互

oracle全面支持XmL,oracle数据库实现了许多基于标准的数据库类型和函数,例如,XmLtype、XmLagg、XmLConcat、XmLelement以及XmLForest等,能够查询关系数据并且返回XmL文档。对于要求通过其内容管理应用程序存储和检索大量复杂XmL的开发者来说,oracle中的XmL类型提供导航功能来优化性能。oracle主要提供以下两种工具来支持基于XmL的数据库开发:

(1)提供内置的XDK(XmLDeveloperKit:XmL开发者工具包)。使用这些组件在oracle中生成、转换和存储XmL格式的数据,帮助开发者迅速用XmL来支持其应用程序。

(2)将JavaXmLDeveloperKit(JXDK)预装到oracle中,开发者能够轻松地利用Java编程语言访问基于w3C的功能。同时可以看出,由于oracle对Java的大力支持,在以oracle作为后端数据库服务器的网站构建中,JSp具有先天的优势。

五、结论

大数据时代的定义与特点篇6

【关键词】数学课程;数学文化;平均数;众数;中位数

【中图分类号】G633.6【文献标志码】a【文章编号】1005-6009(2016)38-0027-03

【作者简介】1.陈克胜,安徽师范大学(安徽芜湖,241003)数学计算机科学学院副教授,博士,硕士生导师;2.徐文彬,南京师范大学(南京,210097)课程与教学研究所教授,博士生导师。

一、问题的提出

《义务教育数学课程标准(2011年版)》(以下简称《课标》)是在《全日制义务教育数学课程标准(实验稿)》的基础上修改而来。自其颁布之日起,对《课标》内容的讨论一直不绝于耳。如《义务教育数学课程标准(2011年版)解读》(以下简称《课标解读》)中所述,《课标》是从社会发展与数学课程之间的关系及相互影响、数学学习心理规律与数学课程设计、现代数学进展与数学课程之间关系、义务教育阶段学生数学学习现状和国际数学课程改革的特点等五个方面考虑研制的[1],但其中缺乏具体到某个数学知识点的研究报告。这一缺失,既不利于更广泛地调动数学教育工作者参与课改的热情,也不利于教材编写者对课标的理解。基于此,笔者尝试以“众数、中位数和平均数”这一内容为例来做一番分析。(注:下文中,除特别说明外,“平均数”均指“算术平均数”。)

关于统计量“众数、中位数和平均数”的定位问题已有的研究如下:一是中外数学教材的比较研究;二是2011年以前的国内部分研究者的主张,认为将“众数、中位数和平均数”前置在小学阶段是可行的,采用螺旋式上升的教学方式,循序渐进地让学生学习这些统计量的意义[2],这也是《全日制义务教育数学课程标准(实验稿)》的内容;三是小学数学教学实践显示,中国的小学生学习接受众数、中位数和平均数不存在认知阻碍[3]。现行的《课标》将“众数、中位数和平均数”这一内容分拆在两个学段学习:第二学段要求“体会平均数的作用,能计算平均数,能用自己的语言解释其实际意义”;第三学段要求“理解平均数的意义,能计算中位数、众数、加权平均数,了解它们是数据集中趋势的描述”。在这里,我们不禁发问:“平均数的意义”具体有哪些?第二学段应学习平均数的哪些意义?第三学段应学习哪些?其依据是什么?这样的学习顺序是最好的选择吗?

二、问题的分析

1.基于数学文化的分析。

数学文化是在一定历史发展阶段,由数学共同体在从事数学实践活动过程中所创造的物质财富和精神财富的总和。[4]国内外数学家和数学教育家已十分肯定数学文化(数学史)对数学教育的意义,归结起来至少有以下三点:有助于理解数学;激发学生的学习兴趣;指导数学课堂教学。基于此,有很多专家学者提出:数学教育本质上是数学文化教育。由此,有必要将“(算术)平均数、众数和中位数”置于数学文化的视角来分析。

义务教育阶段,反映数据集中趋势的统计量一般有众数、中位数和算术平均数。从历史上来看,这三个统计量的来源却不一样。人们最早应用反映数据集中趋势的统计量可能是众数。公元前428年,雅典受困需要突破敌人的围城,很多人通过数城墙砖的层数的方法来估计城墙的高度,利用众数来反映该组数据的一般水平。在历史上,人们还使用中位数替代(算术)平均数来反映某个总体的集中趋势。1599年,爱德华・怀特(edwardwright)将中位数应用于航海,用以确定指南针所指定的位置。1874年,费歇尔(R.a.Fisher)将中位数用来描述社会和心理现象。1882年,高尔顿(Galton)第一次使用“中位数”一词。使用(算术)平均数有以下几个来源:第一,用平均数来估计较大的数。公元4世纪,印度鲁帕那(Rtuparna)为了估计果树上树叶和果实的数目,使用了平均数。第二,重复测量取平均数以减少误差。公元16世纪末,第谷(tychoBrahe)为了减少观测的误差,率先取重复测量值的平均数作为天文学观测的数据。后来,这种方法在欧洲得到广泛的运用,有效地减少了系统误差。第三,平均数的补偿性。古希腊时期,数的大小用线段表示,其平均数的定义为“a和c中间的数b称为算术平均数,当且仅当b-a=c-b”,古代中国也有类似的思想。第四,利用平均数来公平分配。大约公元前1000年,地中海地区航海贸易比较发达,但存在风险,人们想到利用平均数的方法解决公平分担风险问题。第五,平均数是总体的代表值,在现实情境下不一定具有实际意义。1831年,魁特奈特(a.Quetelet)提出“平均人”概念:有这样一个人,他在一切重要的指标上都具有某一群体中一切个体相应指标的平均值。[5]

基于数学文化的分析,可以建立有关反映数据集中趋势的数学知识结构,从而帮助学生形成结构完善的概念图。在数据分析时,人们倾向于先使用众数和中位数刻画数据的集中趋势。因此,有必要将平均数、众数和中位数安排在同一个单元。

2.基于学习心理学的分析。

统计与概率虽然进入基础教育比较晚,但是有关统计与概率的学习心理研究随着课程改革在不断地深入。关于反映数据的集中趋势的统计量的一些研究有了以下一些结果。

Strauss和Bichler研究发现:50%的8岁学生和几乎所有的10岁学生能够理解平均值位于最大值和最小值之间。几乎所有的学生能够理解平均数受每个数据的影响,平均数不一定是真正的数据。[6]mokros和Russell发现:有些低年级的学生将“平均数”理解为出现次数最多的一个数据(众数)。有些低年级的学生将平均数理解为中位数。有些低年级的学生虽然意识到算术平均数,但是具体数据问题中不会应用。[7]Russell和Friel设计了一道测试题:九个不同品牌的薯条,袋子大小规格相同,所有品牌的平均价格是1.38美元,问九种不同牌子各自价格是多少?测试的结果是:大部分学生认为平均数是数据中出现最多的数。小部分学生认为平均数是中间的数,并构造一些以平均数为中心的对称数据。[8]moritz、watson和pereira-mendoza研究了1014位澳大利亚学生,发现:40%的三年级的学生、7%的六年级学生和2%的九年级的学生不理解平均数。[9]上述研究表明,关于这三个统计量的学习难度存在不同,学生学习众数和中位数的难度较低,而平均数则比较难。由此,不妨先学习众数和中位数,让学生建立反映数据的集中趋势的思想方法,然后再进一步学习平均数。

3.基于数学知识内容的分析。

平均数、众数和中位数作为反映某组数据的集中趋势,并在比较中判定在某种条件下所适用的统计量,这是数学知识的内在规定。根据数学知识内在规定的特点来组织教学,才能更深刻、全面地理解平均数概念及其统计意义。

平均数、众数和中位数都是作为反映某组数据的集中趋势的统计量,但一般来说,这三个统计量的使用存在着前提条件。如果某组数据呈现正态分布,那么平均数、众数和中位数都能客观地反映该组数据的集中趋势,三个统计量没有区别。如果某组数据呈现偏态分布,那么必须考虑这三个统计量的适用条件,才能客观地、较为真实地反映该组数据的集中趋势。一般地,在明显存在极端值的情况下,用中位数更能代表总体的一般水平。在某些数据出现的频次相对比较多的情况下,用众数能较真实地代表总体的一般水平。在某些数据呈现均匀分布的情况下,往往使用平均数来反映该组数据的集中趋势。这三个统计量所蕴涵着的统计意义,归结起来大体有四点:作为判断事物的数量标准或参考;作为代表来衡量不同总体之间的水平;作为用样本的平均数来推断总体的水平;作为总体的平均数通过在某段时间内的发展变化,探索研究对象的发展规律。

三、思考与建议

行文至此,有必要梳理一下相关结论并给出相关建议了。首先,从课标研制的角度而言,理论与实践的结合是数学课程标准制定的永恒法宝。数学课程标准的研制需要考虑社会发展与数学课程之间的关系及相互影响、数学学习心理规律与数学课程设计、现代数学进展与数学课程之间关系、义务教育阶段学生数学学习现状和国际数学课程改革的特点等这五项基础性研究,但是更细致地、深入到每一个数学知识点的研究,则需要从数学知识内在规定性、学习心理学的相关研究以及数学历史文化三个方面对具体知识点进行综合分析,并且开展相关的教学实验对理论分析进行验证。

其次,应尽可能多地调动数学教育工作者参与课改。数学教育工作者往往只了解到课标研制的宏观过程,至于具体到某个数学知识点则没有相应的研究报告。因此,在研制课标的过程中,有必要将相关的研究成果让一线数学教师了解,便于让更多人参与进来,同时也进行相关的教学实验,使课标得到更广泛的实践检验。

最后,由于“众数、中位数和平均数”这一内容本身具有一定的抽象性,需要学生具备一定的计算能力,因而笔者赞同将其放在第二、三学段进行教学,但对具体的教学顺序与要求有自己的看法。具体而言,(1)将平均数、众数和中位数安排在一个单元,有利于相似知识的连贯性教学;(2)先学习众数和中位数,让学生建立反映数据的集中趋势的思想方法,然后再进一步学习平均数;(3)考虑到平均数的统计意义有4点,不妨考虑以平均数的统计意义为学段划分的依据,分两个学段进行学习,《课标》中第二学段有关的内容标准不妨这样修订:“体会众数、中位数和平均数的统计意义――作为判断事物的数量标准或参考和作为代表来衡量不同总体之间的水平,能确定中位数、众数,能计算平均数,了解中位数、众数和平均数的关系”,第三学段的内容标准可修改为“理解众数、中位数和平均数的统计意义――作为用样本的平均数来推断总体的水平、作为总体的平均数通过在某段时间内的发展变化、探索研究对象的发展规律,能计算加权平均数,理解众数、中位数和加权平均数的关系”;(4)由于教师在进行教学设计时,往往会先从数学教材出发揣摩《课标》中的要求,因而,不同教材对同一知识点的编写应在内涵上保持一致。

总之,修订和完善数学课程标准的指导思想是最大限度地符合数学教育规律,而检验的方法和策略是先从系统观念出发,联系数学知识内在规定、数学学习心理和数学文化三个方面统筹分析,然后在此基础上进行有针对性的教学实验。同时,公布更具体的研制成果,充分调动广大一线的数学教育工作者参与其中,在教学实践中进行更广泛的检验,这样才能够更有利于数学课程标准的完善。

【参考文献】

[1]史宁中.义务教育数学课程标准(2011年版)解读[m].北京:北京师范大学出版社,2012.

[2]张辅,唐华军.上海与加州数学课程标准小学“统计与概率”比较研究[J].泰山学院学报,2006(06).

[3]闫炳霞.从美国小学的一节统计课谈我国小学“统计与概率”的教学[J].中小学教学研究,2006(02).

[4]陈克胜.基于数学文化的数学课程再思考[J].数学教育学报,2009,18(01).

[5]吴骏,黄青云.基于数学史的平均数、中位数和众数的理解[J].数学通报,2013,52(11).

[6]StraussS,Bichlere.theDevelopmentofChildren’sConceptsofthearithmeticaverage[J].JournalforResearchinmathematicseducation,1988(19).

[7]mokrosJ,RussellSJ.Children’sConceptsofaverageandRepresentativeness[J].JournalforResearchinmathematicseducation.1995(26).

[8]Russell,SusanJo,Friel,Susann.Collectingandanalyzingrealdataintheelementaryschoolclassroom[J].inp.R.trafton&a.p.Shulte(eds.),newDirectionsforelementarySchoolmathematics,1989:134-148.

大数据时代的定义与特点篇7

关键词:现代术语学,术语形成的经济律,潜在歧义论

中图分类号:H083,n04文献标识码:a文章编号:1673-8578(2012)06-0054-04

ReviewoftheRevisededitionofanintroductiontomodernterminology

wanGShaoshuangYanGQingzhen

abstract:asChinasfirstmonographonterminologystudies,anintroductiontomodernterminologyhascontributedtoconstructingtheChinesediscourseonterminologystudiesandlaidasolidfoundationfortheterminologystudiesinChina.thisbookgivesanoverviewofgeneralterminologystudies,createstheeconomiclawoftermformationandthepotentialambiguitytheory,andshedslightonthedevelopmentofterminography.thisarticlefirstlyintroducesthecontentsoftherevisededitionofthebookandthencommentsonitswritingfeatures,academiccontributionsandshortcomings.

Keywords:modernterminology,economiclawoftermformation,potentialambiguitytheor

引言

随着全球化信息技术时代的到来,现代术语学在西方应运而生,旨在研究术语的语言特征及其运作规律。始自20世纪30年代,西方术语学逐渐发展完善,形成了现代术语学的四大主要学派,即德国—奥地利学派、俄罗斯学派、捷克—斯洛伐克学派、加拿大—魁北克学派。

尽管我国古代的名学思想中已蕴涵了术语学的某些思想[1],但现代术语学研究在我国起步相对较晚。在20世纪80年代有一些国外术语学著作在我国得到了译介,如刘刚等译的《术语学概论》[2]、张一德译的《应用术语学》[3]、邹树明等编译的《现代术语学与辞书编纂》[4]。进入90年代以后,术语学逐渐开始受到我国学者的重视[5-6],而冯志伟的《现代术语学引论》[7](以下简称《引论》)也在1997年8月由语文出版社组织出版,它被认为是我国第一部现代术语学理论专著[8]。时隔14年之后,冯志伟先生根据术语学的最新发展,对该书的内容做了进一步的更新和调整,其增订本[9]作为“中国术语学建设书系”之一,于2011年9月由商务印书馆出版发行。本文简单介绍该书的主要内容,并分析该书的写作特点与学术贡献。

一内容述要

《引论》(增订本)全书由十六章构成,第一至八章介绍了普通术语学的一般理论与方法,第九至十五章讨论了中文术语研究的相关问题,第十六章则关注了信息时代术语学发展的最新动态——计算术语学。各章的主要内容可简要列述如下:

第一章介绍国内外术语学研究的基本情况。包括术语学产生的背景、发展历史、现代术语学的四大流派及其基本理论观点,以及国外的术语学教育;挖掘了我国术语学思想的渊源,分析了汉唐时期的佛教翻译与各朝代的科技著作中的术语状况,叙述了近代外国科技著作中术语的汉译情况,以及术语相关机构的设立。

第二章阐释了什么是“术语”以及术语定名的原则,讨论了术语模型、单义术语、多义术语、多源术语、同义术语、等价术语、同音术语、异形术语、术语的地域分歧、印欧语言的术语构成方式、缩略术语、借用术语、汉语术语中借用的日语术语、直接从西方语言翻译的汉语术语、转写、译音、以及科学单位等问题。

第三章介绍了“概念”的基本知识,探讨了概念的内涵和外延、概念的组合、概念特征的类别、概念系统及其图示法、概念的属种关系、概念的整体-部分关系、概念的联想关系、概念的两极关系和分级关系、概念的承袭关系、多维混合概念系统、概念的有序性、概念和术语的协调等问题,最后还剖析了知识本体在哲学、计算机科学和术语学三个领域中的不同含义。

第四章涉及术语定义的相关问题。首先展示了术语定义的基本方法,如内涵定义、外延定义、上下文定义,然后论述了定义的作用、定义的一般原则、定义的具体原则、定义的系统性、定义的辅助手段、定义方式的总结,以及定义的变化问题。

第五章涵盖了术语编纂的相关内容。介绍了《国际电工词典》和《天文学名词》,探讨了术语编纂的符号、语言代码、术语数据的种类、单语言术语词典、多语言术语词典等问题。

第六章论述术语标准化问题。首先介绍了标准化及其七条原则,以及几个主要的国际标准化组织。

第七章探讨了术语的命名原则。分别讨论了生物学、物理学、无机化学、有机化学、天文学等学科术语的定名。

第八章讨论了术语数据的存储与交换问题。介绍了世界上九种主要术语数据库的基本情况和特征、建立术语数据库的基本要求及其过程、术语数据库的技术评测,讨论了术语数据的交换。

第九章首先介绍了中文自然科学术语命名原则、中文术语定名的基本要求、审定工作中术语的选择原则、审定工作中术语的编排格式、术语索引的编排方法、中文术语的审定程序等问题,然后介绍了我国各个学科的术语审定工作。

第十章采用描写性的方法分析了中文单词型术语。内容涉及中文单词型术语的类别与结构、中文偏正式术语中各语素之间的语义关系、中文术语中的语缀等问题,描写性的分析方法有助于中文术语的规范性研究。

第十一章研究了术语形成的经济律,旨在对术语系统中词组型术语占多数的术语现象进行理论上的阐释。首先提出了术语系统的经济指数、单词的术语构成频率、术语的平均长度等新概念,据此提出了术语形成的经济律,并用FeL公式对其进行描述。最后提出了生词增幅递减律和词汇增长模型。

第十二章阐释了潜在歧义论在中文术语学研究中的应用。介绍术语结构的两种表示方法,探讨术语的字面含义和学术含义、词组类型结构、句法功能结构、功能焦点、逻辑语义结构,探讨词组型术语的命名规范。

第十三章分析了中文名词词组术语的结构。根据几何结构的不同,将中文名词词组术语分为十一种类型,并使用树形图和有限状态转移网络对各种类型的结构做了描写分析。

第十四章分析了中文动词词组术语和中文形容词词组术语的结构。根据几何结构的不同,将中文动词词组术语分为三组,将中文形容词词组术语分为两组,并分别使用树形图和有限状态转移网络描写分析了这些类型的结构。

第十五章分析了中文名动同形词词组术语的结构。将中文名动同形词词组术语分为四种类型,并使用树形图和有限状态转移网络加以分析。

第十六章讲述了计算术语学的内容,主要涉及中文术语结构的自动剖析、术语的自动发现、术语的自动标引等课题。

二写作特色

与第一版相比,经过作者的修订与补充,《引论》(增订本)的内容更加丰富、充实,并体现了信息时代的特点。

首先,作者增加了两章新内容,第一章“术语学的历史与现状”使读者可以首先对术语学产生一个概括式的理解,有助于进一步深入阅读;第十六章“计算术语学”,讲述术语结构自动剖析和术语的自动处理,反映了信息时代下术语学发展的最新动态。

其次,作者对部分章节的名称做了修订。第三章“概念和概念系统”改为“概念系统和知识本体”,表明了对知识本体研究的关注。第七章“各科术语问题”改为“术语命名原则”,更加符合该章的内容主题。第八章“术语数据库”改为“术语数据的存储与交换”,拓展了该章的研究范围,也体现了建立术语数据库的目的和用途。

再次,作者对各章节的内容进行了较大幅度的修改和补充。第三章增加了“概念”的阐释部分的篇幅,增加了概念的联想关系、两极关系和分级关系、承袭关系、多维混合概念系统、概念的有序性、概念和术语的协调等,尤其是对知识本体的相关论述,反映了术语学研究的新动向。第八章增加了可扩展标记语言XmL的相关介绍,体现了信息时代术语数据存储与交换技术的新发展。第十二章在开始处增加了对短语结构语法的介绍,有助于读者更好地理解潜在歧义论在中文术语研究中的应用。

概览全书,《引论》(增订本)具有以下特点:

第一,编排合理,逻辑性强。第一章从整体上介绍术语学的历史和现状,接着对“术语”“概念”“定义”这三个术语学最基本的概念做了深入阐释,在此基础上论述术语编纂、术语标准化、术语命名原则、术语数据的存储与交换等问题,并进而探讨中文术语研究的有关问题,比如术语形成的经济律和潜在歧义论。

第二,图文并茂,便于理解。该书是一部理论性极强的术语学研究专著,难免会涉及一些晦涩难懂的概念和理论观点。作者在力图做到语言表达清晰的同时,还使用了大量的图表对相关概念和观点进行了图示说明,使得理论的表述更为形象、易懂。如:第二章应用图示解释了术语模型、多义术语、同音术语;第三章应用图示说明了概念化和指称化的过程、概念的外延和内涵,并应用树形图表示了概念之间的各种关系;在分析中文词组型术语结构的相关章节中,作者更是使用到了大量的图示对各种复杂的术语结构进行解析。此外,该书中还含有许多表格,用于展示相关数据的统计、术语结构的分类情况等。

第三,资料翔实,例证丰富。第一章通过相关历史人物和史实的回顾,对国内外术语学研究的发展史做了详尽的梳理。在对术语学的相关概念进行介绍和阐释时,该书选用了大量的例证加以说明,尤其是在应用潜在歧义论研究中文术语时,涉及了大量的词组型术语的实例,以便更清晰地对复杂的术语结构进行描写分析。该书对世界范围内现有主要术语库和国内外术语相关机构的细致介绍,也是作者在资料收集方面的翔实表现。另外,该书还使用了大量的相关数字对有关问题进行了定量的说明。

三学术贡献

作为我国第一部现代术语学理论专著,该书对于中国术语学的建设和发展具有举足轻重的意义,其学术贡献可归结为以下三个方面:

第一,该书对普通术语学的基本理论和原理进行了全面的梳理和介绍,为中国术语学的建设和发展起到了奠基作用。在我国,术语学研究起步相对较晚,“术语学一直是我国应用语言学研究中的一块未开垦的处女地,是一个需要我们开发的科学空白点”[7]。一直以来,国内缺少一本系统介绍普通术语学的理论著作,该书的出版为后继学者进一步开展术语研究工作提供了理论基础支持。该书不是简单地综述西方已有的术语学理论,而是在借鉴西方术语学研究成果的基础上,对术语学理论又有了进一步的发展。这一点尤其反映在该书的术语观上。该书把基于概念的术语观推进到了基于知识本体的术语观,把规范性的术语观推进到了描写性的术语观,把共时的静态术语观推进到了历时的动态术语观。这对建设具有中国特色的术语学理论具有重要意义。

第二,该书对中文术语的类型和结构进行了系统的分析和探究,开创了术语学研究的两大新理论,即术语形成的经济律和潜在歧义论,提出了适合中文术语的结构分析方法,这有助于汉语术语学研究的纵深发展。作者将中文术语按结构分为单词型和词组型两类,并通过对术语数据库GLotC中单词型术语和词组型术语的分布分析,从理论上解释了后者在术语系统中占主导地位的原因,并据此提出了术语形成的经济律。作者还指出中文术语的词组类型结构与句法功能结构之间并不一一对应,两者不对应时就会导致潜在歧义,并据此提出了潜在歧义论。术语形成的经济律和潜在歧义论是作者对中国术语学理论所做出的独特贡献。

第三,该书对术语编纂理论、术语数据的存储与交换问题、计算术语学的论述,对我国术语词典学的发展具有启示意义。术语学研究的许多问题产生于术语词典的编写过程中,术语学研究提出的理论观点反过来又直接影响术语词典的编纂实践[10]。该书所提出的许多理论观点对于我国术语词典编纂都具有指导作用,尤其是第五章对术语编纂的相关论述,更是具有立竿见影的效果。而对术语数据库和计算术语学的相关介绍,也将为传统的术语词典编纂理论和实践带来变革。

由于该书是我国学者编写的第一部术语学理论专著,无先例可循,难免存在有待改进之处。书中对普通术语学的介绍忽略了一些最新的西方术语学理论,如社会认知术语学理论、交际术语学理论、基于框架的术语学理论等。在该书中,虽对术语管理的内容有所涉及,但未对该概念做重点介绍。另外,该书对中国术语学的介绍,主要集中于内地的情况,未能充分反映港台地区的术语学研究所取得的进展。

四结语

总体而言,《引论》是我国现代术语学发展史上的第一部专著,为后续的术语学研究工作奠定了坚实的基础。自从该书出版后,术语学作为一门综合性的边缘学科,逐渐进入了我国学者的研究视野,不仅有对国外术语学理论的译介,亦有针对中文术语的特点所进行的专门研究,甚至还有学者提倡将术语学纳入高校的课程体系,培养学生的术语能力[11-12]。正如冯志伟先生所言,我国术语学研究不仅需要学习和借鉴西方的术语学研究成果,还应发展我们自己的术语学,“建立具有中国特色的术语学理论”。在众多学者的共同努力下,现代术语学研究的第五大学派——中国术语学学派正在形成,《引论》一书出版,也将继续推动中国术语学的茁壮成长。

参考文献

[1]龚益.社科术语工作的原则与方法[m].北京:商务印书馆,2009.

[2]隆多G.术语学概论[m].刘钢,刘健,译.北京:科学出版社,1985.

[3]迪毕克R.应用术语学[m].张一德,译.北京:科学出版社,1990.

[4]邹树明,吴克礼.现代术语学与辞书编纂[m].北京:科学出版社,1988.

[5]赵家琎.术语学概论[J].外国语,1992(2):51-56.

[6]陈楚祥.术语·术语学·术语词典[J].辞书研究,1995(1):56-57.

[7]冯志伟.现代术语学引论[m].北京:语文出版社,1997.

[8]黄忠廉.我国外语界术语学研究综述[J]辞书研究[J],2010(2):100-110.

[9]冯志伟.现代术语学引论[m].增订本.北京:商务印书馆,2011.

[10]郑述谱.俄国术语词典学理论发展概览[J].辞书研究,2005(1):181-191.

大数据时代的定义与特点篇8

关键词自动微分切线性模式数据相关分析统计准确率

1.引言

计算微分大致经历了从商微分,符号微分,手写代码到自动微分几个阶段。与其它几种微分方法相比,自动微分具有代码简练、计算精度高及投入人力少等优点。自动微分实现的基本出发点是:一个数据相对独立的程序对象(模式、过程、程序段、数值语句乃至数值表达式),无论多么复杂,总可以分解为一系列有限数目的基本函数(如sin、exp、log)和基本运算操作(加、减、乘、除、乘方)的有序复合;对所有这些基本函数及基本运算操作,重复使用链式求导法则,将得到的中间结果自上而下地做正向积分就可以建立起对应的切线性模式,而自下而上地做反向积分就可以建立起对应的伴随模式[1]。基于自动微分方法得到的切线性模式和伴随模式,在变分资料同化[2]、系统建模与参数辨识[3]、参数的敏感性分析[4]、非线性最优化以及数值模式的可预测性分析[5]等问题中有着十分广泛的应用。

迄今为止,已有数十所大学和研究所各自开发了能够用于求解切线性模式的自动微分系统,比较典型的有tamC系统[6]、aDJiFoR系统[7]和oDYSSee系统[8]。在一些特定的运用中,它们都是比较成功的,但在通用性和复杂问题的处理效率上还存在许多不足。通常,自动生成切线性模式的关键难题在于对象自身的强相关性,这给系统全局分析(如数据io相关分析和数据依赖相关分析)和微分代码的整体优化都带来了很多困难。同时,对于程序对象不可导处的准确识别和微分处理,至今仍还没有一个统一而有效的算法。另外,最优或有效求解稀疏雅可比矩阵一直是衡量一个自动微分系统有效性的重要尺度。

统计准确率被我们视为评价一类自动微分工具及其微分模式代码可靠性与有效性的重要尺度。其基本假设是:如果对于定义域空间内随机抽样获得的至多有限个n维初始场(或网格点),微分模式输出的差分和微分逼近是成功的;那么对于定义域空间内所有可能初始场(或网格点),微分模式输出的差分和微分逼近都是成功的。微分模式统计准确率评价的具体方法是:在所有随机抽样得到的初始场(或网格点)附近,当输入扰动逐渐趋向于机器有效精度所能表示的最小正值时,模式输出的差分和微分之间应该有足够精度有效位数上的逼近。

DFt系统具有许多优点,它能够完全接受用FoRtRan77语言编写的源代码,微分代码结构清晰,其微分处理能力与问题和对象的规模及复杂性无关。它基于YaCC实现,具有很强的可扩展性。DFt系统具有四个重要特色。它通过对象全局依赖相关分析,准确求解雅可比矩阵的稀疏结构,自动计算有效初始输入矩阵,从而可以用较小的代价求得整个雅可比矩阵。同时,它可以自动生成客观评价微分模式效率与可靠性的测试程序,对奇异函数做等价微分处理,并采用二元归约的方法,在语句级层次上实现微分代码优化。

2.系统概况

DFt系统主要由两部分组成:微分代码转换和微分代码评价,图2.1。微分代码转换部分接受用户输入指令并自动分析对象模式,生成切线性模式代码及其相关测试代码,后者直接构成微分代码评价系统的主体。微分代码评价是DFt系统的一个重要特色。DFt系统的开发小组认为,一个微分模式如果在可靠性、时间和存储效率上没有得到充分的验证,至少对实际应用而言,它将是毫无意义的。

微分代码转换部分从功能上分为四个部分:词法分析,语义分析,对象复杂性及数据相关分析和微分代码转换。对于一组具有复杂数据相关的程序模式对象,通常需要系统运行两遍才能得到有效而可靠的微分代码。这主要有两方面的考虑:其一,根据对象的复杂性(如最大语句长度、最大变量维数、子过程或函数数目、子过程或函数内最大变量数目等对象特征)选择合适的系统参数以求最优的运行代价;其二,模式内各子过程或函数之间以及一个子过程或函数内往往具有很强的数据相关性,需要事先保存对象的相关信息并且在考虑当前对象的属性之前必须做上下文相关分析。

2.2微分代码评价

通常,评价一个编译系统的性能有很多方面,如处理速度、结果代码可靠性及质量、出错诊断、可扩展和可维护性等。对于一类自动微分系统来说,由于软件开发人力的局限以及对象模式的复杂多样性,通过自动转换得到的微分模式并非常常是有效而可靠的(即无论是在数学意义上还是在程序逻辑上应与期待的理想结果一致),因而在微分模式被投入实际应用前,往往需要投入一定的人力来对其做严格的分析测试。

对切线性模式做统计评价测试的主要内容可以简单叙述为:在网格化的模式定义域空间内,选择所有可能的网格点形成微分模式计算的初始场;在不同的网格点附近,随机选取至少个线性无关的初始扰动,对每个扰动输入分别进行网格点逼近,统计考察模式输出差分和微分在有效位数上的逼近程度。图2.5描述了整个测试过程,它包含网格点数据随机采样(1)和网格点数据逼近(2)两级循环。

3.系统主要特色

DFt系统并不是一个完整的FoRtRan编译器,但它几乎可以接受和处理所有FoRtRan77编写的源模式代码,并且可以很方便地扩展并接受FoRtRan90编写的源模式代码。本节将着重介绍DFt系统(版本3.0)的以下几个重要特色。

3.1结构化的微分实现

DFt系统采用标准化的代码实现,切线性模式的扰动变量和基态值变量、微分计算语句和基态值计算语句总是成对出现,并具有清晰的程序结构。微分代码保持了原模式本身的结构和风格(如并行和向量特性、数据精度等),即语句到语句、结构到结构的微分实现。在奇异点或不可导处,DFt系统对微分扰动采取简单的清零处理,实践证明这对抑制扰动计算溢出具有重要意义,但并不影响评价测试结果。

3.2全局数据相关分析

DFt系统具有较强的数据相关分析能力,它包括全局数据io相关分析、全局数据依赖相关分析、全局过程相关分析以及数据迭代相关分析几个不同方面。数据依赖相关与数据io相关关系密切,但又存在根本不同。前者强调每个变量在数学关系上的依赖性;而后者描述了一个对象的输入输出特性,且具有相对性,即任何一个变量参数,无论它是独立变量还是依赖变量,在数学意义上都可等价为一个既是输入又是输出的参数来处理。

DFt系统记录所有过程参数的io属性表,通过深度递归相关计算,准确计算每个过程参数的最终io属性。DFt系统通过对数据相关矩阵做模二和及自乘迭代计算(an+1=anan2)来完成数据的依赖相关分析,这种算法具有很好的对数收敛特性。DFt系统通过全局过程相关分析的结果,自动生成模式的局部或整体相关引用树结构(如图3.1),这对用户分析复杂数值模式和微分评价测试都具有很好的指导作用。DFt系统还具有分析局部数据迭代相关和函数迭代相关的能力,这两种形式的数据迭代相关是自动微分实现颇具挑战的难题之一。

3.3自动生成测试程序

基于io相关分析的结果,DFt系统自动生成微分测试代码,分别对切线性模式的可靠性和运行代价做统计评价测试。特别地,DFt系统还可将任何模式参数都视为输入输出参数,生成在数学意义上等价的测试代码,这样处理的不利之处在于往往需要极高的存储开销。

3.4基于语句级的代码优化

目前,DFt系统仅仅具备局地优化能力。在语句级微分实现上采用二元归约的方法对微分代码进行优化是DFt系统的一个重要特色。根据右端表达式的乘法复杂性及含变元数目的不同,DFt系统采取不同的分解策略。二元归约的方法避免了微分计算中的许多冗余计算,在一些复杂的非线性表达式的微分计算中具有最小的计算代价,同时也非常适合于微分系统的软件实现。同时,对于某些特殊的运算操作(除法、乘方)和特殊函数(如sqrt、exp),DFt系统较好地利用了基态值计算得到的中间结果,避免了微分实现中的冗余计算。

4.系统应用

运用自动微分工具得到的切线性模式,可以在无截断误差意义下求解函数的数值微分和导数、稀疏雅可比矩阵。同时这些结果在数值参数敏感性分析、非线性最优化以及其它数值理论分析中有着非常重要的应用。这里简单介绍切线性模式的几个基本应用。

4.1符号导数和微分

如果输入为数学关系式,DFt系统可以自动生成对应的微分表达式和梯度,而与数学关系式的复杂程度无关。例如我们输入关系式:,(1)

DFt系统将自动生成其符号微分形式及其梯度形式分别为,(2)

4.2数值导数和微分

切线性模式最基本的应用就是在一定扰动输入下求解输出变量的扰动(响应)。表4.1给出了DFt系统在对iap9L模式、GpSRayshooting模式和GpSRaytrace模式三个数值模式做切线性化的具体应用中,一些不同计算粒度、不同引用深度和不同程序风格的核心子过程,以及它们的切线性模式在SGi2000上运行的统计评价测试结果,其中切线性模式的可靠性指标都准确到六个有效数字以上,在运行时间、存储开销和代码复杂性方面分别是原模式的两倍左右,比较接近于理想的微分代价结果(1.5倍)。除了iap9L模式由于过于复杂仅做粗略统计外,其余模式都用非注释语句行数来表示各自的代码复杂性。

适当设置输入扰动的初值,运用切线性模式可以简单求解输出变量对输入的偏导数。例如,对于一个含有个输入参数的实型函数(3)

这里设,。运用DFt系统,可以得到对应的切线性模式(4)

其中,为切线性模式的扰动输入参数。可以通过以下办法来求得偏导数:(5)

其中。如果对于某个既是输入参数又是输出参数,可以类似以下过程引用的办法来处理。对于过程引用的情形,例如一个含有个输入参数的子过程(6)

其中,为输入参数;,为输出参数;,既为输入参数又为输出参数。运用DFt系统,可以得到对应的切线性模式为(7)

其中,,,分别为切线性模式的微分扰动输入、输出和输入输出参数。可以通过以下输入扰动设置并引用切线性模式(7)来求得偏导数:a)设置;(,);()可以同时求得()和(),其中。

b)设置();;(,)可以同时求得()和(),其中。

4.3稀疏雅可比矩阵

运用上节讨论的方法来求解稀疏雅可比矩阵,具有极高的计算代价。例如,一个含个独立和个依赖参数的子过程,为求解整个雅可比矩阵就需要反复调用次切线性模式,当相当大时,这对许多实际的数值计算问题是不能接受的。事实上,如果雅可比矩阵的任意两列(行)相互正交,那么可以通过适当设置扰动输入值,这两列(行)的元素就可以通过一次引用切线性模式(伴随模式)完全得到。设和分别为雅可比矩阵的行宽度和列宽度,即各行和各列非零元素数目的最大值,显然有,。这里介绍几种常用的求解方法。

正向积分当时,通常采用切线性模式来计算雅可比矩阵。根据雅可比矩阵的稀疏结构,适当选择右乘初始输入矩阵,可以获得接近的计算时间代价。DFt系统采用一种逐列(行)求解的方法,来有效求解右(左)乘初始输入矩阵。其基本思路是:按照某种列次序考察雅可比矩阵的各列;考察当前列中所有非零元素,并对这些非零元素所在行的行向量做类似模二和累加运算(即将非零元素视为逻辑“1”,零元素视为逻辑“0”),从而得到一个描述当前列与各行存在“某种”相关的标志向量(其元素都是“1”或“0”);依据此标志向量,就很容易得到一个与之正交的列初始向量,其中与当前列序号对应的元素设置为“1”,而与标志向量中非零元素序号对应的元素设置为“0”,与标志向量中非零元素序号对应的元素设置为“-1”,显然,该列初始向量是唯一的,并且对应着当前右乘初始输入矩阵的最后一列;逐一考察已求解得到的列初始向量,如果某列初始向量与当前求解得到的列初始向量按下面定义的乘法(见过程4)正交,那么这两列就可以合并,即将当前列初始向量中非“-1”的元素按照对应关系分别赋值给该初始向量,并从记录中删除当前列初始向量;重复以上过程,继续按照给定列次序考察雅可比矩阵的“下一列”。不难说明,按照不同列次序求解得到的右乘初始输入矩阵可能不同。其中逐列求解右乘初始输入矩阵的过程可以简单叙述为:

1)将右乘初始输入矩阵所有元素的初值均设置为,,。。

2)如果,转6)。否则,如果雅可比矩阵的第列中的所有元素均为,,重复2)的判断。否则转3)。

3)计算标志向量。令,做如下计算:,;

4)设为的列向量。在上定义乘法,对任意的,我们有:a);b)如果,必有和。然后,做如下计算:,;,6);2);

5)令,并做如下计算:,;令,。如果,转6);否则,重复2)的判断。

6)对,,如果,则。取的前列,这样,我们就得到了一个维右乘初始输入矩阵。

这里需要说明的是,运用上面的方法求得的右乘初始输入矩阵不仅与求解雅可比矩阵的列序有关,而且与过程4)中的合并顺序也有关系。至于如何最优求解右乘初始输入矩阵,目前还很难讨论清楚。但是,大量模拟试验结果表明,运用上面自然次序求得的右乘初始输入矩阵宽度已经非常接近于其下界值。

反向积分当和时,通常采用伴随模式来计算雅可比矩阵。根据雅可比矩阵的稀疏结构,适当选择左乘初始输入矩阵,可以获得接近的计算时间代价。其中左乘初始输入矩阵的求解过程完全可以按照上面的方法进行,但是在处理前必须先将雅可比矩阵转置,最后还需将得到的初始输入矩阵转置才能最终得到左乘初始输入矩阵。同时,其行宽度也已经非常接近于其下界值。

混合积分如果将切线性模式和伴随模式相结合,往往可以避免梯度向量运算中的诸多冗余计算。例如,aDJiFoR系统在求解雅可比矩阵时,在语句级微分实现中首先用伴随方法求得所有偏导数,然后做梯度向量积分;其计算时间代价与和模式的语句数目有关,而其存储代价为。具体讨论可参考文献[7]。

5.结论

切线性模式在无截断误差意义上计算函数的方向导数、梯度或雅可比矩阵,以及在模式的可预测性及参数敏感性分析、伴随模式构造等相关问题中有着广泛应用。DFt系统主要用于求解FoRtRan77语言编写的切线性模式,具有很强的全局数据相关分析能力。此外,DFt系统还具有其它几个重要特色,如结构化的微分实现、自动生成微分测试程序以及基于语句级的微分代码优化。本文简单给出了DFt系统在求解数值和符号导数和微分、稀疏雅可比矩阵中的应用。为评价一类自动微分系统,本文初步提出了统计准确率的概念。

参考文献

[1]andreasGriewank.onautomaticDifferentiation.inm.iriandK.tanabe,editors,mathematicalprogramming:

RecentDevelopmentsandapplications.Kluweracademicpublishers,1989

[2]LeDimet,F.Xando.talagrand,Variationalalgorithmsforanalysisandassimilationofmeteorological

observations:theoreticalaspects,tellus,1986,38a,97-110

[3]p.werbos,applicationsofadvancesinnonlinearsensitivityanalysis,insystemsmodeling

andoptimization,newYork,1982,SpringerVerlag,762-777

[4]ChristianBischof,Gordonpusch,andRalfKnoesel."Sensitivityanalysisofthemm5weathermodelusing

automaticDifferentiation,"Computersinphysics,0:605-612,1996

[5]mumu,etal,thepredictabilityproblemofweatherandclimateprediction,progressinnatureScience,accepted.

[6]GieringR.etal.RecipesforadjointCodeConstruction.aCmtrans.onmath.Software.1998,24(4):

437-474.

[7]C.Bischof,a.Carle,p.Khademi,andG.pusch."automaticDifferentiation:obtainingFastandReliable

Derivatives--Fast"inControlproblemsinindustry,editedbyi.LasieckaandB.morton,pages1-16,Birkhauser,

大数据时代的定义与特点篇9

传统广告:寻找出路?

2012年前三季度,报纸广告刊登额下降了8.2%。报纸广告的下滑,必然带来报业订户加速下滑和产业整体规模的下滑。传统报业市场的低迷,使原来在纸媒投放广告的广告主开始加速转向网络市场空间,寻找新的投放机会。

对比之下,新兴媒体的广告投放速度持续保持增长。根据艾瑞咨询集团的报告,2012年中国移动应用广告平台的广告营收规模达到10.6亿元,相比2011年增长了135.6%。我国广告业界开始意识到移动互联网用户的价值,广告业的产业转型为其带来了历史上从未有过的挑战与机遇。

在移动互联网时代,广告的呈现方式、接收方式必将被彻底颠覆,取而代之的是面向大数据时代的智能广告。Facebook广告总监戈库尔·拉加拉姆(GokulRajaram)在接受媒体采访时认为:移动互联网的未来,首先是移动广告和移动电子商务。

在移动广告面世之时,有三个问题需要思考:传统广告具有什么缺陷?移动广告如何克服这些缺陷?移动广告作为创新产品,应该具有什么样的特征?

笔者认为,当前的传统广告存在以下三个方面的问题。

第一,传统广告不是交互广告。传统广告的运作,无法进行即时的效果统计。它基本上是通过前期市场调查、广告制作投放、观察收益、后期改进等一系列缓慢流程来完成的。在这一过程中,传统广告无法即时、有效地与用户交互,无法实时收集确切的用户数据,其结果必然是人力投入大、反馈周期长、数据统计失真。

第二,传统广告受时空限制。传统广告源于印刷媒体的兴起,它与印刷媒体结合在一起,依附于印刷媒体而存在,依托印刷媒体生存。这就意味着传统广告的投放周期必然受制于传统媒体的发行周期,其商业运作必然受到媒体商业运作的牵制。广告,作为一个商业主体,没有其主动性与灵活性。

第三,传统广告受幅面限制。众所周知,广告内容包括多个方面,如广告产品与广告理念、理念的层层递进等,然而因投放幅面的狭小,传统媒体广告本身往往无法全面展示其需要表达的丰富内涵。

因此,在移动互联网时代怎样解决传统广告不可忽视的三大劣势,就成了广告行业发展的关键。“微广告”,正是在这样的背景下产生的。“微广告”,从数字技术、网络技术上看,是一种基于移动互联网的、面向大数据的、即时交互的、智能的广告,即数字交互广告。它是面向大数据时代的多维逻辑智能广告,具有鲜明的智能化特征:移动化、互动化、分众化、多维化及迭代性。值得强调的是,移动互联网是“微广告”存在的技术物理前提,如果没有移动互联网,就没有“微广告”的功能与特征。

“微广告”,从产品的内化结构上看,是一种既可以作为广告体,也可以作为广告元素或广告元素组合的分层自定义广告体系。“微广告”,还是一个产品的微化概念,以“微广告”特有的元素特征体现产品的微化、基因化。

“微广告”,从消费者的意义上看,又是一个全新的消费概念。其中,“微”的含义,在于解读当下社会人们在时间消费上的“碎片化”“微片化”的现状。

移动化:“微广告”形成的前提

移动化,表明将广告在移动互联网上传播,在移动设备上进行投放与显示。移动化所带来的广告体验与以往的平面广告、电视广告、户外广告、公共广告不可同日而语,个人手持移动客户端成为“微广告”的承载体。麦克卢汉所提出的“媒介即讯息”,正适宜用来形容移动互联网时代。麦克卢汉认为,真正重要的讯息不是通过媒介承载的信息内容,而是媒介本身。更进一步来讲,真正对社会产生影响的并不只是传播的信息,还包括媒介所带来的变革。以智能手机、平板电脑为代表的移动客户端,不仅给人们的广告接触方式带来了变化,而且还影响着人们对世界的感知。

移动化不仅仅是技术进步的标志,更是社会加速流动的标志。社会的空间和时间在移动化时代被切割成碎片,作为主体的人,在移动时代可以迅速实现主体在不同空间之间的切换,即人们的生活环境、工作环境、学习环境都在移动(流动)中随时变化。在移动互联网时代,人们通过随身携带的移动终端,可以随时随地获取信息、办理公务、娱乐休闲,与世界保持紧密联系。特别重要的是,移动化带来的用户习惯的改变,对于广告业有着特殊的意义:首先,它有助于广告主快速收集更为详尽的用户信息,包括用户的使用时间及地点;其次,广告主可以根据收集到的数据进行更准确的广告投放。

“微广告”是在移动化特征的前提下形成的。所以,“微广告”首先需要突破广告固定投放的约束,成就自己移动化的优秀品质。

“微广告”产品的四大特征

传统广告已经经历了印刷广告、单向投放广告(如广播、电视)、数字广告(如传统互联网广告、户外广告)三个时期,当今的广告业正在步入第四个时期:移动互联网时期。这一时期,传统广告将逐渐退出历史舞台,取而代之的是面向移动互联网大数据时代的“微广告”。与传统广告相比,“微广告”有着以下四大特点。

一是全媒体的形式。传统广告的形式包括以文字或图片为主的平面广告和影音结合的视频广告。“微广告”则是基于移动数字媒体的全媒体创新广告,其中融合了多种媒体信息,包括文字、图像、音频、视频、动画、漫画、游戏等。在“微广告”中,可以通过对多元媒体形式的解构和建构,在多种信息之间建立逻辑连接,集成一个具有交互性、存储容量大、速度快、频带宽、实时性的广告系统。

二是互联网的传播方式。目前来看,传统广告最常见的传播方式包括报刊杂志的平面传播、户外海报标牌等立体展示和公交楼宇视频播放等方式。传统广告的传播局限显而易见:媒介载体受空间限制,不论是纸质刊物还是地铁、公交,包括个人电脑,都是不便随身携带的媒体终端,需要具备一定的条件才能接近该类媒介。在移动互联网时代,移动客户端为“微广告”向移动化和个性化的发展创造了条件。“微广告”的传播途径必须通过移动互联网完成,这是“微广告”的主要特征之一。

三是交互化的体验。移动客户端的广告形式与以往的传统广告极为不同。传统广告与受众的关系仅限于观看,广告与受众之间无法产生更深入的联系。而在“微广告”的表达形式上,其广告元素可以被切分成若干微小的广告元素,给用户带来与这些广告元素的交互体验,这些交互体验可以为用户带来深层次的体验乐趣。

“微广告”区别于传统单向型广告的最大特点就是广告的互动性。“微广告”作为新的广告承载形式,改变了以往受众单一接受广告的现状。从本质上讲,互动化是一种广告思维的转变:吸引用户的广告不是传统的图片和文字,而是将广告本身变成可与用户交互的信息,实现用户与内容、与广告主的及时互动。交互化,既包括用户与广告内容的互动,也包括用户与广告主的互动、用户与用户之间的互动。通过多媒体互动操作的技术支撑,“微广告”实现了这种与用户沟通交流的表达方式。

在交互环境下,如果用户认可广告所传递的信息,那么广告主会得到直接的相关反馈。用户与用户之间的互动,是“微广告”传播的重要渠道。举例而言,广告产品通过细节的改变提供给用户细微的关怀体验,用户因其体验,乐于将每一次良好的感受通过移动互联网传递到其亲友圈里。在这里,用户与用户形成了“n对n点”的互动。

四是结构化的元素。对传统广告固定结构的解构,不仅是“微广告”形式的创新,也是对用户体验的创新。“微广告”的这种功能是一种智能分析功能:在“微广告”下,广告主基于用户数据的反馈,可以随时更换广告中的部分内容。在“微广告”中,因为这些内容被分解成了广告元素,就为广告主的内容呈现提供了相关元素对应下的数据依据,广告主可以据此撤换掉不受市场欢迎的广告元素,实现更快速、高效的营销。

“微广告”具有元素化的能力,这一能力使得传统广告的展示单位发生重大变化:在纸媒上以页为单位的广告内容,不仅可以以整体页出现,也可以以广告的元素(元素a)出现,或以广告的元素组合(元素组a,内包a1……an)出现,或以元素组合体(元素组a,元素组B……元素组n)出现。它使得一幅广告在逻辑层面上,可以根据广告主的商业意愿,将其计划销售的任何一个产品,也同时作为这一产品的部件(对应于广告元素)、这一产品的部件组合(对应于“微广告”中的元素组合)、这一产品的部件组合体(对应于元素组合体)作为广告主体而投放。“微广告”的商业意义在于,一幅广告,可以形成在针对性销售目的下的任意组合的多幅广告。在“微广告”的元素化特征下,每一新投放的广告,都可以对应一种产品;任一新投放的广告,都可以以一个独立的广告体呈现,也可以作为更高层次上的产品结构中的部分出现。值得特别注意的是,这种广告的元素化结构不仅对广告本身带来革命,同时还具有产品设计的商业统计意义。

“微广告”的商业意义

定时广告转为分时广告。传统纸媒的平面广告与纸媒捆绑在一起,广告的传播周期受到纸媒发行周期的限制,广告内容必须与纸媒内容同步发行,如周刊就只能一个星期发一次广告,月刊便只能一个月一次广告。正是由于这一原因,纸媒广告的出版不具备灵活性,不能适应瞬息万变的市场需求。传统广告的定时弊端显而易见。

移动互联网的出现,为人类解决广告的定时限制提供了技术上的可能。“微广告”的诞生和商业普及,解决了传统广告不能随时、随地、随心更新的困扰。“微广告”可以在理论上实现按照任意周期播放的分时广告。分时广告作为“微广告”的时间特征,其出现解决了广告主瞬息万变的市场需求,甚至可以做到广告内容与媒体内容在任意周期下的分离。举例而言,一本月刊的内容可以在移动客户端上一个月更新一次,而在这期刊物内容不变的一个月内,其承载的广告内容却可以每周更换、每天更换,甚至每小时更换。借助于软件程序的支持,广告主可以根据自己的市场需求和产品价格弹性,以任意周期播放广告内容,随时更换广告内容。“微广告”的这种分时特征,彻底突破了传统广告受制于时间周期的局限性。

定幅广告转为分层广告。传统纸媒的平面广告,不仅在时间上受到刊物出版周期的限制,在空间上也受到媒介的影响,即广告内容局限于固定幅面的表达方式。例如,一个页面的汽车广告,只能在有限的页面上摆放照片,如果想全方位地了解汽车的立体感觉,比如对车座、方向盘、驾驶室感兴趣,就需要多幅照片互补展示,而多幅照片往往需要增加广告的页面。传统印刷广告具有定幅特征,而这种定幅广告的单层表达方式无法立体化地、全方位地展示产品。

“微广告”具有分层展示的特征,这一多层次的信息表达方式可以很好地实现立体化的宣传效果。同样是汽车广告,在“微广告”上可以将汽车信息按照不同的层次组织起来,读者可以根据需要自行点击其中的某一个部分。“微广告”不受幅面的限制,其所承载的商业信息量远远超过了传统广告。只有广告主不想传播的信息,而没有“摆不下”的信息。“微广告”的这种分层特征彻底打破了传统广告在传播空间上所受的限制。

定版广告转为元素广告。“微广告”还具有一种面向大数据时代的特征——元素特征。一直以来,广告的效果基于数据交流,而数据反馈都是广告商进行决策时所需要的。“微广告”相较于纸媒广告的巨大魅力就在于其精准的数据统计能力。在纸媒平面广告中,广告主只能知道发行量和订阅量,而无法跟踪读者的阅读行为。广告主不知道读者到底阅读了广告中的哪一部分内容,也不知道读者的阅读停留时间和读者是否阅读过广告内容。在对这种阅读行为无法跟踪的模式下,广告效果的好坏往往要靠调查问卷来间接知晓。相对于纸媒广告这种模糊不清的广告效果,“微广告”可以很好地反馈用户信息。“微广告”的元素功能,可以确认用户对广告元素的点击量和停留时长,广告主可以很清晰地知道哪部分信息是用户最感兴趣的,哪部分信息是用户不太关注的,可以使企业基于商业数据做出下一步的商业决策。

“微广告”:面向大数据

“微广告”作为一种新型互动式广告,具有为广告主提供大量即时的数据反馈的能力,广告后台系统可以借鉴用户的反馈数据即时调整广告内容的播放。这种根据用户反馈数据来动态调整、优化广告内容的特性,称之为“微广告”的“自迭代特性”或者“自适应特性”。用户可以按照自己的偏好去局部影响广告的主体信息,广告平台也可以根据用户的反馈数据选择出用户最喜欢的内容,进而实现对广告的自动强化,形成在智能化意义上的演进能力。

在广告主做了初始广告的设计与投放以后,“微广告”便进入了一个由用户点击浏览、反馈数据回送、广告内容智能调整三部分组成的“自迭代”的过程。“微广告”在投放到终端之后,用户会通过点击和浏览这一广告而产生可计量反馈数据(比如,在某一个视频页面的停留时长、超链接的点击次数、互动节点的活跃度等)。这些反馈数据可以触发广告后台的智能控制程序,由智能控制程序实现基于新的数据基础的广告内容的即时调整。比如,用户喜欢点击明星的蓝色唇彩,而原广告页面默认投放的是红色唇彩,当点击数达到一定的数量时,超过了事先设定的阈值,广告程序便可以自动将默认图片切换至蓝色唇彩以满足用户的视觉需求,使广告最大限度地吸引眼球。“微广告”的这种自迭代特性,是通过一个实时采集数据的后台系统来完成对广告内容的程序控制的。

基于自迭代特征,“微广告”通过数据反馈与后台程序,可以快速实现广告内容的优化和精准投放。在这个意义上,“微广告”成为一个在市场中自我进化的微平台和微系统。

作者李极冰系北京天智通达信息技术

有限公司董事长

大数据时代的定义与特点篇10

下面就我们对这一重要教学内容的教案形成报告如下(具体教案略)。

在课堂教学中,我们主张有意义学习,反对机械学习。有意义学习,就是通过文字符号或其它符号使学生在头脑中获得相应的认知内容的学习。其学习过程的实质是符号所代表的新知识与学生认知结构中已有的适当知识建立非人为的(非任意的)和实质性的(非字面的)联系。

根据学习任务的复杂程度,有意义学习分为三种类型:代表学习、概念学习和命题学习。这是一堂典型的概念学习课,它的实质是让学生掌握事物的共同的关键特征(关键属性)。获得概念的形式有两种:一种是让学生从大量事物的不同例证中独立发现,称为概念形成,另一种是教师用定义的方式直接向学生呈现,然后由学生利用认知结构中原有的有关概念理解新概念,称为概念同化。

义务教育新教材对认知发展尚未成熟的初中学生,在理论上降低了逻辑严谨性要求。根据从具体到抽象的认知规律,教材比较多的运用了形象思维和直觉思维,减少了学生的学习困难。形象思维是借助对数学对象的具体形象和表象的联想来进行的思维,可以经常联系生活实际、图表和模型表现数学内容,通过联想、类比、归纳而抽象出数学概念,也可以使数学概念具体化、形象化。直觉思维是具有意识的人脑对数学对象的结构及规律性关系的敏锐想象和迅速判断。它的特点是思维过程无明确的意识,也没有清晰的推理过程,思维过程在一刹那间完成(即“顿悟”),主要形式是想象和猜测。可以这样说,逻辑是证明的工具,而直觉是发现的工具。因此根据本节课教材的组织程序和教学大纲要求,学生学习进行的方式可采用发现学习的形式(苏联奥苏伯尔观点,美国布鲁纳倡导),先用概念形成的程序引入函数概念,然后同化函数概念,达到获得函数概念的目的。经过研究,我们取得了如下的共识:

一、依据教学大纲和节前框,本节课的教学目标应该是要求学生能分清实例中出现的常量与变量、自变量与函数,使学生了解函数的意义及三种表示法。

二、紧扣教材,充分运用教材获得函数概念。

1.借助教材编写者精心设计的章头图(第82页)引入教学,体现函数这个重要的数学概念源于实践、寓于实践的哲学观点。

上课伊始,让学生观察章头图。这幅图分上、中、下三部分。通过对上、下四幅画的观察得到某日白天的气温高、风力小;深夜的气温低、风力大,具体生动地说明了时间和气温是两个变量,时间和风力也是两个变量。接着利用学生前节课(平面直角坐标系内容)刚刚获得的认知结构观察中间部分(气温图),发现一天二十四小时内,当时间每取一个值时,气温都有唯一的值与它对应,向学生展示了:在一个问题的研究过程中,往往存在两个变量的运动变化状况,并且它们满足某种函数关系这样一个数学现象(实例)。

2.重点讲解第91页的例子:一辆汽车以30千米/小时的速度行驶,行驶的路程S(千米)与行驶时间t(时)有怎样的关系呢?利用学生已有的认知结构(匀速运动规律:S=Vt),开展学生学习活动。

通过讨论,采用列表的形式,发现在这个问题的研究过程中,速度V是常量,路程S和时间t是两个变量,并且当变量t每取一个值时,就可以相应地得出变量S有唯一的一个值。通过上述两例的知觉水平的分析,辨别不同的刺激模式,舍去事物的特定物质运动的形态,提炼出两个研究对象中共同的关键属性,抽象为数量及关系的研究,就得出了函数的定义,深入浅出地揭示了用语言文字符号表示函数(这一步属于有意义学习的代表学习的范畴)这个数学概念的形成过程,获得了反映现实或者说代表现实的一个抽象概念———函数。

三、同化概念,使函数的意义有效地固定在学生的认知结构中。

在初步获得函数要领的意义后,可通过第92页的圆的面积S(cm2)与半径R(cm)间的关系:S=πR2来理解常量与变量、自变量与函数这些新概念,并进一步综合上面引入函数定义的两例,将函数概念与学生认知结构中的有关观念进一步分化和融合贯通,指出两个变量构成的函数关系有的可以用数学式子(等式)表示,有的可以用列表或图表示,有的三种表示方法兼而有之,达到了同化概念、强化函数关键特征的目的,为以后学习具体函数及其图像奠定了基矗

四、把握好概念的掌握的教学环节。

所谓概念的掌握就是指获得了按一类事物的共同的关键属性进行反应的能力。教师在设计测验来检验学生是否真正获得概念时,有两点是值得注意的:(1)要区分学生是知识的理解还是知识的机械记忆;(2)要区分学生是根据关键特征掌握概念,还是根据无关特征回答有关概念问题。这是一个十分重要的教学环节,要形成学生主动学习的高潮。

1.用提问和板演的形式要求学生完成第92页练习的两题。学生根据常量与变量、自变量与函数的定义,直接从知觉上觉察它们的意义,迅速回答问题。