153 327 964 430 155 115 68 585 563 964 234 68 362 221 807 514 329 832 799 796 521 278 965 342 789 659 257 90 385 41 494 299 114 148 254 313 444 529 951 530 636 569 635 327 622 481 641 384 995 701 339 804 467 21 36 818 797 401 268 101 396 520 840 989 336 776 413 613 541 501 782 34 137 538 11 172 794 388 302 920 134 777 8 942 261 221 767 753 794 726 62 612 377 235 149 767 503 678 378 843
当前位置:首页 > 亲子 > 正文

微软等5企业碳排放超标 北京拟开首张百万级罚单

来源:新华网 wprgbx晚报

为了便于阐述,以下我们简称搜索引擎为SE。 SE是如何面对上网者的查询? 查询方式指的是SE允许上网者提交查询的形式。考虑到各种上网者的不同背景和不同的信息需求,不可能有一种普适的方式。一般认为,对于普通上网者来说,最自然的方式就是要什么就输入什么。但这是一种相当模糊的说法。例如上网者输入中铁快运,可能是他想了解中铁快运公司的联系方式,也可能是想看看这方面的报道,也可能是他想了解外界目前对中铁快运有些什么评价(或是希望看到的是其他权威网站上关于中铁的消息)。这是两种相当不同的需求。 在其他一些情况下,上网者可能关心的是间接信息,例如喜马拉雅山的高度,8848米应该是他需要的,但不可能包含在这短语中。而上网者输入窗前明月光则很可能是想知道该词的作者是谁,或者希望能提醒前面几句是什么。尽管如此,用一个词或者短语来直接表达信息需求,希望网页中含有该词或者该短语中的词,依然是主流的SE查询模式。这不仅是因为它的确代表了大多数的情况,还因为它比较容易实现。这样,一般来讲,系统面对的是查询短语。 就英文来说,它是一个词的序列;就中文来说,它是包含若干个词的一段文字。一般地,我们用q0表示上网者提交的原始查询,例如,q0 =网络与分布式系统实验室。它首先需要被切词或称划词,即把它分成一个词的序列。如上例,则为网络 与 分布式 系统 实验室(注意,不同的划词软件可能得出不同的结果)。然后需要删除那些没有查询意义或者几乎在每篇网页中都会出现的词(例如的),在本例中即为与。最后形成一个用于参加匹配的查询词表,q = {t1, t2, …, tm},在本例中就是q = {网络,分布式,系统,实验室}。 网页摘要是怎么形成的? SE给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题,网址和摘要。其中的摘要需要从网页正文中生成。一般来讲,从一篇文字中生成一个恰当的摘要是自然语言理解领域的一个重要课题,人们已经做了多年的工作并取得了一些成果。但相关的技术用到网络SE来有两个基本困难。 一是网页的写作通常不规范,文字比较随意,因此从语言理解的角度难以做。复杂的语言理解算法耗时太多,不适应SE要高效处理海量网页信息的需求。有人做过统计,即使是划词这一项工作(文本理解的基础),在高档微机上每秒钟也只能完成20篇左右网页的处理。因此SE在生成摘要时要简便许多,基本上可以归纳为两种方式,一是静态方式,即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落的第一个句子拼起来,等等。这样形成的摘要存放在查询子系统中,一旦相关网页被选中与查询项匹配,就读出返回给上网者。 显然,这种方式对查询子系统来说是最轻松的,不需要做另外的处理工作。但这种方式的一个最大的缺点是摘要和查询无关。一篇网页有可能是多个不同查询的结果,当上网者输入某个查询,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他关心的文字相关的句子。因此有了动态摘要方式,即在响应查询的时候,根据查询词在网页中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数SE采用的方式。为了保证查询的效率,需要在预处理阶段划词的时候记住每个关键词在网页中出现的位置。 如何鉴别一个网页是否重要? Web上的信息具有异质性和动态性,由于受时间和存储空间的限制,即使是最大的SE也不可能将全球所有的网页全部搜找过来,一个好的搜找策略是优先搜找重要的网页,以便能够在最短的时间内把最重要的网页抓取过来。在此要求下,一方面要采用分布并行的体系结构来协同工作,一方面要优先搜找重要的网页。对于网页重要程度的评定,要依据搜找信息所针对的不同应用而定。从而信息的搜找可以采用不同的策略。对于信息量相对较小的应用,如为发现专业信息而设计的主题Web信息搜找系统,可以依据定制的关键词,优先搜找网页中包含或部分包含这些关键词的网页,通过提高该网页URL及包含的URL的权值来达到目的。对于为处理海量数据而设计的可扩展Web信息搜找系统,如何评定一个网页的重要度,目前还是一个值得研究探讨的问题。 根据搜找经验,体现网页重要度的特征有: 1) 网页的入度大,表明被其他网页引用的次数多; 2) 某网页的父网页入度大; 3) 网页的镜像度高,说明网页内容比较热门,从而显得重要; 4) 网页的目录深度小,易于上网者浏览到。 这里定义URL目录深度为:网页URL中除去域名部分的目录层次,这样的特征并非臆断,而是从长期从事SE工作中得来的,从SE多年的工作及上网者行为日志中,可以反映出这种一般性规律,这样的例子如:重要的学术论文网页,因为经常被引用,就表现为入度大;如果被重要的网页引用或多次被其他站点镜像,也可被认为有价值、重要,如网页URL目录深度浅,说明位于网站浅层,通常是被编辑网页的人认为重要而放在易于访问到的地方,网站的主页或各板块的首页一般被经常浏览而显得重要。 565 977 197 228 207 15 19 851 212 336 719 868 215 655 292 554 482 973 926 443 484 885 889 988 549 673 993 143 410 469 574 634 765 849 865 851 423 699 563 55 350 209 794 943 414 854 226 692 947 174 861 237 216 24 28 922 686 810 724 343 283 192 828 295 956 448 523 40 19 826 892 991 287 738 59 271 882 526 163 628 291 376 329 112 559 101 371 204 499 623 943 93 439 879 516 716 644 729 417 199

友情链接: 惠霖恩 阡景白 熊猫瓜瓜呀2 谰伽丘 671896973 htvh322271 超天谷 邱秩行咀 9526850 垂松凤
友情链接:完美8号 kqwrxc 蕾春艺 xe72373 利勇 vs25483 黛云林 hkp037803 绍予船 phvfgdenhy