宁波seo优化:其中视频分割是视频处理中最主要的

首页 > 宁波seo优化专栏 >

发布时间：2018-09-22 18:48:50

　　镜头在发生切换时其视频数据将反映出一系列变化。由于一个镜头内的相邻两帧之间的变化不会很大，它们之间的差值总会限定在某一阈值以内，如当前后两帧间的色彩直方图的差值超过了某一阈值，则说明前后两帧不为一个镜头，而是一个镜头突变点。但对于渐变切换，直方图差值虽然有，却不很明显。由于镜头是渐变的，所以相邻的两帧直方图也是逐渐改变的。这种变化在采用摇镜头、推拉镜头时都会有十分相似的结果。如果仍采用单一阈值比较，就识别不出镜头的切换点，或者使识别出的切换点有误。对这种情况，比较好的解决方法是双重比较法。

其中视频分割是视频处理中最主要的一步的图片162

　　所谓双重比较法，是指采用两个阈值。首先用一个较低的阈值来确定出渐变切换序列的潜在的起始帧。一旦确定了这个帧，就用它与后续的帧进行比较，用积累的差值来取代帧间的差值。这个积累差值必须是单调的，应该不断地加大，直至这个单调过程中止。这时，将积累差值与第二个较大的阈值进行比较，如果超过了这个阈值，就可以认为这个积累差值单调增的序列对应的就是一个渐变切换序列。
　　模型驱动方法
　　数据分析方法虽然简单，但在很大程度上忽略了存在于视频中的相关结构的变化。如果阈值定得不淮，就会错过诸如淡人、淡出、渐隐等切换过程。用模型驱动方法进行数字视频分割可较好地解决这个问题。这种方法首先对视频镜头间切换的生成过程进行研究，找到一些可用于分割处理中的约束关系，用这种关系来建立视频切换模型，例如，一个典型的镜头渐变模型可表示为：
　　这样，对于一定的时间6得到所有像素均为常数的常量图CI。为检测渐变，只须检测模型的常量图即可。对于给定的模型，一旦检测到常量图，则即为一个渐变过程。当然，这种方法须对每种切换类型建立模型。建模过程比较复杂，但只要模型建立准确，就能解决数据驱动方法不能解决的问题。
　　为能够对目前大部分压缩视频数据进行检索，采用基于压缩数据（如MPEG）的镜头切换检测方法；基于压缩数据的镜头检测不仅可以节省一些解码时间，还可以充分利用压缩数据中隐含的一些很好的统计结果。例如，对上述模型驱动的方法，可充分利用压缩视频中的DC系数来作为检测的参数。
　　特征提取
　　视频分割成镜头后就要对各个镜头进行特征提取，得到一个尽可能充分反映镜头内窖的特征空间，这个特征空间将作为视频聚类和检索的依据。特征提取包括关键帧中的视觉特征和镜头的运动特征的提取。视觉特征包括颜色、纹理、形状等几个方面。
　　视觉特征提取
　　视觉特征的提取主要针对关键帧，可以采用通常的图像特征提取方法，如提取颜色特征、纹理特征、形状和边缘特征等，这是基于内容的图像检索重要内容。
　　颜色特征
　　颜色是图像最显著的特征，与其他特征相比，颜色特征计算简单、性质稳定，对于旋转、平移、尺度变化都不敏感，表现出很强的健壮性。颜色特征包括颜色直方图、主要颜色、平均亮度等。在计算颜色直方图之前一般需要把RBG颜色空间转换为视觉上一致空间HSV,然后量化为m个颜色条，颜色集就定义为量化后的颜色空间中颜色的一种选择。由于颜色集特征向量是二叉的，因而可以通过构造二叉树来进行快速的搜索。
　　纹理特征
　　纹理分析一直是计算机视觉的一个重要研究方向，其方法可以大致分为统计方法和结构方法。统计方法是对图像的颜色强度的空间分布信息进行统计，又可进一步分为传统的基于模型的统计方法和基于频谱分析的方法，如马尔可夫随机场模型、傅里叶频谱特性等。结构方法首先假定纹理模式由纹理单元按照一定规则排列组成，因此纹理分析就变为确定这些单元、定量分析它们的空间排列。
　　形状特征
　　形状分析首先要把对象从背景中分割出来，再使用圆形度、矩形度、矩等各种方法进行形状的相似性比较。形状特征表示的一个重要准则是要求对位移、旋转、缩放的不变性，通常形状的表示可以分为基于边界和基于区域两类。基于边界的形状特征用较少的参数可以包含复杂的边界，如傅里叶描述。先在边界上任选定一个初始点，沿边界移动，得到一个复函数，由它便可以求得傅里叶描述。基于区域的形状特征常用矩不变量来描述。另外新的研究方向有弹性变形模板和边界方向直方图。
　　由于形状的相似性比较仍是一个很困难的问题，因而目前在视频处理领域使用得较少。
　　运动特征
　　视频除了具有一般静态图像的特征外，更具有动态特征，它反映了视频的时域变化，也往往是视频检索的重要内容。运动分析的方法有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等，但这些方法计算量较大。于是，有人提出了”视频X光“的图像分析方法来检测运动，将一个镜头的视频序列看成一个整体，对其沿时间轴进行切片，得到切片图像和3^切片图像，从切片图像中发现镜头的运动轨迹并且分析视频中某一对象的运动。

其中视频分割是视频处理中最主要的一步的图片157

　　视频聚类
　　视频聚类是研究视频流中镜头之间的关系，也就是把内容相近的镜头重新组合在一起，用以描述视频中有意义的事件，或者说是为了缩小检索的范围，提高检索的效率。
　　视频聚类的分类
　　根据聚类目的的不同，视频聚类可分为两类：一类是把同属一个场景的镜头进行聚类，以形成层次型的视频结构-一场景和电影。这种聚类不但要考虑镜头内審上的相似性，还要考虑其时间上的连续性，也就是说，虽然两个镜头内容很接近（特征向量之间的距离很小），但如果它们在时间上相距甚远，就不能认为它们属于同一个场景。把镜头聚类为故事单元后，镜头数量大幅度的减少。另一类聚类即对视频进行分类。它只考虑特征相似性，而不考虑时间连续性。根据镜头的重复程度，视频一般可分为对话型、动作型和其他类型。对话型视频是指一段实际的对话或者像对话一样由两个或多个镜头重复交替出现的视频。动作型视频则反映故事的展开，镜头不是固定在一个地点或跟随一个事件，因而很少发生镜头的蓴复。通过视频聚类缩小检索的范围，提高检索的效率。
　　K均值聚类算法
　　假设由镜头关键帧形成的图像库有L幅图像，K均值算法的基本原理是在对关键帧图像库处理后，库中所有图像帧根据与聚类中心距离的远近程度，形成K个互不相交的类，较为相似的帧聚在同一类中。
　　在进行检索时，先对示例视频段提取关键帧，将它与各个聚类中心进行相似度匹配，找到与示例关键帧距离最近的聚类中心，然后在该聚类中将示例关键帧与类中各图像进行匹配，根据相似度要求返回查询结果。
　　其中聚类中心是指该聚类的几何平均值。K均值算法将关键帧图像集合分割成K个聚类并使得每个聚类中所有值与该聚类中心的距离总和最小，可描述如下。
　　假设待聚类数据为…，心｝（其中，々，…，圮，j=l，…，N），则K均值聚类问题就是要找到X的一个划分沁=，…，CU，使目i示函数k
　　f=l
　　其中，‘
　　表示第z’个类的中心位置，z=l，…，々，nt是类C,中数据项的个数，dO;，7W,）表示到的距离。而K均值聚类算法的具体工作流程如下所述。
　　随机选取K个初始聚类中心ki，Q，…，G｝（其中，G=，C;2，…，——｝）、给定聚类最大迭代次数八给定迭代结束的最大收敛系数T。
　　根据欧氏距离公式，计算每个数据到各类的距离，并将各数据划分到具有最小距离的类中。其中，距离计算公式为d｛。Xi——mh）21，…，N;j=1，…，
　　这里，6/（^，％）表示第￡个矢量数据到第_;个聚类的距离。

其中视频分割是视频处理中最主要的一步的图片160

　　重新计算K个聚类的中心值，/n2，…，znj，计算公式为mjt=—2=｛^7,，mj2，…，mJd｝，l=］_，？？？,￡/其中，％为第j个聚类的聚类中心。
　　检验聚类操作是否应该结束。若选代次数等于I，则结束聚类，否则计算该次迭代的各个聚类收敛距离，若每个类的收敛距离都小于给定参数T，则结束；否则，转向步骤，继续选代。收敛距离的计算公式为、⑴=72［讯）‘⑴_%（々一I）］2
　　式中，y=i，…4;z=i，…，山々为当前迭代次数。
　　综上所述，K均值算法的求解过程是一个两阶段反复迭代过程。第一阶段指定聚类阶段，即指定某个实例到某个聚类，使得它与该聚类中心的距离比它与其他中心的聚类中心的距离要近；第二阶段是修改聚类中心阶段。K均值算法能有效处理大量数据，选代速度快，大大缩短了用户的查询等待时间。
　　视频检索
　　视频从其结构、数据量等方面与图像相比都有其自身的特点，所以对视频的检索除了借助*一些对图像检索的技术外，还有不少新的技术。目前，基于内容的视频检索主要围绕不同层次上的视频结构单元及其特征而展开。例如，基于关键帧的检索、基于视频运动特征的检索、基于场景及视频语义特征的浏览与检索等。
　　基于关键帧的检索
　　关键帧实际上是代表视频序列内容的一些静态图像，从每幅帧图像中，可得到诸如颜色、纹理、形状、空间关系等特征信息。因此，基于关键帧的检索与图像检索并没有本质上的区别。
　　当视频被抽象为关键帧以后，搜索就变成了按照某种相似度来检索数据库中与査询描述相似的关键帧。通常使用的查询方法是通过目标特征说明的直接査询和通过可视实例的示例查询。检索时，用户也可以指定使用特定的特征集。如果检索到关键帧，用户就可以通过播放来观看它所代表的视频片断。
　　而且浏览也可以跟随检索，作为检验检索到的关键帧的上下文边界联系；浏览还可以初始化查询，即当浏览时，用户可以选择一个图像来查询所有与该图像相似的关键帧。

其中视频分割是视频处理中最主要的一步的图片164

　　基于关键帧检索主要有如下比较常见的形式。
　　①基于镜头（或场景）关键帧的检索。即检索出所有与用户查询相似的视频镜头（或场景），匹配过程是用户提交的关键帧与库中的镜头（或场景）关键帧集合进行比较，选取合适的相似度函数进行计算。
　　②基于对象（或区域）的检索。这里的对象（或区域）是指关键帧中包含的静态对象（或区域），以它们作为查询要求，检索出包含这些对象（或区域）的视频镜头或场景。
　　基于运动特征的检索
　　这是基于镜头和视频对象的时间特征进行的检索，是视频查询的进一步要求。可以利用摄像机操作的表示来査询镜头，可以利用运动方向和幅度特征来检索运动的主体目标。在查询中还可以把运动特征和关键帧特征结合起来，检索出具有相似的动态特征但静态特征不同的镜头P按照视频中运动信息的类型不同，运动特征视频检索可以分为基于全局运动特征的检索和基于局部运动特征的检索。
　　全局运动主要由摄像机运动产生，因此，基于全局运动特征的检索可以用来检索具有相似摄像机运动的视频内容。相对于全局运动信息，局部运动信息通常是人们观看视频时更为关心的内容。例如，在体育比赛节目中，运动员的移动、姿势以及运动情况也都是节目的重点。因此，对于视频运动信息来说，基于局部运动特征的检索更为重要。
　　不论是基于哪种运动信息进行视频检索，它们的检索实现都遵循以下步骤：
　　①提取运动特征，首先可利用短时运动分析提取瞬时运动特征；②浓缩运动特征，即把直接从视频中提取的瞬时运动特征进行浓缩，以便于快速索引；③扩展运动特征，将短时运动特征按照时间顺序进行结合，使得到的特征可以检索较长持续时间的运动；④计算特征相似度。
　　浏览
　　对于视频来说，浏览与有明确目的的检索同样重要。视频浏览一般采用分层结构和集束分类技术。分层浏览提供对视频任何点的随机存取，显示空间以镜头的代表帧表示，从而提供长视频内容的快速浏览和存取。为了支持基于分类的浏览，需要使用集束算法，一般采用分层的集束算法。用关键帧和镜头特征対镜头进行集束分类，每一类由相似内容的一组镜头组成。集束分类后，每类镜头用一个图标表示，显示在分层浏览器的髙层上。这样，用户就可以大致知道每个镜头的内容，而不需要进人下一个层次。
　　基于视频语义特征的检索
　　语义是人们能够从图像或视频中所得到的信息，它包括视频中存在的重要物体和它们之间的时间和空间关系，以及其背后所隐含的内容。语义除可以描述客观事物外，还可以描述主观感受以及更抽象的概念。
　　如何描述图像内容，使其尽可能与人对图像内容的理解一致，是图像检索的关键所在，也是难点所在。从人的认知角度看，人対图像的描述和理解主要是在语义层次进行的。目前对图像语义的提取主要包括3个步骤：提取特征、目标识别、基于领域知识的推理。人们正在研究的语义提取还包括：①对目标类别和目标空间关系语义的提取；②对场景和行为语义的提取；③对情感语义的提取。
　　由于完全自动地提取视频中的语义特征还有很大的难度，目前，基于视频语义特征的检索研究还比较薄弱。
　　不足之处
　　基于运动和浏览的检索方法所存在的不足之处是：浏览的方法效率较低，只适合于小规模的视频数据库或作为辅助检索人口，而基于运动特征的检索目前仍有许多关键问题没有解决。例如占据屏幕大部分空间的较大物体的运动与镜头的运动难以区分，显露的被遮挡背景与运动对象难以区别，特别是在光照条件发生变化时，大多数的运动分析方法都会失效。
　　目前理论和实践上都比较可行的一种视频检索方法就是基于关键帧的检索方法。它的基本思想是将原始的视频流分割成长短不一的镜头单元，对每个镜头提取关键帧或代表帧，并对这些帧进行索引，运用图像检索技术对关键帧进行检索，最后系统提供的结果是一系列镜头帧图像或在线播放可下载视频。它检索的基本思想就决定了其检索的速度和效果都具有明显的优势。
　　基于内容的检索技术是以视频本身为分析对象来提取特征，具有客观性，但它忽略了能被人主观感知的髙层语义信息。虽然它是一种综合性的集成技术，其一些关键技术如镜头边界检测、关键帧提取、特征提取等的研究虽然取得了一定的进展，但由于各种理论和相关技术还不是很完善。因此，还有许多问题需要进一步深人研究。未来研究的主要问题将集中在综合的多特征检索技术（综合利用两种和多种媒体的特征、综合利用其他学科的成果）、髙层语义和低层特征的关联、视频数据髙级语义的提取、多维索引技术以及直接对压缩视频数据进行处理的方法，还有寻找快速的搜索算法等几个方面。
　　基于内容的多媒体检索原理与特点
　　多媒体内容的处理分为3大部分：内容获取、内容描述和内容操纵。基于内窖的检索是根据媒体对象的语义和上下文联系进行检索，有如下特点：
　　从媒体肉容中提取信息线索，直接对媒体进行分析，抽取特征；提取特征方法多样性；
　　人机交互进行；

其中视频分割是视频处理中最主要的一步的图片158

　　基于内窖的检索采用一种近似匹配技术。
　　多媒体数据管理要综合类型各异的多媒体数据；与传统的数据库相比，多媒体数据库的新特性为：
　　媒体数据的数据量大，媒体之间的差异也极大，从而影响数据库的组织和存储方法；媒体种类的增多，增加了数据处理的难度；用户接口的支持；

其中视频分割是视频处理中最主要的一步的图片166

　　事务处理的不同；
　　版本控制。
　　基于内容的多媒体检索引擎结构，在体系结构上划分为两个子系统：特征抽取子系统和查询子系统。
　　实现基于内容的检索系统主要有两种途径，一是基于传统的数据库检索方法， 宁波seo优化即采用人工方法将多媒体信息内容表达为属性（关键词）的集合，再在传统的数据库管理系统框架内处理。二是基于信号处理理论，即采用特征抽取和模式识别的方法来克服基于数据库方法的局限性，但全自动地抽取特征和识别时间对机器的时间开销太大，并且过度依赖于领域知识，识别的难度大。
　　基于内容的音频检索
　　基于内窖的音频检索系统首先对音频数据进行特征提取，将音频数据装人原始音频库部分，将特征装人特征库部分，通过特征对音频数据聚类，将聚类信息装人聚类参数库部分。用户主要采用示例查询方式进行检索，通过查询界面确定样本并设定属性值，系统接受查询后，对样本提取特征，结合属性值确定查询特征矢量，而后检索引擎对特征矢量与聚类参数集匹配，按相关性从大到小的顺序在特征库和原始音频库中检出一定数量的相应数据，并通过查询接口返回给用户。
　　基于内容的音频检索技术的主要特点如下：
　　从媒体内容中提取信息线索；
　　近似的检索；
　　实现多媒体数据库的快速检索；
　　满足用户多层次的检索要求；

其中视频分割是视频处理中最主要的一步的图片163

　　具有很强的交互性。
　　朞于内容的音频信息检索一般包括4个歩骤：特征提取、音频分割、识别分类以及索引检索。i于内容的音频检索系统中，用户可采用6种形式提交査询请求：示例、直喻、拟声、语义、浏览、文本。
　　语音识别技木是音频处理的重点研究领域。対于基于内容的音频信息检索，则首先应提取数据的音频特征，而后对音频特征进行匹配，从而进行音频数据的分类和检索。
　　语音检索是以语音为中心的检索，利用语音识别与处理技术来检索音频信息。
　　音乐检索是以音乐为中心的检索，利用音乐的音符和旋律等音乐特性来检索。
　　音频检索是以波形声音为对象的检索，利用语音识别与处理技术来检索声音信息。
　　基于内容的图像检索
　　基于内容的图像检索CBIR技术主要的思想是根据图像所包含的色彩、纹理、形状以及对象的空间关系等信息，提取出特征向量，并建立图像的特征库。检索时主要是根据图像的多维特征进行相似性査询。
　　颜色特征是图像检索中所使用的最直观的视觉特征，是彩色图像最显著的特征，它对图像本身的尺寸、方向、视角的依赖性较小，具有较高的稳健性。因此基于颜色的图像检索技术是基于内窖的图像检索技术最常用最基本的方法。
　　基于颜色特征的检索就是让系统检索出与用户表达的颜色要求相同或相似的所有图像或者图像中的对象。为了实现基于颜色的图像捡索，需要研究3个主要问题：颜色模型或颜色空间、颜色特征的分析与表达、颜色特征的匹配。
　　纹理是图像的重要信息和特征，是一种全局特征，它描述了图像或图像区域所对应的景物的表面性质，包括表面结构组织及其与周围环境关系的许多重要信息。

其中视频分割是视频处理中最主要的一步的图片167

　　纹理特征是一种统计特征，有旋转不变性和较强的抗噪声能力，纹理特征可用来对图像中的空间信息进行一定程度的定量描述。在捡索粗细、疏密等方面有较大差别的纹理图像时，利用纹理特征进行检索是一种有效的方法。目前纹理分析的方法基本可以分为统计分析法、结构分析法、模型分析法和频谱分析法4类。
　　形状特征是图像目标的一个显著特征。但由于物体形状的自动获取有一定难度，基于形状的检索一般仅限于非常容易识别的物体。形状可用面积、离心率、圆形度、形状矩、曲率、分形维等全局和局部特征来表示。利用形状来检索可提髙检索的准确性和效率。
　　基于形状特征的检索依赖于对形状的表达和描述。基于形状的检索技术主要有以下4类不同的研究思路：基于特征的方法、基于变换区域的方法、基于变形的方法和草图方法。
　　物体的空间位置和物体间的空间关系表达了图像内部各部分之间的联系，在图像中含有较多独立的部分或者是检索结果强调这些部分的位置关系时，基于空间关系的检索是比较适合用户的査询需要的。
　　要根据空间关系进行图像查询和检索，首先要表达空间和关系。空间关系的表达可分为两种：①基于目标的表达；②基于关系的表达。另外，要根据空间关系进行图像查询和检索，还要解决如何对空间关系进行度量的问题。基于空间关系的检索不仅要解决数学上的建模、描述、搜索算法等问题，还要考虑到空间关系特征所具有的模糊性和不确定性，以及对自然语言描述的依赖性。
　　使用多特征的综合检索方法时可以在颜色、纹理、形状等几种査询特征中，选择两种或两种以上进行综合查询，提高了检索的准确率。对多特征结合查询，除特征选择外，合理设置各个特征的权重是一个关键。目前许多图像检索系统都可以提供多特征检索功能，并可以自动计算配合度，以提髙系统检索效率。
　　基于内容的视频检索
　　基于内容的视频检索技术是要弥补传统人工标注方法的不足，通过提取视频数据中的各种视觉特征，例如颜色、纹理、形状、运动等来建立视频内容索引，以满足用户基于视觉、运动和语义属性等方面的査询要求。

其中视频分割是视频处理中最主要的一步的图片156

　　有如下几个基本概念。
　　①帧视频可以看做是一个连续静态图像的序列，其中的每一幅静态图像称为一帧。
　　②镜头是指由摄像机记录下来的一段连续的帧序列，它是一段视频的物理组成单元。
　　③关键帧是指一幅能描述镜头主要内容的帧。
　　④场景由一些语义相关的镜头组成，这些镜头不一定在时间上连续。
　　⑤视频数据是在时间上连续的一系列图像帧的集合，是一种没有结构的图像流、⑥视频结构分析是将语义相关的镜头组合、聚，的过程。
　　基于内容的视频检索研究，除了识别和描述图像的颜色、纹理、形状和空间关系外，主要的研究集中在视频分割、特征提取和描述（包括视觉特征、颜色、纹理和形状及运动信息和对象信息等）、关键帧提取和结构分析等方面。
　　基于内容的检索中对视频的处理主要包括视频分割、代表帧的抽取及视频特征的提取等。其中视频分割是视频处理中最主要的一步，视频分割即将视频数据分割为一个个镜头的过程，视频分割主要有两种方法：数据驱动方法和模型驱动方法。
　　视频分割成镜头后就要对各个镜头进行特征提取，得到一个尽可能充分反映镜头内容的特征空间，这个特征空间将作为视频聚类和检索的依据。特征提取包括关键帧中的视觉特征和镜头的运动特征的提取。视觉特征包括颜色、纹理、形状等几个方面。

其中视频分割是视频处理中最主要的一步的图片155

　　视频聚类是研究视频流中镜头之间的关系，也就是把内審相近的镜头重新组合在一起，用以描述视频中有意义的事件，有的是为了缩小检索的范围，提髙检索的效率。
　　基于内容的视频检索主要围绕不同层次上的视频结构单元及其特征而展开。例如，基于关键帧的检索、基于视频运动特征的检索、基于场景及视频语义特征的浏览与检索等。
　　思考凝
　　基于内容的多媒体信息检索的基本思想是什么？

其中视频分割是视频处理中最主要的一步的图片161

　　简述基于内窖的数据检索系统的检索过程。
　　在基于内容的音频检索系统中，查询方式有哪些？
　　图像信息基于内容检索的主要类型有哪些？
　　视频信息基于内容检索的主要类型有哪些？
　　画出CIBR系统基本结构图，并简述工作过程。
　　浏览一个比较成熟的图像检索系统，分别选择”Images“方式和”Video“方式，并用关键词”CAR“进行査询，记录下查询的结果。

其中视频分割是视频处理中最主要的一步的图片154

　　在基于运动信息的视频检索中，应该遵循哪些步骤？
　　查阅基于内容的图像检索的论文，写一篇有关基于内容的图像检索的综述文章。
　　査阅基于内容的视频检索的论文，写一篇有关基于内容的视频检索的综述文章。
　　搜索引擎开发技术
　　本章以构建北京林业大学校内网络的搜索引擎为例，着重讲解构建一个简单的网络搜索引擎的具体步骤和过程。本实例仅实现了一个简单的搜索引擎所具备的基本功能，对于比较复杂的问题，如分布式、重要程度计算等大型搜索引擎要考虑的问题没有在本实例中体现。有兴趣的读者可以根据书中所讲述的内容构建一个自己的搜索引擎，还可以参阅参考文献中所列举的书目对构建好的搜索引擎进行改进。
　　实例筒介
　　本实例要构建一个北京林业大学校内网络的搜索引擎。搜索引擎的主页面如图9-1所示。
　　图9-1简单搜索引擎的主页面
　　用户登录到这个搭建好的网站上，输入所期望获取的信息的关键字之后，搜索引擎会返回给用户一系列包含用户所输人的关键字的网页地址、网页标题以及摘要。例如，输人”两院院士“这两个关键词后，显示结果如图9-2所示。用户可以从显示页面中选中一个标题，双击此标题就能浏览所选定网页的内容。
　　搜索引擎的体系结构
　　一个完整的搜索引擎主要包含3个部分：网页搜集、网页预处理和提供査询服务。3个部分之间的关系是相互独立又紧密连接。相互独立是因为3个部分应该具有独立工作的能力，互不影响，任何一部分出现异常而停止，另外的部分应当正常运行，尽量降低因异常造成的影响；紧密连接是因为网页预处理和查询服务都需要前一部分提供相应的结果。这两点本身并不矛盾。图9-3为本搜索引擎的体系结构图。
　　图9-3搜索引擎的体系结构图以下简要介绍各个部分的实现途径。
　　网页搜集
　　作为网页搜集的重要组成部分——爬虫（也叫“蜘蛛”或“蜘蛛程序”），本实例采用了开源软件Heritrix。选择Heritrix的原因有两点：
　　Heritrix是由Java语言编写，而本实例的其他部分也都采用了Java语言编写，因此采用Heritrix方便功能的实现；Heritrix是一款开源的爬虫，并且扩展性很好，可以方便地修改源代码以适应我们的需求。
　　由于本实例是北京林业大学校内网的搜索引擎，所以也就限定了搜索范围应当是北京林业大学校内网的网页，而这一类的网页有一个共同特征，即地址中都包含字符串“bjfu”，因此，我们需要修改Heritrix的抓取类，以实现过滤掉不包含“bjfu”的地址。本实例采用的Heritrix版本是1.10.1。
　　网页预处理
　　网页预处理是在网页搜集完成之后进行。在得到海量的原始网页集合后，述无法直接利用这些原始网页来提供搜索服务。因为这些原始网页中，包含了大量的HTML标记，事实上，这些标记的数据量远大于网页内容的数据量，网页预处理就是要过滤掉这些HTML标记，提取出其中有用的内容。其次，由于网页上的内容的多样性，有些网页的内容也比较随意，或者包含大量的广告，这些信息需要在网页预处理阶段进行处理。此外，网页预处理阶段还要对网页的重要度进行计算，以确保查询服务能够将“更重要”
　　的网页最先返回给用户。
　　本实例作为一个简单的介绍性应用，只是过滤掉网页中的HTML标记和提取超链接中的重要信息，对于重复或转载网页的消除、广告的过滤以及网页重要度的计算都没有实现，有兴趣的读者可以自行研究。

其中视频分割是视频处理中最主要的一步的图片168

　　网页预处理流程图如图9-4所示。
　　本卖例中，需要为网页处理程序指定一个用于存图9_4网页预处理流程图放处理好的网页的位置，可以使用数据库，也可以直接使用文件系统，本实例并指定c:javaworkspacePreprocessfiles为保存处理好的网页的存储库，利用数据库来保存处理好的网页所对应的原始网页的URL。
　　网页预处理程序会首先从原始网页库中依次提取网页，由于原始网页的保存路径即为原始网页的网络地址？，网贞预处理程序会先提取网页的本地存储路径，并将本地存储路径转换成网页的实际网络地址，即URL。之后，在存储库中创建一个文本文件，将URL和其对应的文本文件的文件名写人到数据库中。其次，网页处理程序会提取原始网页的标题，并将标题保存在文本文件的第一行。对于多数网页，标题能够很大程度上反映网页的主要内①注：这是由于Heritrix所采用的保存网页的策略是根据网页的地址创建路径来保存网页。例如http://www.bjfu.edu.cn/index.jspDHeritrix会先：去掉协议头“http://”，然后创建文件喪“www.bjfu.edu.cn”，最后将index,jsp保存在孩文件夹下。
　　容，在提供搜索服务时，需要将网页标题返回给用户，因此，本实例将网页标题单独保存。接下来，过滤原始网页中的HTML标记，提取其中的内容部分并保存在文本文件中。但并不是所有的HTML标记都要过滤掉，超链接标记＜a〉＜/a〉中就包含了对超链接内容的说明，因此，在过滤提取的时候，要将这一部分的内容也提取出来保存。、在处理的过程当中，应避免文件名重复，这个可以根据数据库中的记录号来命名文件，这样方便日后可以根据文件名提取数据库中相应的记录，进而获得其URL。
　　当所有的原始网页都处理好后，网页预处理程序就要为处理结果建立索引，本实例为索引文件建立了一个库，c:javaworkspacePreprocessindexes，用来保存全部的索引文件。
　　本实例的索引构建工具采用了Lucene2.0,读者可在http：//lucene.apache,org萩得最新版本的Luceneo索引建立流程图如图9-5所示。
　　图9-5索引建立流程图

其中视频分割是视频处理中最主要的一步的图片159

　　查询服务
　　查询服务要提供一个Web界面，供用户输人查询的关键字。当用户单击“查询”按钮时，要将用户输人的关键字提交给服务器，这时，服务器还不能急于根据关键字査询。首先服务器要将用户提交的关键字进行处理，这里主要是将用户输人的全角字符转换为半角字符，不合法的字符要删除；其次还要对用户的输人进行分词，猜测用户的真实意图？，最后才要将这些处理过的信息送去查询模块，进行查询，然后将査询结果返回给用户。在这里，返回的结果要分页显示。这主要是由于大多数人的査询目标是“我到就可以”，而不是“找到全部”。经验表明，当人们在使用百度或Google这样的大型搜索引擎的时候，通常只会査看前几页的查询结果，因此将全部的査询结果返回给用户实际上造成了一种资源的浪费，因此，本实例采取分页显示每页显示10个査询结果。本实例采用的Web服务器为Tomcat5.5.23。査询服务的流程图如图9-6所示。
　　图9-6査询服务流程图
　　级蟯格遗与紀置

其中视频分割是视频处理中最主要的一步的图片165

　　为了构建一个简单的搜索引擎，在本实例中采用的开发语言为Java，其中用到的爬虫、索引工具和开发工具等及其下载地址如下。
　　JDK1.6
　　下载地址为：http://java.sun.com/。JDKCJavaDevelopmentKit）包括Java开发包和Java开发工具，是一个写Java的applet和应用程序的程序开发环境。它由一个处于操作系统层之上的运行环境还有开发者编译，调试和运行用Java语言写的applet和应用程序所需的工具组成。
　　Eclipse3.3withJ2EE
　　下载地址为：http：//www.eclipse,org/。Eclipse是一种可扩展的幵放源代码IDE。2001年11月，迅1^公司捐出价值4000万美元的源代码组建了Eclipse联盟，并由该联盟负责这种工具的后续开发。集成开发环境经常将其应用范围限定在“开发、构建和调试”的周期之中。为了帮助集成开发环境克服目前的局限性，业界厂商合作创建了Eclipse平台。Eclipse允许在同一IDE中集成来自不同供应商的工具，并窠现了工具之间的互操作性，从而显著改变了项目工作流程，使开发者可以专注在实际的嵌人式目極上。
　　Tomcat5.5.23
　　下载地址为：http://tomcat,apache,org/。Tomcat服务器是一个免费的开放源代，码的Web应用服务器，它是Apache软件基金会的Jakarta项目中的一个核心项目，由ApaChe、Sun和其他一些公司及个人共同开发而成。由于有了Sun的参与和支持，最新的Servlet和JSP规范；总是能在Tomcat中得到体现，Tomcat5支持最新的Servlet2.4和JSP2.0规范。因为Tomcat技术先进、性能稳定，而且免费，因而深受Java爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web应用服务器。
　　Heritrix1.10.1.
　　下载地址为：http://crawler,archive,org/。Heritrix是一个开源、可扩展的Web爬虫项目。Heritrix设计成严格按照robots,txt文件的排除指示和METArobots标签。
　　Lucene2.0
　　下载地址为：http：//lucene.apache,org/。Lucene是Apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便地在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。
　　本文转载自
　　宁波seo优化www.leseo.net
　　补充词条：宁波seo外包宁波谷歌优化宁波网站排名优化宁波网站seo优化宁波seo排名

乐华观点

上一篇： 宁波seo优化:信息检索系统的有效性是针对检索系

下一篇： 宁波seo优化:其主要任务是保证单个媒体流间的简