Microsoft® Internet Information 服务 (IIS) 4.0 和索引服务 2.0 版(都包含在 Microsoft® Windows NT® 4.0 Option Pack 中)相结合,提供对文件数据的属性筛选和检索以及全文索引和检索。支持对文件数据进行文本查询比支持对数据库数据进行文本查询更有优势,这是因为在 Microsoft SQL Server™ 中,对后者的查询被限制为在基于字符的列上进行查询。这些文件内容检索能力独立于 SQL Server,而且支持 ADO(ActiveX® 数据对象)内基于 SQL 的查询。ADO 查询中使用的 SQL 与此处解释的 SQL 扩充一致。
索引服务提供用于几种流行文件格式(如 Microsoft Word、Microsoft PowerPoint®、Microsoft Excel 和 HTML)的筛选。筛选还可用于纯文本。用户和第三方供应商也可以编写用于其它格式的筛选。筛选的一个目的是对非纯文本文档提供支持。另一个目的是从文件内容获取属性值,以及获取关于文件的属性值。假定每个文件都是一个文档,属性包括每个文档的标题,每个 PowerPoint 文档中有注释的页数,每个文档的段落数,每个文档最后被访问的日期和时间,以及每个文件的物理路径。有关属性列表,请参见使用文件属性进行文件内容检索。有关属性的完整列表,请参见索引服务文档。
文件系统检索的全文索引是通过扫描文件的内容创建的。该过程包括跟踪所使用的重要单词及其所在的位置。例如,全文索引可以指示在给定文件的第 227、473、1017 个单词处找到了单词 Canada。此索引结构支持对包含索引单词的所有项进行高效检索,以及进行高级检索操作,如短语检索和邻近检索。短语检索的一个例子是查找"white elephant",其中的 white 在 elephant 前面。邻近检索的一个例子是查找其中的 big 出现在 house 附近的短语。为了防止全文索引因包含很多对检索没有帮助的词而变得臃肿,干扰词(如 a、and 和 the)都被忽略不计。
已经提供了许多语言的干扰词列表,而且所支持的语言集也在增长。在筛选过程中,选择哪个干扰词列表取决于资料的语言,而该资料依赖于文件格式:有些文件按部分(例如,按段落)进行语言设置,而有些作为文档的属性指定语言设置。对于大多数标准操作,这些干扰词列表应该足够了,但是也可以用文本编辑器进行修改,以用于特定的环境。有关更多信息,请参见 Windows NT 4.0 Option Pack 中的索引服务 2.0 文档。
索引服务在文本检索目录中存储索引和属性值。默认情况下,在安装索引服务时会创建名称为 Web 的文本检索目录。一个给定的文本检索目录引用一个或多个 IIS 虚拟目录(也称为虚拟根目录)。一个虚拟目录引用一个或多个物理目录,以及(可选的)其它虚拟目录。在真正的文件通过虚拟目录链接到文本目录之后,将会通知索引服务必须对哪些新文件进行索引,索引服务于是开始对与这些文件相关的属性和内容进行筛选和索引。以后如对这些文件进行任何更改,都会通知索引服务,索引服务会对更新的文件重新筛选并重新建立索引。