数据库实验心得

2022-12-18 23:54:02 来源：心得体会范文作者：倩倩阅读量：下载此文档

　　我在sql server 索引基础知识系列中,第一篇就讲了记录数据的基本格式。那里主要讲解的是，数据库的最小读存单元：数据页。一个数据页是8k大小。

　　对于数据库来说，它不会每次有一个数据页变化后，就存到硬盘。而是变化达到一定数量级后才会作这个操作。这时候，数据库并不是以数据页来作为操作单元，而是以64k的数据（8个数据页，一个区）作为操作单元。

　　区是管理空间的基本单位。一个区是八个物理上连续的页（即 64 kb）。这意味着 sql server 数据库中每 mb 有 16 个区。

　　为了使空间分配更有效，sql server 不会将所有区分配给包含少量数据的表。sql server 有两种类型的区：

　　统一区，由单个对象所有。区中的所有 8 页只能由所属对象使用。

　　混合区，最多可由八个对象共享。区中八页的每页可由不同的对象所有。

　　通常从混合区向新表或索引分配页。当表或索引增长到 8 页时，将变成使用统一区进行后续分配。如果对现有表创建索引，并且该表包含的行足以在索引中生成 8 页，则对该索引的所有分配都使用统一区进行。

　　为何会这样呢？

　　其实很简单：

　　读或写 8kb 的时间与读或写 64 kb的时间几乎相同。

　　在 8 kb 到 64 kb 范围之内，单个磁盘 i/o 传输操作所花的时间主要是磁盘取数臂和读/写磁头运动的时间。

　　因此，从数学上来讲，当需要传输 64 kb 以上的 sql 数据时，

　　尽可能地执行 64 kb 磁盘传输是有益的，即分成数个64k的操作。

　　因为 64 kb 传输基本上与 8 kb 传输一样快，而每次传输的 sql server 数据是 8 kb 传输的 8 倍。

　　我们通过一个实例来看有and 操作符时候的最常见的一种情况。我们有下面一个表，

　　create table [dbo].[member]( [member_no] [dbo].[numeric_id] identity(1,1) not null, [lastname] [dbo].[shortstring] not null, [firstname] [dbo].[shortstring] not null, [middleinitial] [dbo].[letter] null, [street] [dbo].[shortstring] not null, [city] [dbo].[shortstring] not null, [state_prov] [dbo].[statecode] not null, [country] [dbo].[countrycode] not null, [mail_code] [dbo].[mailcode] not null, [phone_no] [dbo].[phonenumber] null, [photograph] [image] null, [issue_dt] [datetime] not null default (getdate()), [expr_dt] [datetime] not null default (dateadd(year,1,getdate())), [region_no] [dbo].[numeric_id] not null, [corp_no] [dbo].[numeric_id] null, [prev_balance] [money] null default (0), [curr_balance] [money] null default (0), [member_code] [dbo].[status_code] not null default (' '))

　　这个表具备下面的四个索引：

　　索引名细节索引的列

　　member_corporation_link nonclustered located on primary corp_no

　　member_ident clustered, unique, primary key located on primary member_no

　　member_region_link nonclustered located on primary region_no

　　memberfirstname nonclustered located on primary firstname

　　当我们执行下面的sql查询时候，

　　select m.member_no, m.firstname, m.region_nofrom dbo.member as mwhere m.firstname like 'k%' and m.region_no > 6 and m.member_no < 5000go123

　　sql server 会根据索引方式，优化成下面方式来执行。

　　select a.member_no,a.firstname,b.region_nofrom(select m.member_no, m.firstname from dbo.member as m where m.firstname like 'k%' and m.member_no < 5000) a , -- 这个查询可以直接使用 memberfirstname 非聚集索引，而且这个非聚集索引覆盖了所有查询列-- 实际执行时，只需要逻辑读取 3 次

　　(select m.member_no, m.region_no from dbo.member as mwhere m.region_no > 6) b

　　-- 这个查询可以直接使用 member_region_link 非聚集索引，而且这个非聚集索引覆盖了所有查询列-- 实际执行时，只需要逻辑读取 10 次

　　where a.member_no = b.member_no

　　不信，你可以看这两个sql 的执行计划，以及逻辑读信息，都是一样的。

　　其实上面的sql，如果优化成下面的方式，实际的逻辑读消耗也是一样的。为何sql server 不会优化成下面的方式。是因为 and 操作符优化的另外一个原则。

　　1/26 的数据和 1/6 的数据找交集的速度要比 1/52 的数据和 1/3 的数据找交集速度要慢。

　　select a.member_no,a.firstname,b.region_nofrom(select m.member_no, m.firstname from dbo.member as mwhere m.firstname like 'k%' -- 1/26 数据) a,

　　(select m.member_no, m.region_no from dbo.member as mwhere m.region_no > 6 and m.member_no < 5000-- 1/3 * 1/ 2 数据) bwhere a.member_no = b.member_no

　　当然，我们要学习sql 如何优化的话，就会用到查询语句中的一个功能，指定查询使用哪个索引来进行。

　　比如下面的查询语句

　　select m.member_no, m.firstname, m.region_nofrom dbo.member as m with (index (0))where m.firstname like 'k%' and m.region_no > 6 and m.member_no < 5000go

　　select m.member_no, m.firstname, m.region_nofrom dbo.member as m with (index (1))where m.firstname like 'k%' and m.region_no > 6 and m.member_no < 5000goselect m.member_no, m.firstname, m.region_nofrom dbo.member as m with (index (membercovering3))where m.firstname like 'k%' and m.region_no > 6 and m.member_no < 5000goselect m.member_no, m.firstname, m.region_nofrom dbo.member as m with (index (memberfirstname, member_region_link))where m.firstname like 'k%' and m.region_no > 6 and m.member_no < 5000go

　　这里 index 计算符可以是 0 ，1，指定的一个或者多个索引名字。对于 0 ，1 的意义如下：

　　如果存在聚集索引，则 index(0) 强制执行聚集索引扫描，index(1) 强制执行聚集索引扫描或查找（使用性能最高的一种）。

　　如果不存在聚集索引，则 index(0) 强制执行表扫描，index(1) 被解释为错误。

　　总结知识点：

　　简单来说，我们可以这么理解：sql server 对于每一条查询语句。会根据实际索引情况（sysindexes 系统表中存储这些信息），分析每种组合可能的成本。然后选择它认为成本最小的一种。作为它实际执行的计划。

　　成本代价计算的一个主要组成部分是逻辑i/o的数量，特别是对于单表的查询。

　　and 操作要满足所有条件，这样，经常会要求对几个数据集作交集。数据集越小，数据集的交集计算越节省成本。 123

　　的项目中，竟然出现了滥用聚集索引的问题。看来没有培训最最基础的索引的意义，代价，使用场景，是一个非常大的失误。这篇博客就是从这个角度来罗列索引的基础知识。

　　使用索引的意义

　　索引在数据库中的作用类似于目录在书籍中的作用，用来提高查找信息的速度。

　　使用索引查找数据，无需对整表进行扫描，可以快速找到所需数据。

　　使用索引的代价