选择优化的数据类型
准则:
更小的通常更好:占用更少的磁盘、内存和CPU,处理时间也更少;
简单就好:比如使用内置日期存储日期而不是字符串,使用整形存储ip地址;
尽量避免NULL:通常会被特殊处理,所以尽量少用(尤其是索引列)。
整数类型
整数:tinyint、smallint、mediumint、int、bigint分别使用8、16、24、32、64位存储空间;可选UNSIGNED属性;置顶宽度int(6)通常是没有意义的:存储不变,交互工具显示用。
实数:decimal(只是存储格式)、float、double;mysql使用double作为内部浮点计算类型;例如财务数据可以乘以倍数使用bigint存储。
字符串类型
varchar和char:varchar只使用必要的存储空间(row_format_fixed除外);varchar需要1-2个字节的长度标识;varchar节省存储空间但是update需要更大开销;
varchar适用:字符串列最大长度比平均长度大很多;列更新少,碎片不是问题;utf8字符集;
char适用:定长、常更新的、非常短的;
注:memory只支持定长行,即使变长字段也是根据最大长度分配最大空间。
binary和varbinary
varchar(5)和varchar(200)虽然存储空间开销一致,但是更长的列会消耗更大的内存,尤其是内存临时表和磁盘临时表。
BLOB和TEXT类型
blob和text分别是二进制和字符串方式存储;
mysql把每个blob和text作为一个独立的对象处理;
blob和text的唯一区别是:blob二进制存储,没有排序规则或字符集,而text有排序规则和字符集;
排序:只对每个列max_sort_length自己排序,可减少配置或者order by substring(column,length);
memory引擎不支持blob和text类型,查询含有这种类型的话会使用磁盘临时表,所以尽量避免使用blob和text类型;
expalin执行计划如果包含using temporary的话,则说明这个查询使用了隐式临时表。
使用枚举(ENUM)代替字符串类型
因为mysql存储时自动转换为紧凑整形存储;
主键关联时,整数比字符串更高效。
日期和时间类型
datetime:1001-9999年,精度是秒,8个字节;
timestamp:1970年以来的秒数,4个字节,最大到2038年;
使用整数带来不了任何效益;
可以使用double和bigint存储毫秒级时间。
位数据类型
技术上来讲都是字符串类型
BIT:容易出现诡异的ascii和字符显示问题;
SET:打包位集合(find_in_set),修改代价高,并且一般来说无法索引查询;也可以使用整数偏移来保存;
选择标识符
关联列尽量使用相同数据类型;尽可能选择最小的数据类型
整数通常是标识列最好的选择;
enum和set适应存储但不适合标识列;
尽量不使用字符串类型作标识列,因为它们很消费空间,而且速度慢;
很随机的数据不适合索引,insert:索引到不同位置;select:逻辑上相邻行会分布在磁盘和内存不同的地方;
性能的噩梦:自动生成的schema,ORM系统。
特殊的数据类型
bigint 存储小数点或毫秒时间;整数存储IP地址。
Mysql schema设置陷阱(只针对mysql)
太多的列:列转换数据结构的代价;
太多的关联:单个查询最好在12个表以内,mysql最大关联数要小于61个;
全能的枚举:防止过度使用,因为修改一次就要执行一次alter table,5.1之前的版本属于阻塞操作;
变相的枚举。
范式和反范式
范式:每一个数据只出现在一个地方,通常表比较多;
反范式:数据出现在多个地方,通常一张表就够了;
优缺点:
> 范式更新操作更快;修改数据较少;表通常比较小,也不需要group by或distinct;
> 范式的缺点是通常需要关联查询,索引无法更有效;
> 反范式查询通常更快。
混用范式和反范式
反范式的应用是复制和缓存,通过触发器实现缓存更新。
缓存表和汇总表
定期重建:不仅是节省资源,而且保存不会有太多碎片,以及完全有顺序的索引。
物化视图
计数器表
只是更新一行容易阻塞,所以可以放到100行中,随机更新数据,然后select sum()获取。
更快读的代价是更慢的写。
加快alter table的速度
mysql执行大部分修改表操作是创建空表,然后将数据迁移过去,再删除旧表。
可能不需要重建表的操作:移除auto_increment;增加、移除或更改enum和set常量。
只修改.frm速度是很快的;建空表后交换frm文件也是一个方法;
快速创建myisam索引
先禁止索引,载入数据,开启索引是有效的,仅对唯一索引无效。