[系统应用] Windows NTFS体验之重复数据删除技术

Kiver 发布于2020-6-16 21:39 1134 次浏览 9 位用户参与讨论   [复制分享主题]
        在企业中,存储空间的使用往往是惊人的,例如备份数据、文件服务器数据、虚拟化平台数据等。而在以往的windows平台,并没有特别直接有效的方式来帮助我们节省磁盘空间,到了windows server 2012平台,重复数据删除技术,让很多使用windows server平台的用户看到了希望,而这一点也是促使用户将windows server 升级到2012平台的动因之一。8 d- z( y* U1 X# e
/ Y* }' w, M* X5 G" m
        周末闲来无事,我也在虚拟环境里体验了一把重复数据删除技术的魅力。
( i9 {3 j/ V$ _/ J9 p3 p# R1 n
  W5 p3 J( a$ y( k        首先我在官网找到了关于重复数据删除技术的相关介绍:
$ h" ]' I! e+ D- L& Y( J1 n) e4 Z5 Y- b- z' p4 u* U" X
        http://technet.microsoft.com/zh-cn/library/hh831354.aspx8 j  k5 h: Y- s  Q. F% S5 t

% ?. t3 ]: M  K8 t  t2 G/ n( U1 ~1)重复数据删除技术的优点
9 t& x) Q# `8 I/ o( N# h0 y+ |9 F. R. r4 a$ T% l5 b) {' y
        容量优化:“重复数据删除”使得 Windows Server 2012 能够在更少的物理空间中存储更多的数据,并获得比以前版本的 Windows 操作系统明显更高的存储效率。以前版本的 Windows 操作系统使用单实例存储 (SIS) 或 NTFS 文件系统压缩。“重复数据删除”使用可变分块大小和压缩,常规文件服务器的优化率为 2:1,而虚拟数据的优化率最高可达 20:1。  J8 q) V- X" s; K) g
        伸缩性和性能: Windows Server 2012 中的“重复数据删除”具有高度的可伸缩性,能够有效利用资源,并且不会产生干扰。它可以同时对多个大容量主数据运行,而不会影响服务器上的其他工作负载。通过控制 CPU 和内存资源的消耗,保持对服务器工作负载的较低影响。此外,用户可以灵活设置何时应该运行“重复数据删除”、指定用于消除重复的资源并为“重复数据删除”创建有关文件选择的策略。
4 K3 m+ ]) L4 ?5 l$ Z! i/ E8 X" |, o9 z# X% J! T
        可靠性和数据完整性:在对数据应用“重复数据删除”时,保持数据的完整性。Windows Server 2012 利用校验和值、一致性和身份验证来确保数据的完整性。此外,Windows Server 2012 中的“重复数据删除”会为所有元数据和最常引用的数据保持冗余,以确保这些数据可以在发生损坏时进行恢复。
, K( N0 D# q! a( D, }' T% ]3 L与 BranchCache 相结合提高带宽效率:通过与 BranchCache 进行集成,同样的优化技术还可应用于通过 WAN 传输到分支机构的数据。这会缩短文件下载时间和降低带宽占用。
6 {4 q" ?& {( e: d+ o2)重复数据删除技术的工作原理概述- ]8 _  i, Y! o/ m3 z% m2 A4 D
5 E+ d/ f8 j; E5 h" S7 Y
        “重复数据删除”的目标是通过将文件分割成小的 (32-128 KB) 且可变大小的区块、确定重复的区块,然后保持每个区块一个副本,在更小的空间中存储更多的数据。区块的冗余副本由对单个副本的引用所取代。此外,还会对区块进行压缩以便进一步优化空间。
  J% U5 B) n3 X: p4 m
2 P6 _( Q% E% ^& z8 R. a        其结果是对每个文件执行磁盘内转换,如图 1 所示。文件不再作为独立的数据流进行存储,而是替换为指向存储在通用存储位置的数据块的存根。
: F: J- Z, q( Y2 c( U+ k
A01.png

* b6 P' w' ]8 ^/ U. _9 m4 B
5 R. J; o. e4 o! _! C3 v1 H
4 d& k8 t- Q- q6 g: n( j9 v9 {$ v% r
A02.png
4 d1 n* u% J1 B
        官网同样有关于重复数据删除技术规划和部署的事项:( O5 P4 L2 R7 M/ a5 A

* r" V. O7 U1 \; v: f/ T5 d4 ~        http://technet.microsoft.com/zh-cn/library/hh831700.aspx' F8 P7 p5 E, L1 o

0 x3 C2 R$ J, o' ?! P4 {: V! O2 p    1)重复数据删除的理想工作负载包括
! U: O( f$ h0 L. p        常规文件共享:组内容发布/共享、用户主页文件夹和配置文件重定向(脱机文件). j; O) p, [/ B/ Y% m' ?* Q4 c5 W
        软件部署共享:软件二进制文件、映像和更新) Z7 F  e* o, u, q/ K
        VHD 库:用来对虚拟机监控程序进行配置的 VHD 文件存储" @0 C) J4 E/ }. a$ B! O
: L% N- A- ?& m. E
    2)作为重复数据删除候选的卷必须符合下列要求( [8 g- S( f' W4 z+ D" F1 v  J
        不能是系统卷或引导卷。重复数据删除在操作系统卷上不受支持。
# g5 n  Y& B7 H2 a        卷可为分区的 MBR 或 GPT,并且必须使用 NTFS 文件系统格式化。
; n4 ?3 M3 B3 l/ F        卷可以驻留在共享存储(如光纤通道或 SAS 阵列)上,或者完全支持 iSCSI SAN 和 Microsoft 故障转移群集。
4 y! c. i: ^+ a, T. L" Y* R+ u7 M5 m        群集共享卷 (CSV) 不受支持。8 O, f' Y! ^$ d- p
        Microsoft 的新灵活文件系统 (ReFS) 不受支持。- ]4 H" B( v8 F2 K2 d
        卷必须向 Windows 公开为不可移除的驱动器。远程映射驱动器不受支持。
: h1 {$ N0 V, r0 w" v6 c/ P* n& g& t: e

已有(9)人评论

Kiver 发表于 2020-6-16 21:50:25 | 显示全部楼层
7 A/ p( y' T3 E% @2 ~
下面就来通过一个例子来体验一把重复数据删除技术的部署。
+ L7 X; q$ T6 n! v" u* h0 C8 p( h  W; q: N
首先我打开服务器管理器的工具下拉菜单,找到“计算机管理”,对添加到服务器的存储磁盘进行初始化的设置。如图。
+ r/ U3 N% N" g4 w. G' K A03.png ! A9 a( `! ^2 t, Z$ \
对存储磁盘1进行初始化、联机、格式化的操作。如图。# G( c( {, W9 X6 V1 W  u6 ]
A04.png . x. T0 t8 Y" P
然后我们回到服务器管理器—卷—磁盘,看看能否为刚刚添加的磁盘启用重复数据删除技术,我们发现“启用重复数据删除技术”的选项是灰色的,如图。 A05.png . z9 E; ~3 m: c: b5 M7 m1 K
原因很简单,重复数据删除技术是一项单独的组件,需要通过添加角色和功能向导进行安装之后才能正常使用,下面我就先来安装一下。
; M+ u7 H$ n, E! v$ i- J6 u" z
8 ]( o0 [7 P/ `* C4 d+ d; _/ x7 ?在“添加角色和功能向导”—“选择服务器角色”界面,将文件和ISCSI服务下面的“数据删除重复”勾选,如图。
0 V9 L" G3 y/ A; S$ W4 W A06.png
) E' M) a* ~" G& d A07.png & g- U8 d3 y& G) ^9 Q7 B* o
安装成功,如图。
( m7 f$ x2 J& v" q  A% G- } A08.png / P& W* t+ I5 h& g
下面我们再次回到卷管理界面,刷新一下之后,再右击存储磁盘查看一下,发现“配置数据删除重复”的选项已经可用了,如图。) }( ]; @& w+ z- U- w
A09.png
9 r1 T, R$ n: f% K接下来,我通过一些简单的步骤来进一步测试该功能。" q0 y1 z  a' H1 h
. ^3 Q4 Z- y! r0 U. ], g
首先在“配置数据删除重复”界面,我勾选“启用数据删除重复”,为新加卷E启用该技术。如图。
) @3 s5 n/ F3 }2 l A10.png
" o6 U5 U, r& c然后我们选择上图中的“设置删除重复计划”,对重复数据删除的相关选项进行配置。
+ s4 N: r2 i: b' {- a; m9 X* c4 _' G: O8 N5 V/ i
如下图。
" O6 n8 Y0 r2 E- [4 v6 q" q3 a, t. F4 n/ R
勾选“启用后台优化”。该功能确保在系统繁忙的时候,以最大程度低降低对系统性能的影响。
) I$ V) t2 g: i) U& d  Q- K2 `& M$ A: A! C2 E, o- D/ K9 [
勾选“启用吞吐量优化”。该功能确保在指定的时间立刻运行重复删除作业。
! N" c& n3 E# E" \. `& _9 Q$ x A12.png
* z+ z; i+ H2 L# f( m: A启用之后,可以从下图中看出重复删除的相关指标已经出来了。
, y# E2 g  Z2 X& o. q, \8 Z A13.png
! ~7 {7 t' K- k. ^下面我往E盘拷贝一些重复的文件来测试一下重复数据删除技术的效果如何。5 S3 N0 O9 |( g2 e" O- ]" w1 i
A14.png
5 ?6 }; y' S. N, m在没有运行去重作业之前的磁盘占用为2.11GB,如图。1 q# w$ @& |9 k
A15.png " L/ Q' ?+ A) f+ }0 g! ^
下面我修改一下重复删除计划,将重复删除的开始时间设置为22:28,我当前的系统时间为22:27,也就是说一分钟以后开始运行重复删除计划。如图。8 s. `: C) c( b" D* K! N
A16.png
3 Q) c! U. Z' H% x: U/ ?计划运行完成后,可以看到,E盘的重复数据删除率为40%,删除重复保存为931MB,如图。/ \5 Z# O! |5 B7 \+ j8 {% G
A17.png ( s4 g8 @2 u" L' M8 Q
再次查看一下E盘的磁盘空间使用情况,由之前的2.11GB变成了1.32GB,可见磁盘空间已经大大节省了。如图。5 d4 a$ K5 L$ p6 W: @5 ^
A18.png 8 d9 N) @$ q" y0 ]4 K
最后,需要注意的是,不能够对系统盘启用重复数据删除技术,如图。7 d9 Y4 y4 `6 Y( i& t
A19.png
& Z' \% d8 x7 d* M A20.png
- `  f1 t% W: y
回复 支持 反对

使用道具 举报

勇者罗兰 发表于 2020-6-16 22:13:50 | 显示全部楼层
好似好犀利甘样
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-16 22:58:23 | 显示全部楼层
勇者罗兰 发表于 2020-6-16 22:134 m: S1 G: q" e  V
好似好犀利甘样
) z+ U* S! j2 P2 b/ x/ u
系统自动将硬盘里重复的文件的元数据删除,以节省空间,但你在磁盘中依然可以看到2个或以上的重复文件,
回复 支持 反对

使用道具 举报

chrisrex 发表于 2020-6-18 09:50:21 | 显示全部楼层
win10有冇得用呢
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-18 10:22:03 | 显示全部楼层
chrisrex 发表于 2020-6-18 09:50
3 a9 ?  L* Q1 owin10有冇得用呢

* R4 f# C6 O1 g# W# W; O$ ?WIN10我吾发现有得用!!! F# T# k4 X2 P( Y& j2 m
最近2天都在研究这个,可以省不少空间. U9 s8 |7 n4 k  B% l4 G3 ]% \
# f4 j. `9 X& i
最初我理解还以为是文件相同,只存一份,但系统里依然找到2份文件出来,% m! G, F4 h7 g! h

6 x+ H+ Z9 \: D2 G& W现在深入理解原是用块数据相同,那么这个删除机率就高很多- x. s/ N4 Y! C  A7 r3 ^4 e5 X5 s

% V) o$ N& E5 n如一部动画,片头和片尾都是一样的,这部分文件就可以自动省下空间来,但读取时每个文件依然是有OP和ED
回复 支持 反对

使用道具 举报

chrisrex 发表于 2020-6-18 12:45:22 | 显示全部楼层
Kiver 发表于 2020-6-18 10:22
$ h8 v" ]" J* H, z8 \1 |WIN10我吾发现有得用!!& R" D; B6 P6 B, o" q
最近2天都在研究这个,可以省不少空间

$ J: c! z$ ^3 d: Z: s1 }/ B貌似有难度啵,除非无损好似text咁,唔嘅话都几难一样啵?
7 J7 {& h9 T: F0 Z- p* w9 y5 i  ~
# P( p- J) e( d
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-18 12:55:15 | 显示全部楼层
chrisrex 发表于 2020-6-18 12:452 a5 V6 t  p* b- w3 u
貌似有难度啵,除非无损好似text咁,唔嘅话都几难一样啵?
$ w: Y! t: s  b! J5 F/ ?/ A
每个数据块是32KB-128KB大小,块的容量不是很大
4 ~% ]' g  c' W' t" b, R5 s9 a. i! D
4 ^- a: [% i1 M7 a到时网盘应该会用这项技术,就知道其效果如何了!!  i" t. c  C$ ^

' k8 w2 S# K5 j; F: [所以这两天才全面研究这项技术!!
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-18 12:56:10 | 显示全部楼层
chrisrex 发表于 2020-6-18 12:45) O% d( V3 y2 ?: O$ Y
貌似有难度啵,除非无损好似text咁,唔嘅话都几难一样啵?

; v" y: f3 ]! Y" V4 d如果遇上有人上传相同文件,就可以省了很多空间!!3 O3 F1 T9 c$ a8 J

3 C; ~# f& n7 H0 m0 e3 C; P# |' h/ H不用在程序上做相同文件的检索+ s3 J4 }1 ^) L: j8 d$ P
4 T3 @. O! k. E) I+ ~$ {3 ]
精简程序的复杂性
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-18 12:57:37 | 显示全部楼层
chrisrex 发表于 2020-6-18 12:45; ^; \- g" J4 b  g3 R4 A
貌似有难度啵,除非无损好似text咁,唔嘅话都几难一样啵?

% r5 o+ i' W3 a6 }# R/ i' w* D在研究REFS技术的重复数据删除技术~!
3 E0 b& r* f+ N0 v
5 N# A5 S0 T6 M2 P( ~; Z! y; JREFS可以确保文件不受损或数据出错
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 註冊

本版积分规则

快速
回复
返回
列表
返回
顶部