[系统应用] Windows NTFS体验之重复数据删除技术

Kiver 发布于2020-6-16 21:39 1063 次浏览 9 位用户参与讨论   [复制分享主题]
        在企业中,存储空间的使用往往是惊人的,例如备份数据、文件服务器数据、虚拟化平台数据等。而在以往的windows平台,并没有特别直接有效的方式来帮助我们节省磁盘空间,到了windows server 2012平台,重复数据删除技术,让很多使用windows server平台的用户看到了希望,而这一点也是促使用户将windows server 升级到2012平台的动因之一。
+ m1 p$ n8 H, |; w- i
3 M$ M) e5 ~$ r. ]        周末闲来无事,我也在虚拟环境里体验了一把重复数据删除技术的魅力。& w2 f9 N, N. J6 x( C

3 B6 H/ Q% j' j0 O- i        首先我在官网找到了关于重复数据删除技术的相关介绍:% ?1 B4 o& D. k  L4 q$ @! h
, V; H- a: Z# s; j2 j: Z5 r% Y
        http://technet.microsoft.com/zh-cn/library/hh831354.aspx; F% C# @* f$ m1 |+ Y. W
4 h! Z! ~7 ~- b
1)重复数据删除技术的优点
# z& x. \) y) S1 l; A+ @( F
4 O/ L# c7 d( {+ Z1 a        容量优化:“重复数据删除”使得 Windows Server 2012 能够在更少的物理空间中存储更多的数据,并获得比以前版本的 Windows 操作系统明显更高的存储效率。以前版本的 Windows 操作系统使用单实例存储 (SIS) 或 NTFS 文件系统压缩。“重复数据删除”使用可变分块大小和压缩,常规文件服务器的优化率为 2:1,而虚拟数据的优化率最高可达 20:1。
3 N9 `1 b; d& m' L! O6 j) M1 l        伸缩性和性能: Windows Server 2012 中的“重复数据删除”具有高度的可伸缩性,能够有效利用资源,并且不会产生干扰。它可以同时对多个大容量主数据运行,而不会影响服务器上的其他工作负载。通过控制 CPU 和内存资源的消耗,保持对服务器工作负载的较低影响。此外,用户可以灵活设置何时应该运行“重复数据删除”、指定用于消除重复的资源并为“重复数据删除”创建有关文件选择的策略。
1 Q/ U2 ]# s- Y( J: G" {  q& P. A1 o" Q
        可靠性和数据完整性:在对数据应用“重复数据删除”时,保持数据的完整性。Windows Server 2012 利用校验和值、一致性和身份验证来确保数据的完整性。此外,Windows Server 2012 中的“重复数据删除”会为所有元数据和最常引用的数据保持冗余,以确保这些数据可以在发生损坏时进行恢复。! q# N6 p0 F9 w+ U
与 BranchCache 相结合提高带宽效率:通过与 BranchCache 进行集成,同样的优化技术还可应用于通过 WAN 传输到分支机构的数据。这会缩短文件下载时间和降低带宽占用。
! L. \0 P; @6 `/ c0 a7 i2)重复数据删除技术的工作原理概述+ g; T8 h! [* W& D( G
+ E" i, G( R' K
        “重复数据删除”的目标是通过将文件分割成小的 (32-128 KB) 且可变大小的区块、确定重复的区块,然后保持每个区块一个副本,在更小的空间中存储更多的数据。区块的冗余副本由对单个副本的引用所取代。此外,还会对区块进行压缩以便进一步优化空间。7 [9 `- f2 x' ]* R! Z7 Q' |9 j

- O  p+ p9 a  O        其结果是对每个文件执行磁盘内转换,如图 1 所示。文件不再作为独立的数据流进行存储,而是替换为指向存储在通用存储位置的数据块的存根。
. t% i# D: D' P, i6 j. d3 ]! L2 j
A01.png

, t; O' b% f$ J6 r8 y$ O0 P  d. B4 n! K% j0 {
- l0 h7 L* z2 @* y3 R
A02.png
7 y6 P7 z0 m' i( k
        官网同样有关于重复数据删除技术规划和部署的事项:
$ E5 L! W+ w+ @# ~/ X
2 W5 @$ l" ?0 A/ N% C7 G        http://technet.microsoft.com/zh-cn/library/hh831700.aspx
& ~8 Z' V; O! K
# o  A  g7 x3 ?; Y. L    1)重复数据删除的理想工作负载包括9 i  y/ e0 B6 b1 ]2 ~
        常规文件共享:组内容发布/共享、用户主页文件夹和配置文件重定向(脱机文件)
6 Z* q: W2 f  q        软件部署共享:软件二进制文件、映像和更新
4 N$ ~( o& C+ W$ R' }. g2 ~" s        VHD 库:用来对虚拟机监控程序进行配置的 VHD 文件存储
" l9 g% k! D# C0 g$ w, R" [8 W- m
* v* z! c8 @- i3 L* _8 V9 R    2)作为重复数据删除候选的卷必须符合下列要求
7 Q) t5 J& e8 ^. N        不能是系统卷或引导卷。重复数据删除在操作系统卷上不受支持。5 L  r( X! o2 K! I
        卷可为分区的 MBR 或 GPT,并且必须使用 NTFS 文件系统格式化。# U5 S$ k0 y# i' \) |
        卷可以驻留在共享存储(如光纤通道或 SAS 阵列)上,或者完全支持 iSCSI SAN 和 Microsoft 故障转移群集。$ S5 L5 h, P9 P- h3 W( R
        群集共享卷 (CSV) 不受支持。* b+ D& m& }, k) |
        Microsoft 的新灵活文件系统 (ReFS) 不受支持。$ L) y- x/ i# r/ I! g$ X! u
        卷必须向 Windows 公开为不可移除的驱动器。远程映射驱动器不受支持。
# b; }. k8 [8 B& Q- k% V& u; _, n3 _- s6 A7 L" e

已有(9)人评论

Kiver 发表于 2020-6-16 21:50:25 | 显示全部楼层
+ n* ~% y1 v' S, s8 @8 x, R
下面就来通过一个例子来体验一把重复数据删除技术的部署。1 T) g3 w0 ~9 M5 k4 O: e

& [. Q5 A* y' ^  X0 h9 X首先我打开服务器管理器的工具下拉菜单,找到“计算机管理”,对添加到服务器的存储磁盘进行初始化的设置。如图。
/ P1 v: t" G8 G) a/ ~' c, M A03.png 5 X- o& _# J/ f1 e# u. T$ _2 n  @
对存储磁盘1进行初始化、联机、格式化的操作。如图。* w& j! D0 }. ^( q  E/ U/ u; m$ K
A04.png
6 \0 h: i& |7 J/ e然后我们回到服务器管理器—卷—磁盘,看看能否为刚刚添加的磁盘启用重复数据删除技术,我们发现“启用重复数据删除技术”的选项是灰色的,如图。 A05.png 3 t# {# t- ~6 i' x% G
原因很简单,重复数据删除技术是一项单独的组件,需要通过添加角色和功能向导进行安装之后才能正常使用,下面我就先来安装一下。* c- J- \3 S2 Z' C+ t9 d
/ E- d- e) z- p, V* U
在“添加角色和功能向导”—“选择服务器角色”界面,将文件和ISCSI服务下面的“数据删除重复”勾选,如图。
7 U1 h$ U1 g" M A06.png , {- j- y% n2 s) P
A07.png
/ h% {+ ?4 A8 Y# ?安装成功,如图。
; C* v6 V( n- s5 X A08.png + [# a# S1 a, k3 Q/ Y
下面我们再次回到卷管理界面,刷新一下之后,再右击存储磁盘查看一下,发现“配置数据删除重复”的选项已经可用了,如图。3 V. P5 N: p3 n$ V# E
A09.png
8 y7 c& r1 e! F4 Q8 s. f0 M接下来,我通过一些简单的步骤来进一步测试该功能。
$ Z) z8 x6 G8 e' o/ j; Z6 q5 {( a" @# V1 Z
首先在“配置数据删除重复”界面,我勾选“启用数据删除重复”,为新加卷E启用该技术。如图。' R" h. L2 R/ C
A10.png * [) d) e" f2 ~3 P
然后我们选择上图中的“设置删除重复计划”,对重复数据删除的相关选项进行配置。& Y2 V4 R" X! y- L6 f8 x7 Z7 U+ D
+ c8 x, I0 B& V( \
如下图。
; Y- q3 ~2 i. v# G+ P. p" I+ Y2 `# M/ B% x, J
勾选“启用后台优化”。该功能确保在系统繁忙的时候,以最大程度低降低对系统性能的影响。
$ k1 `, F( k. a6 d  i7 P' F2 g5 U7 t, u$ _; B
勾选“启用吞吐量优化”。该功能确保在指定的时间立刻运行重复删除作业。. v! d# b+ h3 V& V
A12.png
" K! Q: \/ v( \( u* L启用之后,可以从下图中看出重复删除的相关指标已经出来了。
3 G4 ^( V) r* L5 K8 u" u A13.png $ N, |7 I! H( b0 E$ [2 p8 _
下面我往E盘拷贝一些重复的文件来测试一下重复数据删除技术的效果如何。
) s) ^  q0 u& P# @% b: K( l1 B9 B' i A14.png
3 p) ^( B* M2 U; h在没有运行去重作业之前的磁盘占用为2.11GB,如图。' X0 o! s+ S2 p6 }
A15.png
0 p4 l, H8 \+ t8 O4 G- o下面我修改一下重复删除计划,将重复删除的开始时间设置为22:28,我当前的系统时间为22:27,也就是说一分钟以后开始运行重复删除计划。如图。; Z; u% }7 y2 [; o/ ?! `+ `7 k
A16.png ' H3 q# j7 @. p6 @9 g) }7 g
计划运行完成后,可以看到,E盘的重复数据删除率为40%,删除重复保存为931MB,如图。
: r8 {) o* }7 w' {" ]1 g1 N A17.png
* V6 m8 B- l* Y再次查看一下E盘的磁盘空间使用情况,由之前的2.11GB变成了1.32GB,可见磁盘空间已经大大节省了。如图。
/ O  @0 |" [, Z% d6 \* n A18.png 1 ~4 W5 _0 O& [
最后,需要注意的是,不能够对系统盘启用重复数据删除技术,如图。
% w8 b1 Q0 O1 f8 n: M A19.png
, ]' r$ K* W% c3 o7 i A20.png   P' Z2 ?9 F' {; T% z% o1 A5 b
回复 支持 反对

使用道具 举报

勇者罗兰 发表于 2020-6-16 22:13:50 | 显示全部楼层
好似好犀利甘样
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-16 22:58:23 | 显示全部楼层
勇者罗兰 发表于 2020-6-16 22:13
, C$ O5 ^4 r9 a2 w1 W9 u4 I4 g好似好犀利甘样
$ j0 ^" A5 _3 |7 G; ^+ j
系统自动将硬盘里重复的文件的元数据删除,以节省空间,但你在磁盘中依然可以看到2个或以上的重复文件,
回复 支持 反对

使用道具 举报

chrisrex 发表于 2020-6-18 09:50:21 | 显示全部楼层
win10有冇得用呢
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-18 10:22:03 | 显示全部楼层
chrisrex 发表于 2020-6-18 09:50. w* e  e/ W4 s) i! m% E' a
win10有冇得用呢

$ i( z% ~2 V9 Z2 `, e& M( Q8 G1 t( |1 rWIN10我吾发现有得用!!
! R/ `' k/ q6 P1 u6 G# b8 X最近2天都在研究这个,可以省不少空间
4 {0 {4 O" R! g
% z6 a% Y2 q# I# t0 \7 {最初我理解还以为是文件相同,只存一份,但系统里依然找到2份文件出来,
8 y. X# f  Q. o# B. R3 _, |4 o: A6 r( A, `% s( i! f$ V0 Y' @
现在深入理解原是用块数据相同,那么这个删除机率就高很多
/ c0 X5 k0 ^. l  @8 C- v/ y' g" H# r8 K
如一部动画,片头和片尾都是一样的,这部分文件就可以自动省下空间来,但读取时每个文件依然是有OP和ED
回复 支持 反对

使用道具 举报

chrisrex 发表于 2020-6-18 12:45:22 | 显示全部楼层
Kiver 发表于 2020-6-18 10:22
" }8 T. O- }: ]6 t( O% Q8 j& P' fWIN10我吾发现有得用!!6 r! [: D+ f- A8 o$ S3 J
最近2天都在研究这个,可以省不少空间

8 t& T$ X" ^0 e8 G: N貌似有难度啵,除非无损好似text咁,唔嘅话都几难一样啵?, w' S: H; W7 u& z- v/ x

8 L' Z+ ?' f# G4 P4 x/ V8 G
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-18 12:55:15 | 显示全部楼层
chrisrex 发表于 2020-6-18 12:45- Q6 N7 U9 ^7 s5 o7 F
貌似有难度啵,除非无损好似text咁,唔嘅话都几难一样啵?

4 c' o: Z3 e" d2 v& I: g每个数据块是32KB-128KB大小,块的容量不是很大* j5 [- H8 M1 ~$ D, \1 `
! c0 G& V' o4 t
到时网盘应该会用这项技术,就知道其效果如何了!!7 {7 W: ?% X, K: w4 t. k

) n# F4 T: C( s0 I& C8 K所以这两天才全面研究这项技术!!
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-18 12:56:10 | 显示全部楼层
chrisrex 发表于 2020-6-18 12:45' ]( J7 I  x& S
貌似有难度啵,除非无损好似text咁,唔嘅话都几难一样啵?
% }. E' a8 q; L" ]0 G3 n6 c
如果遇上有人上传相同文件,就可以省了很多空间!!* `/ P; c8 q5 ^" K
7 s* G1 ~* A3 {+ V( ]  U
不用在程序上做相同文件的检索
: o0 O, q( n  A6 L3 o' s1 O5 o8 o# X# c6 E# k0 \& |
精简程序的复杂性
回复 支持 反对

使用道具 举报

Kiver 发表于 2020-6-18 12:57:37 | 显示全部楼层
chrisrex 发表于 2020-6-18 12:45, n/ c! [% U- p7 y4 ^! z
貌似有难度啵,除非无损好似text咁,唔嘅话都几难一样啵?

. _4 C: W# {' e在研究REFS技术的重复数据删除技术~!" C: ^0 p. s+ Q/ y+ t) T; b
) ^# ~3 X/ z$ U5 f) q. c- l/ }3 `
REFS可以确保文件不受损或数据出错
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 註冊

本版积分规则

快速
回复
返回
列表
返回
顶部