基于機(jī)器學(xué)習(xí)的 動(dòng)態(tài)分區(qū)并行文件系統(tǒng)性能優(yōu)化

文:吳嘉澍 1,2 王紅博 1 代浩 1 須成忠 3 王洋 12021年第一期

近年來,隨著大數(shù)據(jù)、云計(jì)算技術(shù)的發(fā)展,應(yīng)用系統(tǒng)越來越集中,規(guī)模亦越來越大,使得存儲(chǔ)系統(tǒng)的性能問題越來越突出。為應(yīng)對(duì)其性能要求,并行文件系統(tǒng)得到了大量的應(yīng)用。然而現(xiàn)有的并行文件系統(tǒng)優(yōu)化方法,大多只考慮應(yīng)用系統(tǒng)或并行文件系統(tǒng)本身,較少考慮兩者之間的協(xié)同。該文基于應(yīng)用系統(tǒng)在并行文件系統(tǒng)上的訪問模式對(duì)存儲(chǔ)系統(tǒng)的性能有顯著影響這一特點(diǎn),提出基于動(dòng)態(tài)分區(qū)的并行文件系統(tǒng)優(yōu)化方法。首先,利用機(jī)器學(xué)習(xí)技術(shù)來分析挖掘各個(gè)性能影響因素和性能指標(biāo)之間的關(guān)系和規(guī)律,生成優(yōu)化模型。其次, 以優(yōu)化模型為基礎(chǔ),輔助并行文件系統(tǒng)的參數(shù)調(diào)優(yōu)工作。最后,基于 Ceph 存儲(chǔ)系統(tǒng)進(jìn)行原型實(shí)現(xiàn),并設(shè)計(jì)了三層架構(gòu)應(yīng)用系統(tǒng)進(jìn)行了性能測(cè)試,最終達(dá)到優(yōu)化并行文件系統(tǒng)訪問性能的目的。實(shí)驗(yàn)結(jié)果表明,所提出方法可以達(dá)到 85% 的預(yù)測(cè)優(yōu)化準(zhǔn)確率;在所提出模型的輔助優(yōu)化下,并行文件系統(tǒng)的吞吐量性能得到約 3.6 倍的提升。

1 引 言

伴隨著互聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算技術(shù)的發(fā)展,應(yīng)用系統(tǒng)

的計(jì)算、數(shù)據(jù)和部署越來越集中,應(yīng)用系統(tǒng)的規(guī)模也相應(yīng)地不斷擴(kuò)大。對(duì)于輸入輸出(I/O) 密集型的應(yīng)用程序,存儲(chǔ)系統(tǒng)性能,即其運(yùn)行效率,常常會(huì)成為整個(gè)系統(tǒng)的性能瓶頸。常見的性能指標(biāo)有吞吐量 (Throughput)、每秒讀寫操作次數(shù) (Input/ Output Operations per Second,IOPS) 等。為了解決這一問題,研究者進(jìn)行了各種各樣的嘗試,而并行文件系統(tǒng)便是一種被廣泛應(yīng)用的系統(tǒng)技術(shù)。

并行文件系統(tǒng)通過將多個(gè)邏輯上獨(dú)立的存儲(chǔ)節(jié)點(diǎn)聚合為一個(gè)有邏輯的、高性能的存儲(chǔ)系統(tǒng)來緩解或解決相應(yīng)的存儲(chǔ)系統(tǒng)性能問題。它可以將分散于各個(gè)存儲(chǔ)節(jié)點(diǎn)上的磁盤性能進(jìn)行匯聚,以統(tǒng)一的、標(biāo)準(zhǔn)的接口為應(yīng)用提供高性能的文件存儲(chǔ)及訪問服務(wù),并可以隨著系統(tǒng)規(guī)模的擴(kuò)大而很容易地進(jìn)行縱向、橫向的擴(kuò)展,因而具有高吞吐量、高 I/O 帶寬、容易擴(kuò)展等特點(diǎn)。現(xiàn)實(shí)場(chǎng)景中的應(yīng)用系統(tǒng)都具有多樣性。應(yīng)用系統(tǒng)本身的特點(diǎn)及其數(shù)據(jù)訪問層的設(shè)計(jì)決定了其在并行文件系統(tǒng)上的訪問需

求及 I/O 訪問模式。譬如對(duì)于視頻監(jiān)控類應(yīng)用來說,其 I/O 訪問模式主要以順序讀或?qū)憺橹?,?qiáng)調(diào)并行文件系統(tǒng)的吞吐量; 而股票交易系統(tǒng)的 I/O 訪問模式則以隨機(jī)讀或?qū)憺橹?,?qiáng)調(diào)IOPS 的并發(fā)能力。如何針對(duì)應(yīng)用系統(tǒng)的 I/O 模式在并行文件系統(tǒng)的配置上進(jìn)行優(yōu)化,從而產(chǎn)生協(xié)同效果是一個(gè)值得思考的問題。而現(xiàn)有的性能優(yōu)化方法,無論是基于并行文件系統(tǒng)本身, 或是基于應(yīng)用系統(tǒng)本身,都較少考慮這一點(diǎn)。

另一方面,當(dāng)前提出的優(yōu)化方法,絕大多數(shù)都是基于某一個(gè)時(shí)間點(diǎn)的、靜態(tài)的優(yōu)化方法。當(dāng)應(yīng)用系統(tǒng)的功能、負(fù)載或者架構(gòu)發(fā)生變化時(shí),并行文件系統(tǒng) I/O 訪問模式也會(huì)隨之產(chǎn)生變化,而這種變化將導(dǎo)致已有的優(yōu)化方法可能不再適用于當(dāng)前的系統(tǒng)。因此,根據(jù)某一個(gè)時(shí)間點(diǎn)應(yīng)用系統(tǒng)的 I/O 模式對(duì)應(yīng)用系統(tǒng)或并行文件系統(tǒng)進(jìn)行孤立的、靜態(tài)的優(yōu)化方法都有其局限性。在理想狀況下,各種并行文件系統(tǒng)的設(shè)計(jì)假設(shè)所有的底層硬件都具有性能的一致性。正是出于這種假設(shè),并行文件系統(tǒng)在設(shè)計(jì)時(shí)通常按照一定的算法將系統(tǒng)的 I/O 負(fù)載均勻地分配到每一個(gè)底層的數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上,但這種設(shè)計(jì)可能會(huì)存在底層存儲(chǔ)系統(tǒng)的性能沒有被充分利用的情況。因?yàn)樵诰唧w實(shí)踐中,并行文件系統(tǒng)的各個(gè)存儲(chǔ)服務(wù)器節(jié)點(diǎn)之間存在性能差異是常見的現(xiàn)象。不管這種差異是由于 I/O 控制方式造成的,還是由于其存儲(chǔ)介質(zhì)原理、運(yùn)轉(zhuǎn)機(jī)制等造成的,該差異在大多數(shù)情況下并沒有在并行文件系統(tǒng)設(shè)計(jì)的時(shí)候被考慮,因而可能會(huì)造成性能較好的節(jié)點(diǎn)資源未被充分利用的情形。雖然這種情況可以通過應(yīng)用數(shù)據(jù)存儲(chǔ)分布策略和并發(fā)策略來彌補(bǔ),但仍然值得留意。

綜上所述,現(xiàn)有并行文件系統(tǒng)優(yōu)化方法雖能在一定程度上緩解或解決性能問題,但是仍然存在不足。本文將尋求一種新的, 更具有針對(duì)性、適應(yīng)性的并行文件系統(tǒng)性能優(yōu)化方法。本文的創(chuàng)新性及先進(jìn)性主要體現(xiàn)在以下幾點(diǎn)。

(1)基于機(jī)器學(xué)習(xí)的動(dòng)態(tài)分區(qū)并行文件系統(tǒng)框架:通過對(duì)各種應(yīng)用 I/O 模式下影響并行文件系統(tǒng)性能的因素和性能指標(biāo)數(shù)據(jù)進(jìn)行相關(guān)性分析,發(fā)現(xiàn)并通過實(shí)驗(yàn)證實(shí)了塊分區(qū)尺寸與兩個(gè)主要性能度量指標(biāo)之間的關(guān)系,據(jù)此再結(jié)合機(jī)器學(xué)習(xí)技術(shù)提出了基于機(jī)器學(xué)習(xí)的動(dòng)態(tài)分區(qū)并行文件系統(tǒng)的優(yōu)化方案。

(2)基于邏輯回歸的面向文件系統(tǒng)動(dòng)態(tài)分區(qū)的機(jī)器學(xué)習(xí)算法:對(duì)基于動(dòng)態(tài)分區(qū)的并行文件系統(tǒng)性能優(yōu)化方法進(jìn)行歸納和總結(jié),提出基于邏輯回歸的優(yōu)化算法,從而實(shí)現(xiàn)通過輸入調(diào)優(yōu)參數(shù)后利用模型預(yù)測(cè)性能影響的方法來指導(dǎo)并行文件系統(tǒng)訪問性能的參數(shù)調(diào)優(yōu)工作。模型在驗(yàn)證數(shù)據(jù)集上達(dá)到了最大 85% 的準(zhǔn)確率。

(3)基于 Ceph 文件系統(tǒng)實(shí)現(xiàn)原型設(shè)計(jì)與實(shí)現(xiàn):設(shè)計(jì)和實(shí)現(xiàn)了基于 Ceph 存儲(chǔ)系統(tǒng)的并行文件系統(tǒng)原型,并用于機(jī)器學(xué)習(xí)模型所需數(shù)據(jù)的生成、模型的優(yōu)化及驗(yàn)證工作。經(jīng)過實(shí)驗(yàn)驗(yàn)證, 整個(gè)環(huán)境可以滿足本文所設(shè)計(jì)的各種實(shí)驗(yàn)及測(cè)試要求,可以用來驗(yàn)證所提出優(yōu)化算法的可行性和有效性。

微信截圖_20210507164019.png


2 相關(guān)工作

近年來,并行文件系統(tǒng)被廣泛應(yīng)用, 各種并行文件系

統(tǒng) 應(yīng) 運(yùn) 而 生。 比 較 著 名 的 有 GPFS(IBM General Parallel File System)[7]、PVFS(Parallel Virtual File System)[8]、PanFS[9]、Lustre 及 Ceph 等。在進(jìn)行并行文件系統(tǒng)的性能研究時(shí),通常從研究其影響因素著手:尋找哪些因素對(duì)并行文件系統(tǒng)的性能產(chǎn)生影響并探索這些因素在應(yīng)用系統(tǒng)、并行文件系統(tǒng)中的分布情況,進(jìn)而研究各個(gè)因素對(duì)并行文件系統(tǒng)的影響程度。但是,由于并行文件系統(tǒng)是一個(gè)架構(gòu)復(fù)雜的分布式系統(tǒng), 且需經(jīng)常應(yīng)對(duì)多變的應(yīng)用系統(tǒng)而做出調(diào)整,因此造成了并行文件系統(tǒng)性能優(yōu)化方法的復(fù)雜性。

并行文件系統(tǒng)性能優(yōu)化研究通常從應(yīng)用系統(tǒng)、元數(shù)據(jù)(Metadata) 服務(wù)、存儲(chǔ)服務(wù)器以及并行文件系統(tǒng)架構(gòu)等幾個(gè)方面展開( 見表 1)。在并行文件系統(tǒng)架構(gòu)優(yōu)化方面,可以采用的方法包括優(yōu)化數(shù)據(jù)存儲(chǔ)和分布的策略、采用更高帶寬的存儲(chǔ)網(wǎng)絡(luò)及采用基于負(fù)載特征的存儲(chǔ)架構(gòu)等 [12];

對(duì)元數(shù)據(jù)優(yōu)化的方法包括對(duì)元數(shù)據(jù)的創(chuàng)建、查找、搜索、存儲(chǔ)分布進(jìn)行分割優(yōu)化,其中對(duì)元數(shù)據(jù)服務(wù)器進(jìn)行優(yōu)化,采用分布式元數(shù)據(jù)服務(wù)架構(gòu)等方法;對(duì)數(shù)據(jù)存儲(chǔ)的優(yōu)化方法包括優(yōu)化數(shù)據(jù)存儲(chǔ)條帶化參數(shù)( 包括條帶寬度、條帶深度和帶偏移量等),優(yōu)化磁盤類型和數(shù)量,RAID 級(jí)別,建立緩存機(jī)制,優(yōu)化存儲(chǔ)服務(wù)器數(shù)量。

當(dāng)需要在應(yīng)用系統(tǒng)上著手對(duì)并行文件系統(tǒng)的訪問性能進(jìn)行優(yōu)化時(shí),通??梢詮膬煞矫嬷郑阂皇侵貥?gòu)數(shù)據(jù)訪問層,利用更優(yōu)化的算法、采用異步消息隊(duì)列、加入緩存機(jī)制或優(yōu)化存儲(chǔ)并行訪問策略等方法;二是從并行文件系統(tǒng)上著手,即本文所采取的方式,根據(jù)應(yīng)用系統(tǒng)的特點(diǎn)和負(fù)載形式,對(duì)并行文件系統(tǒng)進(jìn)行有針對(duì)性的配置從而達(dá)到優(yōu)化性能的目的。

常見的并行文件系統(tǒng)性能優(yōu)化方法見表 1,其對(duì)相關(guān)技術(shù)在包括架構(gòu)、數(shù)據(jù)和元數(shù)據(jù) I/O 性能等三方面進(jìn)行了對(duì)比。

微信截圖_20210507164759.png

3面向動(dòng)態(tài)分區(qū)的并行文件系統(tǒng)性能優(yōu)化算法

3.1問題描述

并行文件系統(tǒng)的性能是指并行文件系統(tǒng)的運(yùn)行效率。常見的性能評(píng)估指標(biāo)有每秒讀寫操作次數(shù) IOPS、吞吐量、最大每秒寫 I/O 操作次數(shù) (WIOPS) 和讀 I/O 操作占比 (RRatio) 等。

通過對(duì)樣本數(shù)據(jù)進(jìn)行分析,構(gòu)建熱力圖 ( 圖 1) 并對(duì)其進(jìn)行比較、分析之后,可以發(fā)現(xiàn)以下規(guī)律:

(1)區(qū)塊尺寸 (I/O 操作最大讀、寫分區(qū)尺寸 ) 對(duì)兩個(gè)主要性能 IOPS 和吞吐量的影響都極為顯著。

(2)IOPS 隨著區(qū)塊尺寸的增加而減小,吞吐量則相反。進(jìn)一步的分析發(fā)現(xiàn),IOPS 及吞吐量和塊分區(qū)尺寸近似線性相關(guān)。

(3)讀 I/O 操作占比對(duì) IOPS 和吞吐量也有影響,但沒有塊分區(qū)尺寸影響顯著。

因此,本文選擇動(dòng)態(tài)分區(qū)尺寸大小作為改變性能的因素, 對(duì)并行文件系統(tǒng)訪問性能進(jìn)行優(yōu)化。本文選定通過調(diào)整區(qū)塊尺寸( 單次 I/O 操作最大讀、寫分區(qū) ) 來進(jìn)行性能優(yōu)化的另外一個(gè)原因是,現(xiàn)有的并行文件系統(tǒng)都支持對(duì)這一性能因素進(jìn)行在線調(diào)整。

選定了性能因素之后,本文將利用機(jī)器學(xué)習(xí)的方法為塊分區(qū)尺寸和并行文件系統(tǒng)性能指標(biāo)建立關(guān)系模型,通過預(yù)測(cè)某個(gè)分區(qū)尺寸對(duì)并行文件系統(tǒng)性能的影響來指優(yōu)化工作,最終選取可對(duì)系統(tǒng)性能達(dá)到優(yōu)化效果的分區(qū)尺寸并進(jìn)行在線配置。在性能優(yōu)化評(píng)價(jià)方面,本文則選擇 IOPS 和吞吐量來對(duì)并

行文件系統(tǒng)訪問性能的優(yōu)化效果進(jìn)行評(píng)價(jià)。圖 2 再次驗(yàn)證了分區(qū)尺寸對(duì)并行文件系統(tǒng)性能的顯著影響,從而反映出通過調(diào)整分區(qū)尺寸對(duì)性能進(jìn)行優(yōu)化是可行的。為了對(duì)問題能更進(jìn)一步的分析和研究,也為了更好地利用機(jī)器學(xué)習(xí)技術(shù),本文需要做出一些假設(shè)和限定,并對(duì)所要研究的問題進(jìn)行以下定義。

(1)假設(shè)與約束

并行文件系統(tǒng)硬件配置的更改,如使用固態(tài)硬盤 (SSD) 替代傳統(tǒng)機(jī)械硬盤,會(huì)因其物理特性或技術(shù)特性的原因而顯著地影響存儲(chǔ)子系統(tǒng)的性能,因此本文假設(shè)并行文件系統(tǒng)的硬件配置在優(yōu)化過程中保持不變。不僅如此,并行文件系統(tǒng)軟件配置、架構(gòu)的變更也可能對(duì)存儲(chǔ)子系統(tǒng)性能產(chǎn)生影響,如緩存 Cache 的配置以及 Cache 的大小。因此本文也假設(shè),在存儲(chǔ)子系統(tǒng)優(yōu)化過程中,除了本文選定的性能優(yōu)化方法所需要的系統(tǒng)配置參數(shù)之外,其他系統(tǒng)配置、參數(shù)及系統(tǒng)架構(gòu)在優(yōu)化過程中均保持不變。

(2)性能優(yōu)化目標(biāo)

理想狀態(tài)下,并行文件系統(tǒng)的最大存儲(chǔ)訪問性能(Capacity) 由并行文件系統(tǒng)的物理特性和架構(gòu)決定,并和具體的應(yīng)用系統(tǒng)無關(guān)。因此在考慮優(yōu)化目標(biāo)時(shí),將以并行文件系統(tǒng)的最大存儲(chǔ)訪問性能為基礎(chǔ)并結(jié)合一定的性能損失來確定。存儲(chǔ)系統(tǒng)的最大存儲(chǔ)訪問性能可以通過壓力測(cè)試來獲得,而應(yīng)用系統(tǒng)對(duì)存儲(chǔ)子系統(tǒng)的性能損失則依賴經(jīng)驗(yàn)值,即 30%。在應(yīng)用系統(tǒng)對(duì)并行文件系統(tǒng)訪問性能損失參考值確定以后,就能以此來確定優(yōu)化的目標(biāo)。

(3)問題的定義

依照本文的假設(shè)與約束,對(duì)所研究的問題進(jìn)行了歸納,即針對(duì)特定應(yīng)用系統(tǒng)特定的并行文件系統(tǒng)的訪問模式,對(duì)其性能按照預(yù)先設(shè)定的優(yōu)化目標(biāo),通過調(diào)整區(qū)塊尺寸的方法進(jìn)行優(yōu)化。并且當(dāng)應(yīng)用系統(tǒng)對(duì)并行文件系統(tǒng)的訪問模式發(fā)生變化時(shí),所提出算法能夠持續(xù)地調(diào)整優(yōu)化方案,從而實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)的動(dòng)態(tài)并行文件系統(tǒng)的訪問性能優(yōu)化方法。

微信截圖_20210507165654.png


中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運(yùn)動(dòng)控制

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

直驅(qū)與傳動(dòng)

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

中國傳動(dòng)網(wǎng)

關(guān)注中國傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

2021年第一期

2021年第一期

圖片閱讀

掃碼關(guān)注小程序

時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)

雜志訂閱

填寫郵件地址,訂閱更多資訊:

撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運(yùn)動(dòng)控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運(yùn)動(dòng)控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運(yùn)動(dòng)控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運(yùn)動(dòng)控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運(yùn)動(dòng)控制

    2023年第1期