新聞中心
本篇文章給大家分享的是有關如何使用brotli壓縮大文件,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領域值得信任、有價值的長期合作伙伴,公司提供的服務項目有:域名注冊、虛擬主機、營銷軟件、網(wǎng)站建設、定州網(wǎng)站維護、網(wǎng)站推廣。
大文件問題
函數(shù)計算對上傳的 zip 代碼包尺寸限制為 50M。某些場景中代碼包中會超過這一限制,比如未經(jīng)裁剪的
serverless-chrome ,類似的還有 libreoffice ,此外常見的還有機器學習訓練的模型文件。
目前解決大文件問題有三種方法
采用更高壓縮比的算法,比如本文介紹的 brotli 算法
采用 OSS 運行時下載
采用 NAS 文件共享
簡單的比較一下這三種方法的優(yōu)劣
方法 | 優(yōu)點 | 缺點 |
---|---|---|
高密度壓縮 | 發(fā)布簡單,啟動最快 | 上傳代碼包較慢;要寫解壓代碼;大小受限制不超過 50 M |
OSS | 下載解壓后文件不超過 512 M | 需要預先上傳至 OSS;要寫下載和解壓代碼,大概 50M/s 的下載速度 |
NAS | 文件大小沒有限制,無需壓縮 | 需要預先上傳至 NAS;VPC 環(huán)境有冷啟動時延(~5s) |
正常情況下如果代碼包能控制在 50M 以下啟動較快。而且工程上也比較簡單,數(shù)據(jù)和代碼放在一起,不需要額外的寫腳本去同步更新 OSS 或者 NAS。
壓縮算法
Brotli 是 Google 工程師開發(fā)的開源壓縮算法,目前已經(jīng)被新版的主流瀏覽器支持,作為 HTTP 傳輸?shù)膲嚎s算法。下面是在網(wǎng)上找到的關于 Brotli 和其他常見壓縮算法對比基準測試。
從上面三幅圖我們可以看出:相比于 gzip、xz 和 bz2,brotli 有最高的壓縮比,接近于 gzip 的解壓速度,以及最慢的壓縮速度。
然而在我們的場景對于壓縮慢這一缺點不敏感,壓縮任務只要在開發(fā)準備物料的階段執(zhí)行一次就好了。
制作壓縮文件
下面我先介紹一下如何制作壓縮文件。下面的代碼和用例都來自于項目 packed-selenium-java-example 。
安裝 brotli 命令
Mac 用戶
brew install brotli
Windows 用戶可以去這個界面下載, https://github.com/google/brotli/releases
打包并壓縮
打包前兩個文件大小分別為 7.5M 和 97M
╭─ ~/D/test1[? 18:15:21] ╰─ ll total 213840 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
使用 GZip 打包并壓縮,大小為 44 M。
╭─ ~/D/test1[? 18:15:33] ╰─ tar -czvf chromedriver.tar chromedriver headless-chromium a chromedriver a headless-chromium ╭─ ~/D/test1[? 18:16:41] ╰─ ll total 306216 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 44M 3 6 18:16 chromedriver.tar -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
tar 去掉 z 選項再打包一遍,大小為 104M
╭─ ~/D/test1[? 18:16:42] ╰─ tar -cvf chromedriver.tar chromedriver headless-chromium a chromedriver a headless-chromium ╭─ ~/D/test1[? 18:17:06] ╰─ ll total 443232 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 104M 3 6 18:17 chromedriver.tar -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
壓縮后的大小為 33M,相比 Gzip 的 44M 小了不少。耗時也非常的感人 6 分 18 秒,Gzip 只要 5 秒。
╭─ ~/D/test1[? 18:17:08] ╰─ time brotli -q 11 -j -f chromedriver.tar brotli -q 11 -j -f chromedriver.tar 375.39s user 1.66s system 99% cpu 6:18.21 total ╭─ ~/D/test1[? 18:24:23] ╰─ ll total 281552 -rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver -rw-r--r-- 1 vangie staff 33M 3 6 18:17 chromedriver.tar.br -rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
運行時解壓縮
下面以 java maven 項目為例
添加解壓依賴包
org.apache.commons commons-compress 1.18 org.brotli dec 0.1.2
commons-compress
是 apache 提供的解壓縮工具包,對于各種壓縮算法提供一致的抽象接口,其中對于 brotli 算法只支持解壓,這里足夠了。org.brotli:dec
包是 Google 提供的 brotli 解壓算法的底層實現(xiàn)。
實現(xiàn) initialize 方法
public class ChromeDemo implements FunctionInitializer { public void initialize(Context context) throws IOException { Instant start = Instant.now(); try (TarArchiveInputStream in = new TarArchiveInputStream( new BrotliCompressorInputStream( new BufferedInputStream( new FileInputStream("chromedriver.tar.br"))))) { TarArchiveEntry entry; while ((entry = in.getNextTarEntry()) != null) { if (entry.isDirectory()) { continue; } File file = new File("/tmp/bin", entry.getName()); File parent = file.getParentFile(); if (!parent.exists()) { parent.mkdirs(); } System.out.println("extract file to " + file.getAbsolutePath()); try (FileOutputStream out = new FileOutputStream(file)) { IOUtils.copy(in, out); } Files.setPosixFilePermissions(file.getCanonicalFile().toPath(), getPosixFilePermission(entry.getMode())); } } Instant finish = Instant.now(); long timeElapsed = Duration.between(start, finish).toMillis(); System.out.println("Extract binary elapsed: " + timeElapsed + "ms"); } }
實現(xiàn)
FunctionInitializer
接口的
initialize
方法。解壓過程剛開始是四層嵌套流,作用分別如下:
FileInputStream
讀取文件BufferedInputStream
提供緩存,介紹系統(tǒng)調(diào)用帶來的上下文切換,提示讀取的速度BrotliCompressorInputStream
對字節(jié)流進行解碼TarArchiveInputStream
把 tar 包里的文件逐個解出來
然后
Files.setPosixFilePermissions
的作用是還原 tar 包中文件的權限。代碼太長此處略去,參閱
packed-selenium-java-example
Instant start = Instant.now(); ... Instant finish = Instant.now(); long timeElapsed = Duration.between(start, finish).toMillis(); System.out.println("Extract binary elapsed: " + timeElapsed + "ms");
上面的代碼段會打印出解壓的耗時,真實執(zhí)行大概在 3.7 s 左右。
最后不要忘記在
template.yml
里配置上
Initializer
和
InitializationTimeout
以上就是如何使用brotli壓縮大文件,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降摹OM隳芡ㄟ^這篇文章學到更多知識。更多詳情敬請關注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
當前文章:如何使用brotli壓縮大文件
瀏覽地址:http://www.ef60e0e.cn/article/ijeppc.html