Profile cover photo
Profile photo
Mike Chen
67 followers
67 followers
About
Posts

Post has attachment
CESM on Infiniband / 10GbE 夢幻競演 (什麼啦
OK, 這是上次那篇的續集. 系統後來加上了Infiniband 56GB/s, 所以變成同時有IB跟10GbE. 難得遇到的機會, 當然要來測一測! 測試環境: CentOS 7.3.1611 kernel: 3.10.0-514.6.1.el7.x86_64 OFED: MLNX 4.0-1.0.1.0 Compiler: Intel 13.1.3.192 OpenMPI: 1.8.8 nodes: 12 CPUs * 4 nodes 因為OpenMPI, 可以用--mca參數, 在mpirun時直接控制...
Add a comment...

Post has attachment
CESM on 10GbE vs Infiniband
CESM是一個大氣科學的計算模型, 不過我不會假裝我知道裡面在幹嘛XD 這裡主要紀錄一下最近遇到的狀況: 在10GbE上面跑超慢的. 這是我第一次在10GbE的系統上裝CESM 1.0.6 測試用的case是 -res 1.9x2.5_gx1v6 -compset B_2000. 幾個發現: 1. 會挑Compiler跟MPI版本. 這邊試了 Intel compiler 17.0跟13.1, 還有分別用兩種compiler編的OpenMPI 1.8.8 與 MPICH 3.2. NetCDF都是用4.4.1...
Add a comment...

Post has attachment
tar的多重exclude寫法
正常是這樣: tar --exclude=EXCLUDE_1 --exclude=EXCLUDE_2 .... 但是多起來的時候會很囉嗦. 另一個比較簡便的寫法是, 用大括號: tar --exclude={EXCLUDE_1,EXCLUDE_2.....}
Add a comment...

Post has attachment
GlusterFS disperse volume測試
這是3.7.0的新功能, 如果能穩定使用的話會是一個很厲害的功能... 以之前的GlusterFS來說, 在容錯方面都是用replicate來做, 或是搭配stripe做成stripe replicate volume. 因為複製就是1:1(或更多), 所以實際可用容量會是底層容量的1/2或更少, 說起來相當浪費 而disperse volume目前看起來是一個很好的想法. 簡單來說, disperse volume就類似硬碟的RAID5或RAID6. 把資料分散到各個brick上, 但是同時利用erasur...
Add a comment...

Post has attachment
從BMC更新Dell C6220 ii的BIOS
不是BMC FW喔, 是BIOS. 官方的說明都只有說in OS的更新方式, 就是直接從OS裡面跑相對應的更新包. 但是其實可以從BMC裡面更新. 方法很簡單... 下載的時候找那個floppy的, 副檔名.exe的包裝 去一台windows機器上執行, 解到你爽的地方 然後把該目錄底下, 那個約8MB, 副檔名hdr的檔案餵給BMC即可. 記得更新類型要選BIOS. 先上傳, 畫面更新後點下方的update. 要注意的是, 不像一般PowerEdge M/R系列, BIOS上傳完會到下次重開才更新 C系列u...
Add a comment...

Post has attachment
GlusterFS replicate volume測試
最近突然想到測試一下這個XD 隨手筆記一下. 測試環境: CentOS 6.6的VM, 安裝GlusterFS 3.6.3 gfs1: 192.168.20.101, /dev/sda3 XFS, 掛在/export/sda3 gfs2: 192.168.20.102, /dev/sda3 XFS, 掛在/export/sda3 gfsc: 192.168.20.103 (c是client的意思) 註: mkfs.xfs的時候, 建議用的參數: mkfs.xfs /dev/sda3 -i size=512 -...
Add a comment...

Post has attachment
用Raspberry Pi 2架設Ganglia server
之前曾經在Raspberry Pi model B上面試過, 但是超級緩慢的I/O根本沒辦法應付node較多時的需求. 以現在的狀況來說, 我要收80個node的資料, rrd資料檔就到1.8GB左右... 而且就算node少, 單核心的CPU光是回應rrdtool的需求就喘了XD Raspberry Pi 2 model B從ARMv6 900MHz單核心, 一舉升級到ARM Cortex-A7 900MHz 四核心, CPU效能有很大的成長, 記憶體量也加倍 (512MB to 1GB), 至少可以預期h...
Add a comment...

Post has attachment
[Torque] 讓node重開機後, 不會重跑job的方法
正常來說, 如果一個node跑job跑到一半重新開機的話, 下一次與server連線後, server會要求node重新跑這些job. 但是在某些情形下, 這樣反而會造成不想要的效果, 例如某個把記憶體吃光的job又重新跑, 然後又再當機一次... 或是使用者可以用跑一半的資料接續下去使用, 但是job自動重跑的話, 跑一半的資料反而被洗掉等等. 關鍵點是node上的pbs_mom, 遇到重新啟動時的行為. 預設值的話, mom要真的把job跑完, 才會回報job結束. 但是這個行為可以改, 說明在這裡: (...
Add a comment...

Post has attachment
[CentOS 7] NIS domain name 開機不會自動設定
在之前的CentOS版本, 開機時系統會去找 /etc/sysconfig/network 裡面的: NISDOMAIN= 這一行, 用來設定NIS domain name. 但是在現在的CentOS, 這不會work XD 其實systemd裡面的rhel-domainname.service會負責這件事情, 但是至少最小安裝時, 這個service開機時是不會啟動的. 但等等! 目前版本的service檔 (initscripts-9.49.17-1.el7_0.1, as 2014/10/24) 裡面有...
Add a comment...

Anyone start the ypserv on CentOS 7 successfully?
I got the following message:
"Cannot register service: RPC: Authentication error; why = Client credential too weak"
Created the /var/yp/securenets, and SELinux disabled.
Wait while more posts are being loaded