bash、awk、sed、trで小文字・大文字に変換する方法とベンチマーク結果

bash、awk、sed、tr で小文字、大文字への変換方法と、それぞれのベンチマーク結果を紹介します。

検証環境⌗

検証した環境は以下のとおりです。

OS
- Ubuntu 20.04.1 LTS
bash
- GNU bash, version 5.0.17(1)-release (x86_64-pc-linux-gnu)
gawk
- GNU Awk 5.0.1, API: 2.0 (GNU MPFR 4.0.2, GNU MP 6.2.0)
mawk
- 1.3.4 20200120
sed
- sed (GNU sed) 4.7
tr
- tr (GNU coreutils) 8.30

bash⌗

ドキュメントに以下のように書かれています。

The ‘^’ operator converts lowercase letters matching pattern to uppercase; the ‘,’ operator converts matching uppercase letters to lowercase. The ‘^^’ and ‘,,’ expansions convert each matched character in the expanded value;

# to upper
$ val="AAA"
$ echo ${val,,}
aaa

# to lower
$ val="aaa"
$ echo ${val^^}
AAA

awk⌗

ドキュメントに tolower と toupper という関数があると書かれています。

# to lower
$ echo AAA | awk '{print tolower($0)}'
aaa

# to upper
$ echo aaa | awk '{print toupper($0)}'
AAA

ベンチマーク⌗

小文字、大文字への変換方法を紹介したので、次はそれぞれの実行速度をベンチマークします。ベンチマークには hyperfine を使います。

スクリプトの生成⌗

色々な長さの文字列に対して変換処理するために、以下のようなスクリプトを書いて任意の長さの文字列に対してコマンドを実行するスクリプトを生成します。

#!/bin/bash

n=${1}

str=$(perl -e "print 'a' x ${n}")

cat <<EOF > bash-n${n}.sh
v=${str}; echo \${v^^}
EOF

cat <<EOF > tr-n${n}.sh
echo ${str} | tr '[:lower:]' '[:upper:]'
EOF

cat <<EOF > sed-n${n}.sh
echo ${str} | sed -e 's/\(.*\)/\U\1/'
EOF

cat <<EOF > gawk-n${n}.sh
echo ${str} | gawk '{print toupper(\$0)}'
EOF

cat <<EOF > mawk-n${n}.sh
echo ${str} | mawk '{print toupper(\$0)}'
EOF

cat <<EOF > benchmark-n${n}.sh
hyperfine --warmup 3 --min-runs 1000 "bash bash-n${n}.sh" "bash tr-n${n}.sh" "bash sed-n${n}.sh" "bash gawk-n${n}.sh" "bash mawk-n${n}.sh" --export-markdown benchmark-result-n${1}.md
EOF

上記のスクリプトを gen-scripts.sh としたとき、gen-scripts.sh 10 のように実行すれば、aaaaaaaaaa(length = 10) に対してコマンドを実行するスクリプトと hyperhine でそれらをベンチマークするスクリプトを生成することができます。面倒小文字への変換と大文字への変換で結果が変わることはないと思われるので、大文字への変換でのみベンチマークをします。

結果⌗

文字列の長さは 10、100、1,000、10,000、100,000、1000,000 でベンチマークしました。*-n10.sh は文字列の長さが 10、*-n100.sh は文字列の長さが 100、… となっています。ベンチマークは Ubuntu 20.04.1 で行いましたが、最初からインストールされている awk が mawk だったので、gawk でも計測しています。

Command	Mean [ms]	Min [ms]	Max [ms]	Relative
`bash bash-n10.sh`	2.2 ± 0.5	1.5	6.3	1.00
`bash tr-n10.sh`	3.1 ± 0.6	2.4	9.6	1.43 ± 0.44
`bash sed-n10.sh`	3.3 ± 0.5	2.7	6.7	1.55 ± 0.44
`bash gawk-n10.sh`	3.9 ± 0.7	3.1	8.5	1.81 ± 0.54
`bash mawk-n10.sh`	3.3 ± 0.6	2.5	6.7	1.52 ± 0.46

Command	Mean [ms]	Min [ms]	Max [ms]	Relative
`bash bash-n100.sh`	1.6 ± 0.3	1.1	3.3	1.00
`bash tr-n100.sh`	2.6 ± 0.5	1.8	6.1	1.70 ± 0.45
`bash sed-n100.sh`	2.8 ± 0.5	2.2	5.6	1.79 ± 0.46
`bash gawk-n100.sh`	3.4 ± 0.6	2.6	6.8	2.16 ± 0.55
`bash mawk-n100.sh`	2.7 ± 0.5	2.0	6.4	1.70 ± 0.45

Command	Mean [ms]	Min [ms]	Max [ms]	Relative
`bash bash-n1000.sh`	2.3 ± 0.5	1.6	7.2	1.00
`bash tr-n1000.sh`	3.2 ± 1.3	2.4	19.0	1.44 ± 0.66
`bash sed-n1000.sh`	4.6 ± 2.2	2.8	24.1	2.02 ± 1.08
`bash gawk-n1000.sh`	4.1 ± 0.9	3.1	8.9	1.83 ± 0.57
`bash mawk-n1000.sh`	3.2 ± 0.4	2.6	6.3	1.40 ± 0.37

Command	Mean [ms]	Min [ms]	Max [ms]	Relative
`bash bash-n10000.sh`	3.1 ± 0.4	2.4	7.3	1.00
`bash tr-n10000.sh`	3.4 ± 0.6	2.6	6.1	1.11 ± 0.25
`bash sed-n10000.sh`	5.7 ± 26.5	3.8	842.7	1.84 ± 8.62
`bash gawk-n10000.sh`	4.4 ± 0.7	3.4	7.6	1.44 ± 0.31
`bash mawk-n10000.sh`	3.4 ± 0.4	2.7	5.5	1.10 ± 0.21

Command	Mean [ms]	Min [ms]	Max [ms]	Relative
`bash bash-n100000.sh`	17.1 ± 1.4	14.8	29.4	1.63 ± 0.20
`bash tr-n100000.sh`	10.5 ± 1.0	8.9	15.8	1.00
`bash sed-n100000.sh`	21.2 ± 1.6	19.0	39.2	2.02 ± 0.24
`bash gawk-n100000.sh`	12.8 ± 1.0	11.0	19.1	1.22 ± 0.15
`bash mawk-n100000.sh`	11.9 ± 0.7	10.7	18.3	1.13 ± 0.13

Command	Mean [ms]	Min [ms]	Max [ms]	Relative
`bash bash-n1000000.sh`	144.8 ± 11.2	126.3	206.8	1.89 ± 0.19
`bash tr-n1000000.sh`	77.4 ± 6.9	67.1	143.5	1.01 ± 0.11
`bash sed-n1000000.sh`	172.3 ± 13.6	151.1	276.5	2.24 ± 0.23
`bash gawk-n1000000.sh`	84.3 ± 5.4	75.4	103.7	1.10 ± 0.10
`bash mawk-n1000000.sh`	76.8 ± 5.0	68.8	128.3	1.00

結果をまとめると、

文字列の長さが 1,000 までは、bash の変数展開による変換が最も速い
文字列の長さが 10,000 になると、bash の変数展開、tr、mawk がほとんど同じ程度の速度になる
文字列の長さが 100,000 以上になると bash の変数展開が遅くなり、tr、mawk、gawk のほうが速くなる
tr と mawk は常にほとんど同じ程度の速度になる
sed はすべての結果において一番遅い
処理が単純だったからか、gawk と mawk での速度差はあまりなかった

まとめ⌗

コマンドで小文字、大文字に変換する方法とベンチマークの結果を紹介しました。単純に速度で考えると、文字列の長さに関係なく一貫して速かった tr か mawk が良さそうですが、top と bottom で 2 倍程度の速度差しかないため、実行回数が多くなければ好きなコマンドを使うので問題ないと思います。また、hyperfine では　CPU とメモリ使用量は計測されないため、それらも含めて考えるとどれを選択するかが変わりそうです。