ゲノムのサイズ感をつかむ

 今回はいつもと違いまして、検証を行ってみました。NCBIに登録されているゲノムの一覧をとってきて、Taxonomy のランクごとにサイズを見てみます。使用したゲノムの一覧は NCBI のデータがある FTP の「Genome」フォルダからとってきました。全データが載っている overview.txt (更新日時 2018/11/20 21:48:00)です。
 このファイルから「Kingdom」「Group」「SubGroup」毎に、登録数、最小値、最大値、平均値を計算しました。結果はそれぞれ以下の通りです。

Kingdom で集計したゲノムサイズ

Count Minimum(Mb) Maximum(Mb) Average(Mb)
Archaea 1595 0.100212 7.41692 1.82969
Bacteria 23374 0.101587 68.0035 3.18411
Eukaryota 3575 0.564783 32393.6 450.769
Viroids 46 0.000246 0.000434 0.000335522
Viruses 12142 0.000174 49.3129 0.0498276

 最小値から最大値の範囲をプロットでみてみました。

 ログスケールですが、Viruses と Eukaryota のサイズの幅広さを感じます。

Group で集計したゲノムサイズ

Count Minimum(Mb) Maximum(Mb) Average(Mb)
Archaea:Euryarchaeota 1053 0.137797 7.41692 2.09029
Bacteria:Acidobacteria 160 0.615657 11.5087 4.20309
Bacteria:Aquificae 28 1.30251 3.03824 1.68589
Bacteria:Balneolaeota 52 1.58237 5.08334 3.42279
Bacteria:Caldiserica 20 0.503801 2.09593 1.43009
Bacteria:Calditrichaeota 5 2.81649 5.16441 4.00706
Bacteria:Chrysiogenetes 3 2.49639 2.92838 2.74998
Bacteria:Deferribacteres 15 2.00803 3.77484 2.67861
Bacteria:Dictyoglomi 3 1.85556 1.95999 1.91419
Bacteria:Elusimicrobia 107 0.138304 4.75968 2.23696
Bacteria:Fusobacteria 50 0.457836 4.48665 2.08629
Bacteria:Nitrospirae 130 0.281158 6.31044 2.40378
Bacteria:Proteobacteria 7322 0.112613 25.1426 3.76246
Bacteria:Rhodothermaeota 10 1.01591 4.98107 2.69336
Bacteria:Spirochaetes 214 0.800167 6.9233 3.05796
Bacteria:Synergistetes 65 0.753593 3.58519 2.03338
Bacteria:Thermodesulfobacteria 13 1.29324 2.32222 1.86907
Bacteria:Thermotogae 58 0.343694 3.31212 2.17382
Eukaryota:Animals 1125 0.662517 32393.6 1034.69
Eukaryota:Fungi 1746 2.08112 567.861 34.1148
Eukaryota:Other 21 13.712 543.426 108.706
Eukaryota:Plants 389 0.985624 27602.7 946.779
Eukaryota:Protists 294 0.564783 808.227 58.9418
Viroids:Avsunviroidae 4 0.000247 0.000399 0.0003295
Viroids:Pospiviroidae 35 0.000246 0.000371 0.000326114
Viruses:Deltavirus 1 0.001697 0.001697 0.001697
Viruses:Other 1236 0.000266 49.3129 0.0487177
Viruses:Satellites 275 0.00022 0.00396 0.00120415

 同じくプロット。

SubGroup で集計したゲノムサイズ

Count Minimum(Mb) Maximum(Mb) Average(Mb)
Archaea:Euryarchaeota:Archaeoglobi 12 1.56342 3.40804 2.19017
Archaea:Euryarchaeota:Hadesarchaea 6 0.617632 1.23113 0.916839
Archaea:Euryarchaeota:Methanonatronarchaeia 3 1.45659 2.14131 1.70368
Archaea:Euryarchaeota:Methanopyri 3 0.207909 1.69497 1.11106
Archaea:Euryarchaeota:Theionarchaea 2 3.55955 4.77206 4.1658
Archaea:Euryarchaeota:Thermococci 35 1.65203 2.36235 1.94144
Bacteria:Acidobacteria:Acidobacteriia 37 1.75738 8.17713 5.28708
Bacteria:Acidobacteria:Blastocatellia 5 3.69537 8.14954 5.72988
Bacteria:Acidobacteria:Holophagae 12 3.28981 8.02495 4.29753
Bacteria:Acidobacteria:Solibacteres 12 1.81232 11.5087 6.08357
Bacteria:Aquificae:Aquificae 27 1.31563 3.03824 1.70009
Bacteria:Balneolaeota:Balneolia 52 1.58237 5.08334 3.42279
Bacteria:Caldiserica:Caldisericia 2 1.22154 1.5581 1.38982
Bacteria:Calditrichaeota:Calditrichae 2 3.55489 4.97854 4.26671
Bacteria:Chrysiogenetes:Chrysiogenetes 3 2.49639 2.92838 2.74998
Bacteria:Deferribacteres:Deferribacteres 15 2.00803 3.77484 2.67861
Bacteria:Dictyoglomi:Dictyoglomia 3 1.85556 1.95999 1.91419
Bacteria:Elusimicrobia:Elusimicrobia 3 1.50144 1.88817 1.67772
Bacteria:Elusimicrobia:Endomicrobia 2 1.58898 3.37386 2.48142
Bacteria:Fusobacteria:Fusobacteriia 49 0.457836 4.48665 2.11589
Bacteria:Nitrospirae:Nitrospira 40 1.41661 6.31044 3.09868
Bacteria:Proteobacteria:Acidithiobacillia 10 2.28308 3.57802 2.99622
Bacteria:Proteobacteria:Alphaproteobacteria 2369 0.113433 10.2866 3.63952
Bacteria:Proteobacteria:Betaproteobacteria 1038 0.113075 25.1426 4.32237
Bacteria:Proteobacteria:Gammaproteobacteria 2757 0.112613 14.113 3.88602
Bacteria:Proteobacteria:Hydrogenophilalia 34 0.42875 3.60035 2.46947
Bacteria:Proteobacteria:Oligoflexia 95 1.86356 7.56911 3.47245
Bacteria:Proteobacteria:Zetaproteobacteria 42 0.45271 3.82703 2.242
Bacteria:Rhodothermaeota:Rhodothermia 5 3.40536 4.98107 4.16948
Bacteria:Spirochaetes:Spirochaetia 176 0.800167 6.9233 2.95016
Bacteria:Synergistetes:Synergistia 62 0.753593 3.58519 2.05964
Bacteria:Thermodesulfobacteria:Thermodesulfobacteria 12 1.29324 2.32222 1.86549
Bacteria:Thermotogae:Thermotogae 56 1.44583 3.31212 2.20895
Eukaryota:Animals:Amphibians 6 1440.4 32393.6 7901.4
Eukaryota:Animals:Birds 129 657.025 1523.97 1134.81
Eukaryota:Animals:Fishes 191 5.23461 4470.98 844.995
Eukaryota:Animals:Flatworms 22 67.3807 1428.15 540.806
Eukaryota:Animals:Insects 327 2.66463 5759.8 431.194
Eukaryota:Animals:Mammals 185 91.4257 4444.08 2597.39
Eukaryota:Animals:Reptiles 31 1126.79 4272.21 1911.58
Eukaryota:Animals:Roundworms 93 1.48083 700.607 153.144
Eukaryota:Fungi:Ascomycetes 1239 6.35938 192.781 30.1622
Eukaryota:Fungi:Basidiomycetes 391 3.4705 237.275 44.4196
Eukaryota:Other:Other 21 13.712 543.426 108.706
Eukaryota:Protists:Apicomplexans 57 6.14941 124.405 29.9697
Eukaryota:Protists:Kinetoplasts 48 9.4778 89.9375 31.2028
Viroids:Avsunviroidae:Avsunviroid 1 0.000247 0.000247 0.000247
Viroids:Avsunviroidae:Elaviroid 1 0.000335 0.000335 0.000335
Viroids:Avsunviroidae:Pelamoviroid 2 0.000337 0.000399 0.000368
Viroids:Pospiviroidae:Apscaviroid 12 0.000292 0.000369 0.000328417
Viroids:Pospiviroidae:Cocadviroid 4 0.000246 0.000284 0.00026
Viroids:Pospiviroidae:Coleviroid 6 0.000248 0.000364 0.000304
Viroids:Pospiviroidae:Hostuviroid 2 0.000302 0.000342 0.000322
Viroids:Pospiviroidae:Pospiviroid 11 0.000348 0.000371 0.000360455
Viruses:Deltavirus:unclassified 1 0.001697 0.001697 0.001697
Viruses:Other:Caulimoviridae 78 0.001795 0.013221 0.00772536
Viruses:Other:Metaviridae 1 0.00751 0.00751 0.00751
Viruses:Other:Other 1062 0.001684 49.3129 0.0553724
Viruses:Other:Pleolipoviridae 9 0.007048 0.016067 0.00985444
Viruses:Other:Retroviridae 86 0.000266 0.013246 0.00826452
Viruses:Satellites:Alphasatellitidae 90 0.000995 0.001479 0.00127717
Viruses:Satellites:Tolecusatellitidae 134 0.000662 0.001436 0.00128581
Viruses:Satellites:unclassified 51 0.00022 0.00396 0.000860745

 同じくプロット。

 これ以上は kingdom 別にプロットとかがよさそうですね。

 エクセルだとデータサイズの制限や、計算が遅いのでスクリプトでプログラムを作成して集計してみました。弊社ではこういった簡単なプログラムがサービス内で必要になった場合は、カスタムさせていただいております。

 また、以下の記事では、スクリプト言語である Perl の使い方についてお話しております。

 自分で集計してみたい!といった方にお勧めです。