今回はいつもと違いまして、検証を行ってみました。NCBIに登録されているゲノムの一覧をとってきて、Taxonomy のランクごとにサイズを見てみます。使用したゲノムの一覧は NCBI のデータがある FTP の「Genome」フォルダからとってきました。全データが載っている overview.txt (更新日時 2018/11/20 21:48:00)です。
このファイルから「Kingdom」「Group」「SubGroup」毎に、登録数、最小値、最大値、平均値を計算しました。結果はそれぞれ以下の通りです。
Kingdom で集計したゲノムサイズ
Count | Minimum(Mb) | Maximum(Mb) | Average(Mb) | |
Archaea | 1595 | 0.100212 | 7.41692 | 1.82969 |
Bacteria | 23374 | 0.101587 | 68.0035 | 3.18411 |
Eukaryota | 3575 | 0.564783 | 32393.6 | 450.769 |
Viroids | 46 | 0.000246 | 0.000434 | 0.000335522 |
Viruses | 12142 | 0.000174 | 49.3129 | 0.0498276 |
最小値から最大値の範囲をプロットでみてみました。
ログスケールですが、Viruses と Eukaryota のサイズの幅広さを感じます。
Group で集計したゲノムサイズ
Count | Minimum(Mb) | Maximum(Mb) | Average(Mb) | |
Archaea:Euryarchaeota | 1053 | 0.137797 | 7.41692 | 2.09029 |
Bacteria:Acidobacteria | 160 | 0.615657 | 11.5087 | 4.20309 |
Bacteria:Aquificae | 28 | 1.30251 | 3.03824 | 1.68589 |
Bacteria:Balneolaeota | 52 | 1.58237 | 5.08334 | 3.42279 |
Bacteria:Caldiserica | 20 | 0.503801 | 2.09593 | 1.43009 |
Bacteria:Calditrichaeota | 5 | 2.81649 | 5.16441 | 4.00706 |
Bacteria:Chrysiogenetes | 3 | 2.49639 | 2.92838 | 2.74998 |
Bacteria:Deferribacteres | 15 | 2.00803 | 3.77484 | 2.67861 |
Bacteria:Dictyoglomi | 3 | 1.85556 | 1.95999 | 1.91419 |
Bacteria:Elusimicrobia | 107 | 0.138304 | 4.75968 | 2.23696 |
Bacteria:Fusobacteria | 50 | 0.457836 | 4.48665 | 2.08629 |
Bacteria:Nitrospirae | 130 | 0.281158 | 6.31044 | 2.40378 |
Bacteria:Proteobacteria | 7322 | 0.112613 | 25.1426 | 3.76246 |
Bacteria:Rhodothermaeota | 10 | 1.01591 | 4.98107 | 2.69336 |
Bacteria:Spirochaetes | 214 | 0.800167 | 6.9233 | 3.05796 |
Bacteria:Synergistetes | 65 | 0.753593 | 3.58519 | 2.03338 |
Bacteria:Thermodesulfobacteria | 13 | 1.29324 | 2.32222 | 1.86907 |
Bacteria:Thermotogae | 58 | 0.343694 | 3.31212 | 2.17382 |
Eukaryota:Animals | 1125 | 0.662517 | 32393.6 | 1034.69 |
Eukaryota:Fungi | 1746 | 2.08112 | 567.861 | 34.1148 |
Eukaryota:Other | 21 | 13.712 | 543.426 | 108.706 |
Eukaryota:Plants | 389 | 0.985624 | 27602.7 | 946.779 |
Eukaryota:Protists | 294 | 0.564783 | 808.227 | 58.9418 |
Viroids:Avsunviroidae | 4 | 0.000247 | 0.000399 | 0.0003295 |
Viroids:Pospiviroidae | 35 | 0.000246 | 0.000371 | 0.000326114 |
Viruses:Deltavirus | 1 | 0.001697 | 0.001697 | 0.001697 |
Viruses:Other | 1236 | 0.000266 | 49.3129 | 0.0487177 |
Viruses:Satellites | 275 | 0.00022 | 0.00396 | 0.00120415 |
同じくプロット。
SubGroup で集計したゲノムサイズ
Count | Minimum(Mb) | Maximum(Mb) | Average(Mb) | |
Archaea:Euryarchaeota:Archaeoglobi | 12 | 1.56342 | 3.40804 | 2.19017 |
Archaea:Euryarchaeota:Hadesarchaea | 6 | 0.617632 | 1.23113 | 0.916839 |
Archaea:Euryarchaeota:Methanonatronarchaeia | 3 | 1.45659 | 2.14131 | 1.70368 |
Archaea:Euryarchaeota:Methanopyri | 3 | 0.207909 | 1.69497 | 1.11106 |
Archaea:Euryarchaeota:Theionarchaea | 2 | 3.55955 | 4.77206 | 4.1658 |
Archaea:Euryarchaeota:Thermococci | 35 | 1.65203 | 2.36235 | 1.94144 |
Bacteria:Acidobacteria:Acidobacteriia | 37 | 1.75738 | 8.17713 | 5.28708 |
Bacteria:Acidobacteria:Blastocatellia | 5 | 3.69537 | 8.14954 | 5.72988 |
Bacteria:Acidobacteria:Holophagae | 12 | 3.28981 | 8.02495 | 4.29753 |
Bacteria:Acidobacteria:Solibacteres | 12 | 1.81232 | 11.5087 | 6.08357 |
Bacteria:Aquificae:Aquificae | 27 | 1.31563 | 3.03824 | 1.70009 |
Bacteria:Balneolaeota:Balneolia | 52 | 1.58237 | 5.08334 | 3.42279 |
Bacteria:Caldiserica:Caldisericia | 2 | 1.22154 | 1.5581 | 1.38982 |
Bacteria:Calditrichaeota:Calditrichae | 2 | 3.55489 | 4.97854 | 4.26671 |
Bacteria:Chrysiogenetes:Chrysiogenetes | 3 | 2.49639 | 2.92838 | 2.74998 |
Bacteria:Deferribacteres:Deferribacteres | 15 | 2.00803 | 3.77484 | 2.67861 |
Bacteria:Dictyoglomi:Dictyoglomia | 3 | 1.85556 | 1.95999 | 1.91419 |
Bacteria:Elusimicrobia:Elusimicrobia | 3 | 1.50144 | 1.88817 | 1.67772 |
Bacteria:Elusimicrobia:Endomicrobia | 2 | 1.58898 | 3.37386 | 2.48142 |
Bacteria:Fusobacteria:Fusobacteriia | 49 | 0.457836 | 4.48665 | 2.11589 |
Bacteria:Nitrospirae:Nitrospira | 40 | 1.41661 | 6.31044 | 3.09868 |
Bacteria:Proteobacteria:Acidithiobacillia | 10 | 2.28308 | 3.57802 | 2.99622 |
Bacteria:Proteobacteria:Alphaproteobacteria | 2369 | 0.113433 | 10.2866 | 3.63952 |
Bacteria:Proteobacteria:Betaproteobacteria | 1038 | 0.113075 | 25.1426 | 4.32237 |
Bacteria:Proteobacteria:Gammaproteobacteria | 2757 | 0.112613 | 14.113 | 3.88602 |
Bacteria:Proteobacteria:Hydrogenophilalia | 34 | 0.42875 | 3.60035 | 2.46947 |
Bacteria:Proteobacteria:Oligoflexia | 95 | 1.86356 | 7.56911 | 3.47245 |
Bacteria:Proteobacteria:Zetaproteobacteria | 42 | 0.45271 | 3.82703 | 2.242 |
Bacteria:Rhodothermaeota:Rhodothermia | 5 | 3.40536 | 4.98107 | 4.16948 |
Bacteria:Spirochaetes:Spirochaetia | 176 | 0.800167 | 6.9233 | 2.95016 |
Bacteria:Synergistetes:Synergistia | 62 | 0.753593 | 3.58519 | 2.05964 |
Bacteria:Thermodesulfobacteria:Thermodesulfobacteria | 12 | 1.29324 | 2.32222 | 1.86549 |
Bacteria:Thermotogae:Thermotogae | 56 | 1.44583 | 3.31212 | 2.20895 |
Eukaryota:Animals:Amphibians | 6 | 1440.4 | 32393.6 | 7901.4 |
Eukaryota:Animals:Birds | 129 | 657.025 | 1523.97 | 1134.81 |
Eukaryota:Animals:Fishes | 191 | 5.23461 | 4470.98 | 844.995 |
Eukaryota:Animals:Flatworms | 22 | 67.3807 | 1428.15 | 540.806 |
Eukaryota:Animals:Insects | 327 | 2.66463 | 5759.8 | 431.194 |
Eukaryota:Animals:Mammals | 185 | 91.4257 | 4444.08 | 2597.39 |
Eukaryota:Animals:Reptiles | 31 | 1126.79 | 4272.21 | 1911.58 |
Eukaryota:Animals:Roundworms | 93 | 1.48083 | 700.607 | 153.144 |
Eukaryota:Fungi:Ascomycetes | 1239 | 6.35938 | 192.781 | 30.1622 |
Eukaryota:Fungi:Basidiomycetes | 391 | 3.4705 | 237.275 | 44.4196 |
Eukaryota:Other:Other | 21 | 13.712 | 543.426 | 108.706 |
Eukaryota:Protists:Apicomplexans | 57 | 6.14941 | 124.405 | 29.9697 |
Eukaryota:Protists:Kinetoplasts | 48 | 9.4778 | 89.9375 | 31.2028 |
Viroids:Avsunviroidae:Avsunviroid | 1 | 0.000247 | 0.000247 | 0.000247 |
Viroids:Avsunviroidae:Elaviroid | 1 | 0.000335 | 0.000335 | 0.000335 |
Viroids:Avsunviroidae:Pelamoviroid | 2 | 0.000337 | 0.000399 | 0.000368 |
Viroids:Pospiviroidae:Apscaviroid | 12 | 0.000292 | 0.000369 | 0.000328417 |
Viroids:Pospiviroidae:Cocadviroid | 4 | 0.000246 | 0.000284 | 0.00026 |
Viroids:Pospiviroidae:Coleviroid | 6 | 0.000248 | 0.000364 | 0.000304 |
Viroids:Pospiviroidae:Hostuviroid | 2 | 0.000302 | 0.000342 | 0.000322 |
Viroids:Pospiviroidae:Pospiviroid | 11 | 0.000348 | 0.000371 | 0.000360455 |
Viruses:Deltavirus:unclassified | 1 | 0.001697 | 0.001697 | 0.001697 |
Viruses:Other:Caulimoviridae | 78 | 0.001795 | 0.013221 | 0.00772536 |
Viruses:Other:Metaviridae | 1 | 0.00751 | 0.00751 | 0.00751 |
Viruses:Other:Other | 1062 | 0.001684 | 49.3129 | 0.0553724 |
Viruses:Other:Pleolipoviridae | 9 | 0.007048 | 0.016067 | 0.00985444 |
Viruses:Other:Retroviridae | 86 | 0.000266 | 0.013246 | 0.00826452 |
Viruses:Satellites:Alphasatellitidae | 90 | 0.000995 | 0.001479 | 0.00127717 |
Viruses:Satellites:Tolecusatellitidae | 134 | 0.000662 | 0.001436 | 0.00128581 |
Viruses:Satellites:unclassified | 51 | 0.00022 | 0.00396 | 0.000860745 |
同じくプロット。
これ以上は kingdom 別にプロットとかがよさそうですね。
エクセルだとデータサイズの制限や、計算が遅いのでスクリプトでプログラムを作成して集計してみました。弊社ではこういった簡単なプログラムがサービス内で必要になった場合は、カスタムさせていただいております。
また、以下の記事では、スクリプト言語である Perl の使い方についてお話しております。
自分で集計してみたい!といった方にお勧めです。