研究テーマ紹介

生物学のデータ解析

非モデル生物における条件依存的な選択的スプライシングの網羅的探索手法

遺伝子の数に限りがある中で様々な条件に対して遺伝子の発現を制御するにあたり,選択的スプライシングが重要な役割を担っていることが知られている.例えば,ヒトの遺伝子数は約25,000個と言われている.一方,線虫の遺伝子数は大体18,000個で,ヒトの70%くらい.ところが両者の生物としての機能は段違い.この選択的スプライシングはモデル生物ではよく研究されているが,非モデル生物では現状それほど研究されていない.

この問題に対して申請者らは,従来の方法のようにゲノム配列やアノテーション情報を必要とせず,RNA-seqの情報のみから条件依存の選択的スプライシングを網羅的に発見する手法を開発した.非モデル生物における条件依存の選択的スプライシングの網羅的発見手法DASEを開発し,種々の生物から得られたRNA-seq実験データでの検証を行っている.ちなみに現在では,DASE2を経てDASE-AGというバージョンになっている.

シングルセルトランスクリプトーム実験で得られる選択的ポリアデニル化現象の把握

転写産物の選択的ポリアデニル化は,50%以上のヒト遺伝子の機能発現に影響し,がんや糖尿病などの疾患に関わっているという報告がある.よって、選択的にポリアデニル化される部位の中には,新規な疾患の早期捕捉マーカーとなるものが存在すると考えられる.
マーカーとなる選択的ポリアデニル化部位を抽出することは,計算処理量の多さから従来の遺伝子発現データを用いた解析だけでは困難とされている.

最近の実験技術が進歩したことにより,今まででは生物の組織単位でしたデータが得られなかったものが,組織の各細胞ごとにデータが得られるようになった(当然データ量は膨大).各細胞ごとのmRNAの発現を見る実験をシングルセルトランスクリプトーム解析という.本研究ではシングルセルトランスクリプトーム解析によって得られたデータをもとに,統計解析を活用して選択的ポリアデニル化部位候補列挙アルゴリズムを開発することで,疾患に関係する異常状態を検出するマーカーを網羅的に発見する手法を開発し,選択的ポリアデニル化部位を指標とした疾患検出のシステムの基盤を構築することを目的とする.

スポーツデータ解析

日本統計学会スポーツデータサイエンス分科会の主催で,スポーツデータ解析コンペティションが2011年から毎年開催されている.このコンペティションにおいては,野球やサッカーといった(競技は変更されることもある)スポーツに関して,実際に日本で開催された試合のデータを使用して,データの解析手法開発や新たな知見の獲得を競い合う.私(米澤)自身は学生とともに,2017年から毎年参加している.

このコンペティションにおいては他大学の学部生も多数参加し,優秀な成績を収めている.興味があれば(研究室配属前であっても)是非知らせて欲しい.

COVID-19の感染拡大シミュレーション

2019年に発生したCOVID-19の世界的な大流行により,2021年8月末現在感染者数は2億人を超え,死者も450万人以上となっている.日本も累積の感染者数が150万人以上,死者数が1万6千人余りとなっている.他方,感染者数や死者数は日本よりもかなり悪い国も多数存在している.このCOVID-19の感染症がどう拡散するか把握するため,SIRモデルという数理モデルとその発展型を用いたシミュレーションが行われている.

本研究室では,SIRモデルを用いて各国の感染者数の変動の特徴やワクチンの影響度などを把握することを目的とした研究を行っている.