今回ネホリハホリするバイオインフォマティクスの専門家、芳村さんには、自動化の神田さんからたどり着きました。膨大なNGS(次世代シーケンサー)からのデータをバシバシさばく縁の下の力持ち。男性が多いシステム関係の職場で働く女性ということで、いったいどんな人なんだろう?とワクワクしています。さてさて……。(聞き手:薬師寺秀樹

シングルセル解析

早速ですが、バイオインフォマティクス研究開発チーム(二階堂研)のご所属ですが、実際に実験をやる「ウェット」ではなくどっちかというと計算機でいろいろやる「ドライ」というか、データ解析をやる「バイオインフォマティクス」系なんですか?

そうですね。まったく実験はしていません。このチームは主にハイスループットシングルセルRNAシーケンス法(シングルセルRNA-seq)の技術開発をしています。これは、DNAから転写されたRNAを、細胞一つずつについて次世代シーケンサーという装置を使って解析する技術です。ちなみに日本語だと「1細胞」という言い方もするんですけど、英語だと「シングルセル」なので、シングルセルという言い方をすることが多いですね。これを使って他の研究室と共同研究を非常によくやっていまして、その解析部分を私が業務としてやっている感じになります。
ドライの研究者ももちろんいて、自分自身で研究テーマを持って、アルゴリズムとか解析手法の開発をしています。私はドライ側ですが、仕事はどちらかというとウェットのサポートが多い感じですね。

共同研究が多そうですけど、やっぱり皆さん、シングルセルに興味があるんですね。

それはやっぱりシングルセルで解析すると、細胞の集団としての解釈がしやすいからというのが大きいと思います。
以前はバルクRNA-seqといって、細胞全部一緒にしてしまって発現解析をするというのが主流だったと思うのですが、シングルセルRNA-seqをすることによって、細胞集団の中の細胞一つ一つの個性を見ることができるようになります。そうすると例えばiPSから別の細胞に分化していく過程などでの、一つ一つの細胞の様子の違いまで見ることができるんです。
あと、解析するのがとても大きな行列のデータになることで、さまざまな数学的手法を用いた解析を行えるという側面があり、その結果、データを多様な角度から検討することが可能な利点がある、というように私は理解しています。

バルク解析とシングルセル解析の違い

研究者には向いてないと思ったんですよ

芳村さんって、理研に来る前からずっとそういうお仕事なんですか?

学部から院生まではずっとウェット系の研究をしていて、博士号も実験をしてそのデータをまとめて取りました。なので、全然コンピューターは詳しくなかったんですが、大学院終了後にIT系企業に就職しまして。

おお?なぜに?(笑)

いろいろな事情が(笑)。研究者には向いていなかったなと思ったのが大きいですね。
まずシステム会社、いわゆるSIerに新卒で就職して、その後ソフトウェアパッケージ開発会社に転職して、理研に来た感じです。

すごい経歴ですね。なんでアカデミアの方に戻ろうと思ったんですか?

これもいろいろあったのですが、ソフトウェアパッケージ開発会社がけっこうハードなところで、体調を崩してしまったんです。IT業界って、30代半ばでみんな転職していくような感覚も強くて、この会社でずっといるビジョンがあまりないなと思った時に、どうしようかなと考えて、まず某サイエンス教育系企業に社会人インターンとして入ってみました。そこで理研の研究者と知り合い、理研は研究者だけではなく、サイエンスのバックグラウンドを持つ技術者も募集しているという話を聞いたんです。ちょうどその求人を出していたのが、今のラボでした。

その時点ではいわゆるバイオインフォマティクス的なスキルとかって、なさそうな感じがしますが……。

なかったですね(笑)。初めは、データ解析の解析基盤を作る業務をする人材として採用されました。ある程度生物のことを分かりつつ、プログラムを書けるスキルが必要とされていたのにちょうど当てはまったんです。一方で、私がデータ解析にも興味があったというのもあって、今は比重としては解析基盤の構築とデータ解析を半々でやっている感じです。
ラボではハードウェアの整備をする方をインフラチームと呼んでいるのですが、私はインフラの知識というのがそんなにないのですが、ラボにはもっとそういったことを専門にやるすごい方々が所属されています。インフラチームが運用してくださっている土台を基に、私はもう少し細かい仕事を請け負うようになっている感じです。

インフラと一言にいってもいろいろ

インフラって一言に言うけど、けっこう複雑ですよね。

二階堂研は計算機クラスタ(サーバーを何台も並列化していっぺんに計算させる)というインフラを持っていて、普段はそれをみんなでシェアして使っています。今はクラウドでの解析環境も準備していて、いずれは、クラウドに移行していくんでしょうね。

シングルセルの場合、データ解析のプラットフォームやインフラって、バルク解析でやっているときと比べると、やっぱりマシンパワーがいるんですか?

普通のマシンでもできないことはないんですけど、相当なスペックを求められますね。何百MBのメモリがないと全然終わらないとか、数TBくらいのデータができてしまったりとかするので、共有計算機とかの並列化で一気にやったり、巨大な容量がないともう追い付かないというか、現実的な時間で解析ができないような感じですね。

次世代シークエンサーから出てくるデータは膨大だが自動化できる

解析に76年かかりますと言われたら困りますもんね。

そうですね。なので、もう生物学と計算機は切っても切り離せないような感じです。
今はさまざまな解析ステップをコマンドライン1行で実行できるようなワークフローを作っていて、それが解析環境整備の仕事になっています。
なので、ハード的な部分よりは、ソフト的な方のプラットフォーム構築がメインですね。

なるほど。そうすると共同研究相手との窓口になる、というのもなんとなく理解できますね。

サーバーのメンテナンスをしてくれる専門の人がいるというのは、非常に大きいと思います。他の大学などでは、教室の主宰自らやっていたりするのもあると聞いたことがあるので。そういう面では、ドライメンバーはめちゃくちゃ恵まれている環境だなと思います。

そりゃみんな共同研究しに来るわけですね。

そうですね。共同研究先の方々に満足していただいているかどうかというのは、不安なところは大きいのですが。

先端技術が故の悩みどころ

不安?なんでですか?

やっぱりデータを解釈するに当たって、バックグラウンドの知識とか可能性を考えられるような土台が、やはり専門家の方々と比べたらどうしてもかなわないです。新しい発見って、ふとした気付きから見つけられるという部分もあると思うんです。それが自分で十分できているかと言われると、今までやってきても、まだ自信がないところですね。
なので、自分一人でデータ解析して結果を返しているわけではなくて、ラボのボスや研究員にも相談し、十分なレビューを受けた上でお返しするようにはしています。

その生物現象に対してある程度知識がないと解析が難しいこともありそうですね。

いろいろなケースがありますね。あらかじめかなり仮説が固くできていてその検証という場合は、比較的スムーズだと思います。ただ、シングルセル解析の結果を見て何か新しいものを見つけようというケースは難しいです。自分でも解釈の切り口を増やしたりもするのですが、やっぱりウェットの研究者からの視点でこういうのが足りないとか、そういった指摘をたくさん受けて、また解析をやってデータを出してみて……という、試行錯誤で埋めていくしかないような感じです。

新しいものを探す場合だと、その解析結果がいいのか悪いのかという判断は難しいですね。

そうですね。また、どんどん新しい解析ツールが出てくるので、常にアップデートしたりしていかないと、良い結果を返せなくなってしまうしんどさは常にありますね。やりようによってもっと効率化できるんだろうな、というのは常に感じつつやっています。
あと、当然のことですが、あまり同じようなことをやられている方が周りにいないというのがつらいですね。

なるほど。そうなると業務が標準化できないですね。

今後も進化し続けないと……

やっぱり技術がどんどん進んでいるんですよね。ウェットの研究者の方ってやっぱり優秀なので、ちょっとプログラムが書けるくらいの知識が付けば、ある程度データの解析ができてしまうような便利なパッケージが今いろいろ出ているんです。統計処理の分野でよく使われるR言語で作られている、シングルセルRNA-seq解析のほぼ世界的なスタンダードになりつつあるパッケージがあります。R言語は経済学なんかでも使われるんですが、これで大体欲しい図を書けてしまうんです。

Rなんだ。後で見てみようっと。

そうですね。Rがやっぱりグラフとか図を描いたりするには手軽でいいですね。
Rは、ちょっとした解析や、図を描画するのにはプログラミングの知識はそんなにいらないですし、実際に共同研究相手がやりとりをしていくうちに、ある程度ご自身で書けるようになってしまったりすることもありました。

なるほど、そうすると常にさらに先を行っていないと……。でも、最初はどうやって勉強したんですか?

当時は、あまりまだ本が出そろっていなくて、別の研究員の方が書いたRのコードを読んで、それで大体やることは同じなので、そこで勉強をして、あとはこの手法のアルゴリズムが分からないとなったら、まあその専門の本を読んでみたりとか。

やっぱ、脳内がエンジニアなんですね……。

そうですね。コードから学ぶみたいな。今は、いい本がたくさんありますね。
実際インターンとして学生さんとかが二階堂研に来たりするんですけど、そういう人にはこういう本のここを読んで、実際自分で書いてみてみるように指導したりしているようです。

芳村さんが、そんな講座やったらいいじゃないですか。できたら面白そう。

以前、そういうウェットの人も気楽に参加できるような勉強会を他の研究員の方たちと一緒に主催してやったりとかはしたことはあります。余裕ができたらまたやってみようかな。

楽しみにしてますよ!

シングルセルを支えるプラットフォームも進化が速い

編集後記

最近よく聞くシングルセル解析の裏側を垣間見た感じです。たぶん理解しきれなかったこともたくさんあるんだと思うのですが……。こういう舞台裏を支えている人たちがたくさんいて、最先端の研究って成り立ってるんだよなぁ、と改めて思いました。