ミッション・ビジョン・バリューの改定

■ ミッション・ビジョン・バリューの改定の背景

株式会社ログビー(以下「ログビー」)は、これまで「データを活かして世の中を快適に」をビジョンに掲げ、自然言語処理やAI/ITを用いてDXを推進するサービス群を提供してきました。

事業を進める中で、既存のビジョンが「データを活かして」という方法論(How)に寄っており、より課題解決にフォーカスしたミッション・ビジョン、およびバリュー(行動指針)を定めるべきだと考えるようになりました。

そこで、以下の方針でミッション・ビジョン・バリューの改定を行いました。

  • 方法論(How)ではなくより課題解決にフォーカスしたミッション・ビジョンを
  • ミッション・ビジョンは自分たちの中から沸き起こるものを
  • ログビーが大切にしていることを集約したバリュー(行動指針)を

 

■ 新しいミッション・ビジョン・バリュー

ログビーは創業からこれまで一貫してエンジニアを中心としたチームとなっており、自分たちの中から沸き起こる課題感=「エンジニア組織にまつわる課題」を解決することが使命であると考え、以下のミッション・ビジョン・バリュー(行動指針)に改定しました。

 

 ミッション

 

最高のエンジニア環境を創る

ログビー(Logbii)は、AI・DXソリューションの経験とナレッジを蓄積してきました。また、エンジニア組織のマネジメントと運用を日々アップデートして仕組化しています。
蓄積したナレッジ、仕組を横展開することで、世の中の課題解決とエンジニア環境をアップデートしていくことをミッションにしています。

 

 ビジョン

 

エンジニアをエンパワーするコミュニティ

ログビー(Logbii)は、エンジニアをエンパワーするコミュニティになることを目指しています。

 

 バリュー(行動指針)

 

モチベーション

自分や周りのモチベーションを高める
ユーモアのあるコミュニケーション

自由と責任

フルリモートで進め方は自分で決める
アウトプットに責任を持つ

柔軟性

良いものは柔軟に取り入れる
提案には背景とメリットを

 

■ 株式会社ログビーについて
会社名 :株式会社ログビー / Logbii, Inc.
所在地 :東京都渋谷区恵比寿2-28-10 Shu BLDG 2737
代表者 :代表取締役 松田 敦義
事業内容:法人向けSaaSおよびAI、ITソリューションの提供、診断支援AIに関する共同研究
URL  :https://logbii.com/

【本件に関する問い合わせ】
株式会社ログビー
担当 :広報
Mail :info@logbii.com

株式会社ログビー、第43回医療情報学連合大会 秋季学術大会で研究成果3件を発表

 

■ 研究発表の背景
株式会社ログビー(以下「ログビー」)は、「データを活かして世の中を快適に」をビジョンに掲げ、メーカーのオープンイノベーションやR&DのDX(デジタルトランスフォーメーション)を推進する「Logbii Research(ログビーリサーチ)」を始めとした、自然言語処理とAIを用いてDXを推進するサービス群を提供しています。
ログビーは、自社開発するAIをコア・バリューと位置づけ、これまで宮崎大学医学部附属病院、東京工業大学などと、主に診断支援の領域で機械学習、データサイエンスを活用した入院後の合併症を予測するAIなどを研究開発して参りました。
日本医療情報学会は、医療情報に関心を持つ全ての研究者及び実務担当者の学術交流の場として、1983年に設立されました。年に2回の学術集会が開催され、活発な学術活動が行われています。国際医療情報学連盟(IMIA)に加盟する唯一の日本の学会として、国際的にも主導的役割を果たしています。
この度ログビーは、これまで研究してきた診断支援AIなどの研究成果3件を、2023年11月22日(水) ~ 2023年11月25日(土)に開催される「第43回医療情報学連合大会 秋季学術大会」(会場:神戸ファッションマート)にて発表することとなりました。

■ 大会概要
大会名 :第43回医療情報学連合大会
日時  :2023年11月22日(水) ~ 2023年11月25日(土)
会場  :神戸ファッションマート(六甲アイランド)
〒658-0032 神戸市東灘区向洋町中6-9
https://www.kfm.or.jp/access/

■ 発表概要

  • プログラム:公募シンポジウム3 11月23日(木)9:20~11:20 F会場 2-F-1-04
  • タイトル :次世代医療基盤法に基づく匿名加工医療情報を利用した入院後敗血症の予測モデルの開発における課題と対策の検討
  • プログラム:一般口演22 11月25日(土)14:00~16:00 G会場 4-G-4-04
  • タイトル :新型コロナウイルス感染症における入院後重症化リスク因子の探索的解析
  • プログラム:ポスター13 11月25日(土)14:00~14:55 J会場 4-J-3-01
  • タイトル :新興感染症の隔離病床の設置に対する補助金制度の改良シミュレーションのためのパラメータの検討

■ 「Logbii Research (ログビーリサーチ)」について(https://logbii.com/research%EF%BC%89
「Logbii Research」はバイオメディカル企業のオープンイノベーション、マーケティング、R&Dを自然言語処理を活かして支援するサービスです。主にライフサイエンス企業にご利用をいただいており、DX(デジタルトランスフォーメーション)を行うことで、業務上の課題解決に活用されています。

■ 株式会社ログビーについて
会社名 :株式会社ログビー / Logbii, Inc.
所在地 :東京都渋谷区恵比寿2-28-10 Shu BLDG 2737
代表者 :代表取締役 松田 敦義
事業内容:法人向けSaaSおよびAI、ITソリューションの提供、診断支援AIに関する共同研究
URL  :https://logbii.com/

【本件に関する問い合わせ】
株式会社ログビー
担当 :広報
Mail :info@logbii.com

株式会社ログビー、ISMS 国際標準規格「ISO/IEC27001」認証を取得。情報セキュリティを強化。

ISMS

 

AIと自然言語処理を用いたDXサービスを提供する株式会社ログビー(本社:東京都渋谷区、代表取締役:松田敦義 以下「ログビー」)は、情報セキュリティの管理体制の強化に向けて情報セキュリティマネジメントシステム(ISMS)の国際規格である「ISO/IEC27001:2013」および国内規格である「JIS Q 27001:2014」を2023年7月24日付で取得したことをお知らせします。

■ ISMS 認証取得の背景
株式会社ログビー(以下「ログビー」)は、「データを活かして世の中を快適に」をビジョンに掲げ、メーカーのオープンイノベーションやR&DのDX(デジタルトランスフォーメーション)を推進する「Logbii Research(ログビーリサーチ)」を始めとした、自然言語処理とAIを用いてDXを推進するサービス群を提供しています。
ログビーは、これまでお客様のプライバシーとセキュリティの保護を最も重要な経営課題の一つと位置づけ、組織全体で情報セキュリティの問題に取り組む体制を整えてきました。この度、情報セキュリティの管理体制をより一層に強化するため、今回の認証取得に至りました。
今後も、ログビーはすべてのステークホルダーの皆様に信頼されるよう、これまで以上に情報セキュリティの管理・運用の強化に努めてまいります。

■ ISMS 認証の概要
「ISO/IEC27001:2013」は、情報セキュリティの3つの要素である機密性・完全性・可用性を維持し、組織が所有する情報資産を守るための「情報セキュリティマネジメントシステム(ISMS)」における国際標準規格です。認証取得により、国際規格に沿って中立な第三者機関が 公正・審査することで、組織が情報セキュリティを確保するための仕組みをもち、その仕組みを維持し継続的に改善していることが証明されます。

  • 登録事業者  :株式会社ログビー
  • 認証登録番号 :18198180
  • 認証登録範囲 :法人向けSaaSおよびAI、ITソリューションの提供、診断支援AIに関する共同研究
  • 認証登録日  :2023年7月24日
  • 審査機関   :ビューローベリタスジャパン株式会社

■ 「Logbii Research (ログビーリサーチ)」について(https://logbii.com/research%EF%BC%89
「Logbii Research」はバイオメディカル企業のオープンイノベーション、マーケティング、R&Dを自然言語処理を活かして支援するサービスです。主にライフサイエンス企業にご利用をいただいており、DX(デジタルトランスフォーメーション)を行うことで、業務上の課題解決に活用されています。

■ 株式会社ログビーについて
会社名 :株式会社ログビー / Logbii, Inc.
所在地 :東京都渋谷区恵比寿2-28-10 Shu BLDG 2737
代表者 :代表取締役 松田 敦義
事業内容:法人向けSaaSおよびAI、ITソリューションの提供、診断支援AIに関する共同研究
URL  :https://logbii.com/

【本件に関する問い合わせ】
株式会社ログビー
担当 :広報
Mail :info@logbii.com

EGFR変異型非小細胞肺がんにおける耐性因子の特定に向けた新アプローチ

 

EGFR変異型非小細胞肺がん(NSCLC)における耐性因子を特定するための新しいアプローチ

初めまして。Logbiiインターンの小林です。

今回は、ライフサイエンス×AIのテーマの3回目です。

今回は、AstraZenecaの研究チームが開発した、EGFR変異型非小細胞肺がん(NSCLC)における耐性因子を特定するための新しいアプローチについて解説していきます。この新アプローチは、ナレッジグラフをベースしたレコメンデーションシステムで、このタイプのがんに対する新たな治療法の開発につながる可能性があります。

今回はその新アプローチKnowledge graph-based recommendation framework identifies drivers of resistance in EGFR mutant non-small cell lung cancerを紹介していきます。

背景

非小細胞肺がん(NSCLC)は、肺がんの中で最も一般的なタイプで、全例の約80%を占めます。NSCLCは、肺の気泡(肺胞)を覆う細胞で発生するがんです。

EGFRは、多くの細胞の表面に存在するタンパク質で、EGFRは細胞の成長や分裂を助ける働きがあります。EGFR阻害剤は、EGFRの働きをブロックする標的治療の一種です。これにより、がん細胞の成長や分裂が止まります。EGFR阻害剤は、体の他の部位に広がったNSCLC(転移性NSCLC)や治療後に再発したNSCLC(再発性NSCLC)の治療に使用されています。

課題: 時間がかかる耐性遺伝子探し

EGFR 阻害剤 に対する耐性は、非小細胞肺がん (NSCLC) の治療において大きな障害となります。この阻害剤は、肺がんの患者に対して効果の高い薬剤と言われています。しかし、EGFR遺伝子変異が認められた非小細胞肺がんに対して、EGFR阻害剤による治療をしていると、いったんは効果が得られても、いずれEGFR阻害剤が効きにくくなってしまうこと(耐性ができること)があります。この耐性を引き起こす遺伝子を見つけるために専門家たちは多くの時間を費やさなければなりません。

一般的にその耐性を引き起こす遺伝子を見つけるためには、CRISPR-Cas9 を用いたゲノムスクリーニングを行い、数百もの耐性を引き起こしうる遺伝子を選びます。その中から、最も薬への耐性を引起こす遺伝子を研究者たちは手作業で選び、その後、疾患に関する事前知識、臨床、前臨床試験などから得られるエビデンスをもとに、どの遺伝子を優先させるか決定していきます。しかし、その作業は耐性を引き起こしうる数百もの遺伝子の中から選ぶために膨大な時間がかかってしまいます。また、研究者個人のバイアスがかかってしまう可能性もあるのです。

課題解決アプローチ

本論文のアプローチによって、上記の研究者による手作業の遺伝子の選定の時間を短縮することができます。具体的には、本アプローチにより、3,000 を超える遺伝子から 57 の耐性を引き起こす可能性の高い遺伝子が特定され、ヒットの特定にかかる時間が数か月から数分に短縮することができるのです。本論文では、3,000 を超える遺伝子から 57 の耐性を引き起こす可能性の高い遺伝子を特定するために、前臨床、臨床、文献のエビデンスを統合した異種生物医学知識を学習したレコメンデーションシステムを構築しました。このシステムは、EGFRi耐性の潜在的なメカニズムに関連する様々なタイプのエビデンス間(臨床や文献など)のトレードオフに基づいています。それによって、耐性を最も引き起こす可能性の高い遺伝子をランク付けをしていくのです。

CRISPR スクリーニングとその課題

非小細胞肺がんを治療するために投与するEGFR阻害剤は、投与し続けるうちにその阻害剤に対して耐性ができてしまう可能性があります。その耐性を引き起こす遺伝子を見つけ、その遺伝子を壊さなければなりません。そのために使用されるのが、CRISPRスクリーニングです。CRISPR スクリーニングとは、CRISPR-Cas9というゲノム編集技術の一種を用いて、ゲノムワイドノックアウト、ノックダウン、ノックインを行うことを指します。具体的には、CRISPR-Cas9はDNA二本鎖を切断してゲノム配列の任意の場所を削除、置換、挿入することができます。ゲノムワイドノックアウト( genome-wide knock out)とは、その削除にあたります。ノックダウン(knock down)とはノックアウトとは異なり、遺伝子の機能を大きく減弱させるものの完全には失わせないことを指し、ノックイン(knock-in)とは、削除するだけでなく新たな配列を挿入することをいいます。つまり、CRISPRスクリーニングは任意の遺伝子の配列を変えることでできるハサミみたいなものです。このCRISPRスクリーニング(ハサミ)を用いて、薬剤耐性を引き起こす遺伝子を切断できるのです。

しかし、 薬剤耐性を引き起こす遺伝子の切断の方法はわかったものの、課題はその遺伝子を見つけるのに時間がかかるということです。生物学的に妥当性の高い耐性遺伝子に絞り込むために、研究者は手作業でトリアージとバリデーションを行わなければなりません。このプロセスは疾患に関するナレッジ、臨床や前臨床試験から得られるエビデンスを集約し、検証のためにどの遺伝子を優先させるかを決定するため、時間がかかります。また、深い専門的な知識に依存しているため、結果が研究者個人のバイアスに左右される可能性があります。本論文の目的は、このような手作業のトリアージを、なんとかレコメンデーションシステムを用いて、短縮できないかというものです。多様なエビデンス(ナレッジ、臨床や前臨床試験)を効率的に統合し、薬剤耐性をもたらす最も有望な候補遺伝子を同定することを本論文は目指します。

 

解決策:レコメンデーションシステムの概要

これまでは、様々なエビデンスと照らし合わせて手作業で耐性を引き起こす遺伝子を絞り込んでいました。しかし、その手作業で行っていた時間をどのように短縮するのでしょうか。本論文では、多目的最適化(multi-objective optimization)を用いたレコメンデーションシステムを使ってその時間を短縮することを実現させました。

では、多目的最適化とはなんでしょうか。多目的最適化とは、目的関数が複数ある最適化のことを指します。逆に、目的関数が「1つ」だけの最適化は単目的最適化といいます。図1は、それぞれ単目的最適化と多目的最適化を表しています。



左の図
図1:単目的最適化と多目的最適化

左の図のように単目的最適化における最適解は1つです。しかし、多目的最適化の最適解は、右の図の紫の点のように複数あります。複数の目的関数はトレードオフの関係にあります。目的関数1を大きくすると、目的関数2が小さくなってしまうのです。たとえば、ある性能を改善しようとすると、ほかの性能が悪化するような関係にある場合が多く存在します。右の図の円周上に、最適解があり、この紫の点の最適解の集合のことを「パレート最適解」と呼ぶのです。本論文で使用する多目的最適化というのは、このパレート最適解の集合を求めることを意味しています。

本論文では、図2にある「Betweenness」「Graph embeddings」「PageRank」「Node degree」「Clustering coefficient」「Literature evidence」「Clinical & preclinical evidence」を目的関数として使用します。つまり、これらの目的関数のパレート最適解の集合を求めることによって、耐性を引き起こす遺伝子を絞り込むのです。


Fig.1

図2:パレート最適解における目的関数

多目的最適化で使った特徴量

前提として多目的最適化を行う際に、多くの特徴量が必要になります。特徴量が多いと解の候補をより細かく評価し、より最適な解を選択できるからです。多目的最適化は、複数の目的関数を同時に最小化または最大化することを目的としています。解の候補を評価するためには、目的関数の値以外にも、その解の候補が満たすべき条件や限制などの情報を考慮する必要があります。例えば、工学設計において、コストと重量、強度と耐久性など、複数の目的関数を満たすことが求められます。しかしそれ以外に材料、環境条件、安全性などの情報を考慮し、多くの情報を扱うことで、最適な解を選択できます。

本論文では、最適解を探すために27の特徴量が選ばれました。

表

表:27の特徴量

表は、その27のそれぞれの特徴量を示しています。大きくカテゴライズすると、7つの特徴量に分類されます。Defaultの列における「exclude」は、最適化プロセスに含むべきではないという結果出た特徴量という意味です。多目的最適化のおいて、多くの特徴量を最初扱いますが、それらすべてが重要であるわけではありません。一部の特徴量は、最適化プロセスから除外され、問題を単純化し、計算上効率的にします。特徴量の除外は、関連性、重要性、その他の特徴量との相関などの基準に基づいて行うことができ、表の「exclude」とある特徴量は使用されない特徴量のことを指します。また、maximizeまたはminimizeと示しているものは、最適化の方向を表し、最適化プロセスとして使用されるものです。

この表は、「exclude」かどうか判断するための判断材料の一つとして各特徴量がどのくらい相関しているか示したものです。ここから2つのことが読み取れます。1つ目は、graphのカテゴリーが強く相関していることです。前の節で説明したpagerankやbetweennessなどがgraphのカテゴリーです。つまり、多目的最適化においてこの特徴量は外せないものと言えます。2つ目は、CRISPRのカテゴリーはマイナスに相関していることです。紫の部分がそのマイナスに相関している部分に当たります。

つまり、多目的最適化の精度をあげるために、図2の他に様々な特徴量をあげ、合計27の特徴量を多目的最適化プロセスに必要かどうか分析しました。それぞれの相関係数を調べ、「exclude」か「maximize/minimize」を決定し、まとめたものがこの表です。

SkywalkR インタラクティブ インターフェイス

図3と図4は、SkywalkRの対話型インターフェースであり、ユーザーはCRISPRヒットの再ランク付けを、様々な目的の組み合わせに基づいて行うことができます。

左の図

図3:メインのインターフェース

図3のサイドバーパネルには、EGFRi耐性の遺伝子推奨を最適化するために使用できる目的のリストが表示されています。各目的はスライダーで表され、ユーザーは最適化に含める目的を選択できます。また、ユーザーは最適化の方向を「最小化」または「最大化」で指定できます。

例えば、ユーザーがEGFRi耐性と高い関連性がある遺伝子を特定したい場合、目的の「EGFRi耐性」を選択し、最適化の方向を「最大化」に設定できます。これにより、EGFRi耐性と高い関連性がある遺伝子のリストが右に表示されます。

左の図

図4:サブインターフェース

図4のサブインターフェースは、最適化の結果を調査するために使用されます。

相対ビュー(Relative view):図4の中の左の図は、相対ビューといいます。この相対ビューは、レコメンドされる遺伝子のプロファイルを表示し、各遺伝子は線で表されます。これらの線は、各遺伝子に対するさまざまな目的の値を示しています。これにより、遺伝子を比較し、複数の目的で高いパフォーマンスを発揮する遺伝子を特定できます。 例えば、EGFRi耐性と高い関連性があり、複数の証拠タイプによって支持される遺伝子を探し出すとしましょう。相対ビューでは、「EGFRi耐性」目的と「複数の証拠」目的の両方で高い値を持つ遺伝子を探し、画面上に表示します。

共起ヒートマップ(Co-occurrence heatmap):図4の右上のヒートマップは、共起ヒートマップと呼ばれます。これは、EGFRi耐性の文脈で一緒に言及されることが多い遺伝子のクラスターを示しています。これにより、関連する遺伝子を特定し、同じ生物学的経路に関与している可能性がある遺伝子を見つけることができます。 例えば、EGFRシグナル伝達経路に関与する遺伝子を特定する場合、共起ヒートマップでは、一緒に言及されることが多い遺伝子のクラスターを探します。これらの遺伝子のクラスターは、同じ生物学的経路に関与している可能性が高いを意味します。

棒グラフ:最後に、図4の右下のグラフについて説明していきます。この棒グラフは、上位の推奨遺伝子に対して目的ごとに標準化された値を示しています。これにより、遺伝子が各目的でどのように互いに比較されるかを確認できます。 例えば、EGFRi耐性と最も関連性が高い上位10の遺伝子を特定する場合、棒グラフでは、「EGFRi耐性」目的で最も高い値を持つ遺伝子を探し出し、表示させます。

このように、SkywalkRのインターフェースは、専門家が異なる目的に基づいてレコメンドがどのように変化するかを見ることができる貴重なツールであり、NSCLCの治療や薬剤開発に役立つ情報を提供することができます。

 

考察

本研究の発見は重要であり、ナレッジグラフを用いてEGFR変異型NSCLCの新たな治療標的を特定することができる可能性を示しています。これは、このタイプのがんの新たな治療法の開発において重要なステップです。

研究者たちは現在、特定した遺伝子のさらなる検証と、これらの遺伝子を標的とする新薬の開発に取り組んでいます。これは、がん研究の分野において刺激的な発展です。EGFR変異型NSCLCの新たな治療法の開発は緊急に必要とされており、この研究は、このタイプのがん患者に役立つ新薬の開発につながる可能性があります。

本ブログを読んでいただき、ありがとうございます!より詳しい情報や研究の詳細に興味を持たれた方は、オリジナル論文をぜひ一読してみてください。

 

参考文献

Knowledge graph-based recommendation framework identifies drivers of resistance in EGFR mutant non-small cell lung cancer

「シーガイアミーティング2023」にて、当社代表の松田が宮崎大学医学部附属病院などとの共同研究成果を発表します。

「シーガイアミーティング2023」にて、当社代表の松田が宮崎大学附属病院などとの共同研究成果を発表予定です。

2023/05/20(土) 14:40 〜 15:20
「COVID-19 患者の重症度別の薬剤・入院時併存症の集計と死亡予測モデルの開発」
https://www.seagaia.org/sgm2023/

 

当社は、今後もAIの社会導入に邁進して参ります。

 

【会社概要】
会社名:株式会社ログビー
代表者:代表取締役 松田敦義
所在地:東京都渋谷区恵比寿2-28-10 Shu BLDG 2737
URL:https://logbii.com/

【本件問い合わせ先】
株式会社ログビー
担当:松田
E-Mail:info@logbii.com

「Microsoft AI × OpenAI の最新取り組み紹介」のイベントにて、当社代表の松田がモデレーターとして登壇します。

日本CTO協会と日本マイクロソフト株式会社が共催する「Microsoft AI × OpenAI の最新取り組み紹介」のイベントにて、当社代表の松田がモデレーターとして登壇予定です。

「Microsoft AI × OpenAI の最新取り組み紹介」
2023/03/24(金) 19:00 〜 21:00
https://cto-a.connpass.com/event/276977/

 

当社は、今後もAIの社会導入に邁進して参ります。

 

【会社概要】
会社名:株式会社ログビー
代表者:代表取締役 松田敦義
所在地:東京都渋谷区恵比寿2-28-10 Shu BLDG 2737
URL:https://logbii.com/

【本件問い合わせ先】
株式会社ログビー
担当:松田
E-Mail:info@logbii.com

Company Deck(ミッション、事業、チーム構成、働く環境など)を公開しました。

ログビーを初めて知っていただいた方に、より詳しく取り組みを知っていただくため、
ログビーのCompany Deck(会社紹介)を公開しました。

ミッションや事業、チーム構成や働く環境をまとめたもので、5分程度で理解ができます。
シャッフルランチや社内勉強会などの取り組み、社内制度や教育・評価なども簡単に紹介しています。

 

当社は、今後も自社の取り組みの社会への発信を行って参ります。

【会社概要】
会社名:株式会社ログビー
代表者:代表取締役 松田敦義
所在地:東京都渋谷区恵比寿2-28-10 Shu BLDG 2737
URL:https://logbii.com/

【本件問い合わせ先】
株式会社ログビー
担当:松田
E-Mail:info@logbii.com

「PyCon JP 2022」にスポンサーとして協賛します。

メーカーや医療機関向けに自然言語処理とAIを用いたDXサービスを提供する株式会社ログビー(本社:東京都渋谷区、代表取締役:松田敦義 以下「ログビー」)は、2022年10月14日(金)~16日(日)に開催される日本最大級のPythonイベント「PyCon JP 2022」にスポンサーとして協賛することをお知らせします。
wb_rectangle_largetype@4x

ログビーは、「データを活かして世の中を快適に」をビジョンに掲げ、メーカーのオープンイノベーション・研究開発のDX(デジタルトランスフォーメーション)を推進する「Logbii Research」など、自然言語処理とAIを用いてDXを推進するサービス群を提供しています。

プログラミング言語のPythonは、機械学習を始めとした幅広い分野の研究開発やアプリケーション開発において広く活用されています。ログビーのサービスにおいても、自然言語処理やAIの開発における主要な言語として利用しています。
この度、Pythonユーザーが集まる国際カンファレンス「PyCon JP 2022」を通して、Pythonコミュニティの発展に貢献することを目的に、本イベントに協賛いたしました。

 

■ PyCon JP 2022開催概要
日程:2022年10月14日(金)~16日(日)
会場:TOC有明コンベンションホール
主催:一般社団法人 PyCon JP Association
URL:https://2022.pycon.jp/

■ ログビーのサービスについて
ログビーは、自然言語処理とAIを用いてDXを推進するサービス群を提供しています。
メーカーのオープンイノベーション・研究開発のDXを推進する「Logbii Research」は、大手製薬企業などに導入実績がある他、救急医療機関向けの「救急データベース」や、医師会・在宅医療機関向けの「メディケアノート」を多数の医療機関等に提供しています。

■ ログビー 会社概要
会社名:株式会社ログビー / Logbii, Inc.
所在地:東京都渋谷区恵比寿2-28-10 Shu BLDG 2737
代表者:代表取締役 松田敦義
コーポレートサイト : https://logbii.com/

 

【本件に関する問い合わせ】
株式会社ログビー
担当 :広報
E-mail :info@logbii.com

NLP若手の会 (YANS) 第17回シンポジウムにて、当社代表の松田が共同研究成果を発表します。

NLP若手の会 (YANS) 第17回シンポジウムにて、当社代表の松田が宮崎大学附属病院、ライフデータイニシアティブとの共同研究成果を発表予定です。

2022年8月29日(月) 14:30 ~ 15:30 ポスターセッション(2)
「次世代医療基盤法に基づく匿名加工医療情報を利用した入院後敗血症の予測モデルの開発における課題と対策の検討」
https://yans.anlp.jp/entry/yans2022program#%E3%83%9D%E3%82%B9%E3%82%BF%E3%83%BC%E3%82%BB%E3%83%83%E3%82%B7%E3%83%A7%E3%83%B32-1430-1530

 

当社は、今後もAIの社会導入に邁進して参ります。

 

【会社概要】
会社名:株式会社ログビー
代表者:代表取締役 松田敦義
所在地:東京都渋谷区恵比寿2-28-10 Shu BLDG 2737
URL:https://logbii.com/

【本件問い合わせ先】
株式会社ログビー
担当:松田
E-Mail:info@logbii.com

バイオメディカル関連の論文読解 「NERO」

初めまして。Logbiiインターンの高橋です。

今回は、ライフサイエンス×AIのテーマの2回目です。

現在の生物学においては様々な論文などで溢れかえっていますが、生物医学用語はとても曖昧で、1つのフレーズが論文を書く科学者によって意味が異なってしまう場合があります。例えば変異ヘモグロビンα2は遺伝子かタンパク質を指します。さらに論文の著者がタンパク質Aとし、機械学習などに用いるアノテーションを遺伝子Aとした場合、アノテーションの有用性が低くなってしまいます。これを解決するべく、この論文では生物医学のための先進的なアノテーションツール、NERO: a biomedical named-entity (recognition) ontology with a large, annotated corpus reveals meaningful associations through text embedding[1]を開発したとのことです。

今回はこのNEROという論文のピックアップをして紹介していきます。

概要

NEROは以下の6つの要素で構成されています:

  1. 分子生物学、遺伝学、生化学、医学における、新しい固有表現抽出のためのオントロジー(Named Entity Recognition Ontology:NERO)
  2. アノテーターへのガイドライン
  3. 固有表現の絵文字表記
  4. 190,679の固有表現と2つ以上の表現を繋ぐ43,438のイベントをカプセル化
  5. 検証した固有表現抽出(Named Entity Recognition : NER)モデル
  6. このコーパスを用いた生物医学的な関連性を示す埋め込みモデル

ontology

図1 NEROのイメージ図

NEROのイメージを表しているのが図1です。

この図では、多分木ツリーとしてオントロジーが示されています。分類ノードはオントロジーの各クラスに対応しています。各クラスの下の括弧は、コーパス内のクラス言及数を表しています。NEROでは35,865文のアノテーションを行い、うち190,679は固有表現、43,438は2つ以上の表現を繋ぐイベントで構成されています。

DomainEntity“のクラスターの下には”AnatomicalPart“, “Chemical“, “Process“の代表的なクラスがあり、全ての固有表現の半分以上がこの3つのクラスに由来しています。また、各クラスにおいて、コーパスを使用する際に手動でアノテーションを付ける事を簡略化し、さらにビジュアル的にもわかりやすいようにそれぞれの要素を表す絵文字が用意されています。例えば、”Gene“であれば遺伝子の絵、”BodyPart“であれば体の一部分を示しています。

コーパスを作る際にポスドク・生物医学業界の専門家たちのチームを採用することにより、大規模な生物医学コーパスにアノテーションをつけて、幅広い自然言語処理と生物医学の機械学習タスクを可能にしています。

NEROにおいてのアノテーションは、”GeneOrProtein“のような曖昧な概念を”Gene“と”Protein“で分離し、これらのいずれかもしくは両方に対応するというパターンを利用して、アノテーションに関する適切な曖昧さを表現し、テキストの不確実さを保持します。

また、アノテーションされた35,865文のうち8,650文は、非常に高いアノテーターたちの合意によって付けられており、合意が取れている割合は表1のようになっています。

aggreement
表1 アノテーター間での合意の割合

IAAとはInter-annotator Agreementと言い、アノテーションをするアノテーターの間で合意が取れている割合を表しています。

 

NERO内の固有表現の出現頻度は以下の図2のようになっています。

freq

図2 NEROに含まれる固有表現の出現頻度

[a] 時計回りに降順で表現頻度が表示されており、”GeneOrProtein”が最も一般的(14.7%)で、”Process”(9.0%),”MedicalFinding”(8.8%),”Chemical”(6.7%)…と続きます。
[b] イベントの頻度をZipf分布に従って表示しています。縦軸はイベントの頻度を、横軸はイベントの頻度に対するランク(頻度が高ければ高いランク)となっており、例えば”bind”は1番頻繁に出てくるイベントで、これは[a]の”GeneOrProtein”に関連づけられています。 

 

これらを元に、アノテーション付きコーパスを使用したい研究者向けに、NERO-nlpというパッケージ[2]も開発しています。

 

実験内容

NEROの実用的なアプリケーションとして、以下の2つを提案・実験しています。

  1. 固有表現を識別する機械学習モデル
  2. 単語の埋め込み

 

・実験1 機械学習モデル

まず初めにNERsuite[3]を使用しデータセットを教師データ・テストデータに分割し、交差検証をしました。分類結果は表2のようになりました。全体的な固有表現抽出のパフォーマンスは中程度で、適合率は54.9%、再現率は37.3%、F値は43.4%となっています。最も数値が高かった”GeneOrProtein“は、ベースラインで適合率は67.0%、再現率は65.3%、F値は66.2%を出しました。また、NERsuiteのデフォルトのベースライン実装に加え、さらに精度を向上させるために、専門用語の辞書を参照する辞書機能を追加しました。その結果、適合率は54.7%、再現率は37.9%、F値は43.8%となり、辞書機能を追加してもF値の向上は0.35%に留まりました。次に、NERsuiteをベースモデルとして、スタッキングと呼ばれるアンサンブル手法を実装しました。その結果、ベースライン結果と比較してF値が0.27%増加しました。

 

ml_results

表2 データセットの10%で評価された固有表現抽出の実験結果

[Baseline] NERsuiteを使用し学習した基準とする機械学習モデル
[Baseline-Dict Features] Baselineに辞書機能を追加したもの
[Stacking] スタッキングを用いたモデル

 

このNERsuiteでの結果と精度を比較するために、spaCy[4]を使用した場合も検証されており、全体的にNERsuiteよりも精度が低くなっているそうです。
NERsuite以外のモデルとの比較として、spaCy, ScispaCy, Spark NLP libraryのBERT, nested NER neural learningの検証と考察をしています。興味がある方は、元論文をぜひご覧ください。

 

・実験2 単語埋め込み

この実験では単語埋め込みモデルとしてword2vec[5]を使用し、NEROのアノテーション付きコーパスの埋め込まれた意味を構築し、疾患や薬剤に関するエビデンスと比較しました。使用したコーパス(ウィキペディア、Elsevierの記事、ロイターの記事)について、疾患や薬剤に関連する固有表現を300次元の空間に埋め込みました。今回はgensim[6]というパッケージを用いてword2vecを実装しています。

NEROに基づいて単語埋め込みを評価するために、2つの疾患の観点(「重症度」と「性別」)、2つの薬剤の観点(「毒性」と「費用」)について分類しました。

まず疾患について、ここでは以下のように対称的な用語のペアを使用して、疾患の重度・軽度の軸を構築しました。

  • “harmful”, “beneficial”
  • “serious”, “benign”
  • “life-altering”, “common”
  • “disruptive”, “undisruptive”
  • “dying”, “recovering”
  • “dangerous”, “safe”
  • “threatening”, “low-priority”
  • “high mortality”, “harmless”
  • “costly”, “cheap”
  • “hospitalized”, “self-administered”
  • “hospital”, “work”
  • “debt”, “savings”
  • “low quality of life”, “undisruptive”
  • “hazard”, “routine”

また、この軸での疾患の埋め込みを、各疾患との生活の負担に関するWHOのデータ(DALYs13)[7]と比較しました。その結果、0.329 (p=0.0614, n=33)の相関関係を見つけることが出来ました。

同様にして、性別における対称的なペアを使用し、性別の軸を以下のように構築しました。

  • “male”, “female”
  • “prostate”, “ovary”
  • “penile”, “uterine”
  • “penis”, “uterus”
  • “man”, “woman”
  • “men”, “women”
  • “masculine”, “feminine”
  • “he”, “she”
  • “him”, “her”
  • “his”, “hers”
  • “boy”, “girl”
  • “boys”, “girls”

この軸での疾患の埋め込みを、2003年から2011年までのアメリカの保険記録を用いて、男性と女性の疾患の有病率と比較しました。この結果、0.436 (p=1.46×10−13, n=261)の相関が見つかりました。

次に薬剤について、以下の対称的な用語のペアを使用して、薬剤の毒性の軸を構築しました。

  • “harmful”, “beneficial”
  • “toxic”, “nontoxic”
  • “noxious”, “benign”

薬剤の毒性の軸での疾患の埋め込みを、薬剤固有の半数致死量(LD50データベース[8]に記載されているモデル動物の50%致死量)と比較しました。その結果、0.32(p=1.1×10-4)の相関関係を見つけることが出来ました。

同様にして、費用における対称的なペアを使用し、費用の軸を以下のように構築しました。

  • “expensive”, “inexpensive”
  • “costly”, “cheap”
  • “brand”, “generic”
  • “patented”, “off-patent”

薬剤の費用の軸での疾患の埋め込みを、IBM MarketScanデータベース[9]と比較しました。その結果、費用の軸と各薬剤の実際の価格への薬剤予測の相関は0.42(p=1.5×10-15)でした。

疾患の観点(「重症度」と「性別」)、2つの薬剤の観点(「毒性」と「費用」)での埋め込みを表すのが、図4になります。

 

embed

図4 疾患と薬剤の二次元投影

[左] 疾患のグラフ。横軸は性別(女性-男性)、縦軸は疾患の程度(軽度-重度)
[右] 薬剤のグラフ。横軸は毒性(良性-毒)、縦軸は価格(安い-高い)

 

オウム病など、疾患が性別の軸で低くなると、男性よりも女性を苦しめる可能性が高くなります。ハンセン病のように、疾患の重症度の軸で高く突き出た場合、かなりの苦痛を被る可能性があります。毒性の軸で負の値の薬は、より深刻な副作用と関連する傾向があります。たとえば、筋萎縮性側索硬化症の治療薬であるリルゾールは、異常な出血から吐き気や嘔吐に至るまでの副作用があります。費用の軸で値が高い薬剤は、特許を失う前は多くの費用がかかっていたシンバスタチンのように、厳しい医療費を表します。これらの結果の頑健性は、科学的コーパスが、追跡調査に値する仮説の自動生成に使用できることを示唆しています。

議論

この研究の主な制限として、エンティティの分類におけるすべてのレベルの粒度をカバーしなかったこと、オントロジークラスの頻度がヘビーテイルで分布しているため、いくつかの概念タイプが十分に表現されていないことなどが挙げられています。

また、最近の研究では、生物医学などの特殊なドメインの場合、ドメイン内のテキストを最初から事前トレーニングすると、一般ドメインのテキストでの事前トレーニングと比較した場合に精度が高いという報告があるため、実験1の機械学習モデルでは生物医学の注釈付きコーパスを最初からトレーニングしたとのことです。
 この研究の活用用途として、大規模テキストマイニング、グラフニューラルネットワークでの埋め込みエンティティの学習、この研究のコーパスを自己教師あり学習の微調整に用いる、などが挙げられています。

 

参考文献

[1] NERO: a biomedical named-entity (recognition) ontology with a large, annotated corpus reveals meaningful associations through text embedding

[2] NERO-nlp

[3] Labelling Sequential Data in Natural Language Processing

[4] Spacy・Industrial-Strength Natural Laguage Processing

[5] word2vec: Distributed Representations of Words and Phrases and their Compositionality

[6] Gensim: Topic modelling for humans

[7] History of global burden of disease assessment at the World Health Organization

[8] ChemIDplus Help – A structure searchable database of 400,000+ chemical substance records

[9] IBM MarketScan Research Databases for life sciences researchers