NTTコムウェア | エバンジェリストが語るICTの未来 | KDD2022にも参加しました ―リソースと人生は有限、では無限なのは？―

NTTコムウェア株式会社エバンジェリスト（データサイエンティスト）川前徳章

Research Session
起きろ！仕事は始まっている！！

ICML2022はこちら

にわかには信じられない話かもしれませんが、先月に引き続き海外の国際会議に参加しました。参加した会議はACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD)、今年で28回目の開催です。期間は8月14日から18日、場所は米国のワシントンです。参加者は主催者に確認したところ2,100人とのことでした。

自分の責務を全うする

一見すると二か月続けて似たような会議に参加しておきながら、手ぶらで帰れば職場で、「俺たちが仕事をしている時に何をしていたんだよ」「私が行けば良かったのよ」「何のためにお前を行かせたと思っているんだ」と言われてもおかしくありません。むしろ普通です。従って、前回以上の情報を手土産に持ち帰らなければ帰国できない覚悟で参加しました。改めて今回の自分の責務について考えた一方で、機内では映画は先月とほぼ同じで見つくしてしまったので、音楽を聴くことにしました。残念ながらその時の状況と心境に近いLevitatingがリストになく、ちょうど目についたDancing In The Darkが「久しぶり、このタイトルも今の状況に近いかも」と感じ選択しました。

米国のワシントンは日本と半日ほど時差があるので、催眠の囁きなどなくても、日本からくると普通に眠くなります。到着早々、責務を果たせない可能性が出てきました。どんなに優れた研究者でも眠ってしまえば関係ないそうですから、そうでない私は言わずもがなです。個人的経験を言わせてもらうと、米国出張の成否は初日の過ごし方、現地時間に適合できるかにかかっています。これに失敗すると、出張期間は夜も昼も眠くて苦労します。限られた時間で効率的に情報収集と交換をするために、事前に発表スケジュール、可能ならば論文やソースコードまで目を通せたら理想的です。

みんな楽しそうだな

現地参加できない方はオープンなSNSからの発信を楽しみにしていた方も多いと思いますが、その発信が例年あるいはその前に開催されたICMLよりも少なく感じた方もいらっしゃるのではないでしょうか？その理由として会議推奨のアプリがあり、その中で情報交換やミートアップ等々の告知が行われていたことがあります。その結果、リモート参加の方には普段より情報が届かなかったのかもしれません。

前回参加したICML2022と違いKDD2022はハイブリッドというよりは現地開催に力点を置いていました。端的に言うと、以前の国際会議と同様に各会場でリアルに人が集まり、発表しています。ICMLで発表された研究テーマとの違いを明確に述べるのは難しいですが、敢えて言うならば、KDDの方が具体的にどのような課題を解決するか、そして何処に適用するかが分かりやすいという特徴があります。論文のタイトルから何についての研究であるかが分かりやすいとも言えます。

ここから本題。参加して得られた情報について簡単に紹介します。

企業ブースでの情報収集

KDD2022でも企業ブースがあり、そこには各企業の採用担当者やエンジニアも常駐していました。採用担当者であってもエンジニアや研究者だったりすることが多く、技術だけでなく各社の研究動向にも明るかったので、邪魔にならない程度にテーマを絞ってお話を伺ってきました。

最初のテーマ「AI/ML（機械学習）とデータサイエンス（DS）の相違点と共通点」について伺った話をまとめると次のようになります。

「AI/ML は目的、DSは手段」、つまりAI/MLはモデルや学習方法の開発や汎用的なタスクを、DSはその適用やタスク特化という違いがあると考えている。
共通点は１）MLへの深い知識とエンジニア力、及び２）採用の必須条件としてMLのPh. D取得、KDDやICML等のトップカンファレンスでの発表実績３）程度の違いはあれ、マネタイズまでできることを望んでいること。

正直、両者にそんな違いはあるのか半信半疑でしたが、皆さん明確に違いを語ってくれました。

次は各社の「研究」の取り組みについて伺った話をサブテーマごとに整理すると次のようになります。

研究者と開発者の違いは？というテーマに対しては、「研究者はイノベーションを起こせ、あるいは外の世界を知っていて外でも通用すること」という意見がある一方で、「両者の違いはあまりないのでは」という意見もあった。
研究のテーマの設定をどのようにしているか？に対しては、要約すると「テーマは上司等から与えることはしない。自分で探し、ディレクターと相談して決定する」となる。
——自分からテーマを探せないとうことは、課題発見もできないということでしょうか。
研究者に必要なスキルは何か？に対しては、表現の違いはあるものの、共通して「自分で課題を見つけ、解決できること」、その結果として「自分で成長できること」と集約される。
研究からサービス適用に向けての課題は？に対しては研究者と開発者のスキルの違いに関して「コーディングスキル、特に実装コードが現場視点で見るとスケーラビリティにギャップがある」とのこと。そのため、両者のコミュニケーションにおいて「サービスの開発者を納得させられること」が必要であり、ギャップの原因に「開発者にとってPythonは必須、scalarは今はあまり使わないが、C++が必要」という開発言語の違いがあるのではないかという意見があった。
——次回は「そのギャップをどう埋めているのか？」まで踏み込んでヒアリングできたらと思います。

AI/ML/DSの世界レベルの人材を雲霞の如く擁する（スポンサーとして出展している）企業からはきっと興味深い話が聞けるだろうとワクワクしていましたが、まさに期待通りでした。

Research Session

KDDで発表された論文は個人的に毎年、数十本、加えて今年は査読者としてもそれ以上に読ませていただいていますが、会議毎の発表論文リストは丁寧に見ていませんでした。今回は会議に参加するので、スケジューリング等のためにリストを眺めるとまずは「よもやよもや」と思いました。というのも、前回参加したKDDは3年前ですが、当時と比較して「Graph mining（グラフマイニング）」と「Recommendation（レコメンド）」に関する論文が「この会議はKDDだったかな？」と思うほど、多いことに驚きました。該当セッション以外、例えばテキスト処理等のセッション等にもこのテーマに関連した論文の発表があり、全体的にこれら二大テーマに関連する論文発表が増えたように感じました。3年ぶりに参加して、こんなことになっていたとは。研究者として不甲斐なしです。

Graph miningといえば、かつてはハイパリンク構造、SNS等の人的ネットワークを対象にした研究が主流でしたが、今は動的グラフ、移動データ、マルチモーダルネットワークやKnowledge Graphs (KGs)を対象にした研究が増えています。それに伴い、従来のネットワーク分析の拡張だけでなく、情報の抽出、ネットワークに対応したRepresentation Learning（表現学習）や深層学習でお馴染みのAutoencoder（AE）、Transformerを適用した研究も増えています。

RecommendationではBundle recommendationといったお馴染みのテーマから、企業ブースで収集した情報と同様に、Fairness、ethics（レコメンドだけでなくテキストや画像生成系のサービスでも注力）などが最近の注目テーマになっています。こちらもGraph mining同様にRepresentation Learningやtransformerの適用の研究（例えばBERT4RECの改良）が進んでいます。また、Graph miningとの融合、強化学習の適用、敵対的アタックへの対応、対話レコメンド等の発表もありました。

その他に次のような興味深い研究テーマもありました。

多変量時系列データの予測にサブセットを利用、Transformerを適用した研究
コード生成、修正
Hyperbolicの適用、Federated Learning
チェスにおける個人の行動のモデル化
人間のような記号的推論
Flowの階層構造を持つデータへの適用
Dialogueのレコメンド適用、医療サービスとの連携

研究は口頭発表だけでなく、ポスター発表もあり、発表者から詳しく説明を受けディスカッションすることができました。

ポスター発表の会場ではレコメンド関連の発表を中心に見て回りましたが、実際のサービスやその運用現場でなければなかなか実感できないかつ重要性が見え難い研究テーマがあるのも、実用性を重視するKDDならではと思いました。また研究者と言っても、ベースはエンジニアの方が多いので、運用の課題やスケーラビリティについても詳しい方が多く、論文には記載されていない内容や失敗談（？）を直接伺うことができました。こうした叡智に触れることが参加の目的なので、遅い時間帯の開催でしたが、最後まで残ってくれた発表者の方には感謝しかありません。

その中でいくつか自身の業務に近い論文を紹介させていただきます。

最初に表現学習の論文を二つ紹介します。

Leiber, Collin, et al: The DipEncoder: Enforcing Multimodality in Autoencoders

テキストだけでなく画像や動画等の高次元のデータの事前処理として次元削減があり、その代表的な方法として古くはPCA (Principal component analysis)、近年はNeural Networksと融合したAEがあります。

教師なし学習においてHartiganのDip-test of unimodalityは、「複雑なパラメータ化から解放され、事前分布を仮定する必要がない」という特性があり、結果として得られるDip-valueから、データセット中のマルチモーダル構造を識別する投影軸の発見を可能としています。

Leiber, Collin, et alはDeep Clustering (DC) のために異なるデータ群を明確に分離する埋め込みを作ること、言い換えれば、各クラスタの組み合わせの間で高いモダリティを示す埋め込みの表現の獲得をめざしています。

そのため、Leiber, Collin, et alは、AEを拡張することで、投影軸だけでなく、データに関しても勾配を適用し、データの埋め込みと同時にクラスタ構造を改善する方法を示しています。具体的にはDip-testとAEを密に結合し、次元削減に利用してデータセット内の全てのクラスタを分離する埋め込み表現を獲得し、Dip-testのみを用いてクラスターラベルを更新します。

Hou, Yupeng, et al: Towards Universal Sequence Representation Learning for Recommender Systems

Sequence representation learning (SRL) はユーザの行動履歴等のシーケンスデータの学習においては項目特性や順序的な相互作用の特性を効果的に捉えることができますが、アイテムのIDといった明示的な表現に依存するため、それらが陽にモデル化できない新規のレコメンドのシナリオ、例えば異なるドメインやプラットフォームへ適用し難いという課題があります。

Hou, Yupeng, et alはこの課題を解決するために、言語知識を活用しUniSRecと名付けた新しい汎用配列表現学習手法を紹介しています。この手法は、アイテムの説明テキストを利用することで、異なる推薦シナリオ間で伝達可能な表現を学習します。論文のコアとなる考え方は、アイテムテキストと呼ばれるアイテムの関連説明テキスト（例えば、商品説明、商品名、ブランド名）を利用した異なるドメイン間で転送可能な表現、及び普遍的な項目表現と普遍的な配列表現の学習にあります。

普遍的な項目表現を学習するために、パラメトリックホワイトニング(Parametric Whitening)とエキスパート混合型拡張(mixture-of-expert (MoE))拡張アダプタより構成されるアーキテクチャを提案しています。普遍的な配列表現を学習するためには、多領域否定文をサンプリングして、配列-項目、配列-配列の二種類の対比学習課題を導入しています。実世界のデータセットを用いた広範な実験でHou, Yupeng, et alのアプローチはプラットフォームを跨いだ環境での性能向上を示し、ユニバーサルSRL手法の強い移植性を示しています。

レコメンドに関心がある方は勿論、論文中で表現学習にも関連研究の調査と検討がされているため、この分野に関心がある方にも読み応えのある論文であると思いました。

次に紹介するのは、レコメンド及びテンソル分解をユークリッド空間に代わり双曲空間で実行することをテーマにした論文です。双曲空間はユークリッド空間よりも広々とした空間であり、その空間的特徴に着目し、その効果と有効性を示した研究成果が最近発表されています。

Yang, Menglin, et al: HICF: Hyperbolic Informative Collaborative Filtering

多くの大規模レコメンデーションデータセットでは、多数のユーザに好かれる人気アイテムが少数派を占め、残りは不人気なものが多数派となるロングテールと言われる裾が重い分布、例えばベキ分布として観測されます。大部分のレコメンドのモデルはユーザとアイテム間の選好や購入等の関係をネットワークを用いてユークリッド空間で表現しますが、このネットワークを構成するアイテム集合にベキ分布が観測される場合、ユークリッド空間での表現には限界があるため双曲空間で表現する方法があり、その方法を用いたレコメンドのモデルも提案されています。

しかし、双曲空間のユークリッド空間に対する優位性、具体的には双曲空間ではどのようなアイテムが効果的に推薦される、されないかは、まだ不明であるという問題があります。

Yang, Menglin, et alは最も基本的な推薦手法である協調フィルタリングを媒体に、双曲空間型推薦モデルとユークリッド型推薦モデルにおいて、分布におけるアイテムの位置（人気＝頭部、そうでもない＝最後尾）の推薦に違いがあるか調査しています。この調査で、双曲空間はユークリッド空間に比較して推薦するアイテムが分布の位置によらず有効であることを確認し、Yang, Menglin, et alは学習方法としてhyperbolic informative collaborative filtering (HICF)を提案しています。

HICFは双曲線上のマージンランキング損失のプル成分とプッシュ成分を幾何学的に認識させ、頭部と最後尾の両方の項目に対して有益な最適化ガイダンスを提供するというアイデアに基づき、ロングテールを持つ分布の頭部に位置するアイテムの推薦効果を補正しつつ、最後尾にあるアイテムの推薦効果を向上させることをめざした手法です。

双曲空間の容量が中心からの距離に比例して指数関数的に増加するという特徴を用いることで、モデルはテールアイテムをより推薦できるようになり、モデルの適用によりレコメンデーションや市場の多様性が向上することが期待されます。

Hui, Bo, et al: Low-rank Nonnegative Tensor Decomposition in Hyperbolic Space

この論文ではテンソル分解をユークリッド空間でなく双曲空間で行う手法を提案しています。最初に空間におけるベクトル表現を解釈すると、双曲空間には、円周と円板面積が半径に対して指数関数的に増大する特徴があるため、双曲空間はユークリッド空間より大きく、この空間でのベクトル、双曲ベクトルは次元の数が同じユークリッドベクトルと比較して表現力が豊かであると解釈できます。

Hui, Bo ,et alは双曲空間のテンソル分解には、双曲ベクトルに対する最適化ツールが存在しないという課題に着目し、その理由として既存のユークリッド勾配に基づく最適化は、双曲空間での演算として意味をなさないことに言及しています。例えば、ユークリッドベクトルの基本的な加算演算は双曲多様体上では定義されていません。

この課題を解決するために、Hui, Bo ,et alは双曲多様体の特徴的な性質に応じた適応的な最適化アルゴリズムを設計しています。具体的にはこのアルゴリズムは最適化問題の持つ非凸性に対処するため、勾配上昇法を採用し、局所的な最適地形に陥ることを回避しています。アルゴリズムの新規性は、原点までの距離に関する更新のステップサイズを、境界に向かうに従い指数関数的に減少させることにあります。実験では知識グラフ、ユーザ-アイテム-時刻、天気等のさまざまなテンソルに対して、提案手法の優位性を検証しています。

双曲空間を扱った論文はICMLにもありましたが、KDDでは適用シーンを具体化、あるいは実データの観察とそれを用いた検証という実用的な側面まで踏み込んでいる研究が目立ちました。

次は最近のAIで話題の事前学習済みモデルを用いた対話システムの論文です。

Yu, Jifan, et al: XDAI: A Tuning-free Framework for Exploiting Pre-trained Language Models in Knowledge Grounded Dialogue Generation

GPT-2に代表される大規模な事前学習済み言語モデル（PLM）は多くのdownstream tasksで有望な進歩を見せており、中でも対話は最も関心のあるタスクの一つです。一方で、このようなモデルを用いた知識ベース対話システムの構築は、モデルが「ユーザと対話できるようになる」まで学習に必要な知識資源の収集や、モデルをタスクに適合させるチューニングのコストがかかるという課題があります。

これらの課題を解決するため、Yu, Jifan, et alはPLMに対しプロンプト、及びオープンドメインの外部ノウハウリソースを用いた対話システムXDAIを提案しています。XDAIはプロンプトにより開発者を対話システムのチューニングから解放し、オフラインでの知識集約やプロンプトによる知識注入、及びオンラインでの対話生成等のワークフローを提供します。

事前学習済みモデルとの対話を用いたレコメンドの研究もあります。

Wang, Xiaolei, et al: Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning

これまでの対話型レコメンドシステム(CRSs)は文字通りユーザからの質問に対する回答を生成する会話タスクのモジュールと、ユーザ毎にアイテムを予測する推薦タスクのモジュールから構成され、これらモジュール間で知識を共有するアプローチを採用しています。

その知識共有としてsemantic alignment strategies、あるいはモジュール間でのknowledge resources及びrepresentationsを共有しています。このような知識共有方式ではモジュール間のアーキテクチャ設計及び動作メカニズムが異なり、その結果、モジュール間で意味が一致せず、期待した通りの結合が困難であるという課題があります。

この課題を解決するため、Wang, Xiaolei, et alが提案するUniCRSは、会話と推薦の両タスクをプロンプト学習に統一し、PLMに対して知識強化型プロンプトを利用してタスクを実行します。プロンプト設計に、融合型知識表現、タスク固有のソフトトークン、および対話コンテキストを含めることで、PLMをCRSタスクに適応させるために十分なコンテキスト等の知識共有が可能になります。

また、推薦タスクでは、再応答テンプレートをプロンプトの部分として組みこむことで、会話タスクとの知識共有を強化しています。

改めて研究テーマを振り返ると、Graph miningやRecommendationには研究面だけでなく、実用面でも課題があることを確認できました。利用可能なデータやそれを利用するフレームワークやコードも年々増えているので、これらをテーマとする研究者やエンジニアは当分増え続けるでしょう。

起きろ！仕事は始まっている！！

KDDは日本からは参加し難い会議だと思います。というのも例年、会議の開催時期は夏休み、しかも（日本からの参加者を考えて？考えていないで？）お盆の時期に重なっているからです。これは航空運賃が最も高い時期に他なりません。加えて今年は円安やサーチャージの高騰といったおまけが付いています。来年はお盆よりちょっと前に開催されるので、参加のハードルは少し下がるかもしれません。

帰りの機内でもDancing In The Darkを聞きましたが、「fireとhire、sparkとdarkで韻を踏んでいる」と今更気が付くくらいなので英語のヒアリング力もアップしたかもしれません。出張に見合った情報も収集できたかも。そんなことを思っているのなら、まだ夢から覚めていないのかも。夢は原動力ですが、それを現実世界に持ち帰りたいものです。グリードアイランドから持ち出すより簡単なはずです。その為に夢から覚醒する必要がありますが、覚醒条件は・・・KDDに論文を出すことでしょうか。

最後になりますが、ここまで読んでいただき有難うございます。前回に引き続き無限の理解を示し、ご尽力いただいた上司や同僚、この報告が世に出る機会を与えてくれた皆様にこの場を借りて御礼申し上げます。

川前徳章 [かわまえのりあき]
エバンジェリスト
(データサイエンティスト)

2009年NTTコムウェア入社。大規模データの分散処理基盤の調査・導入から始まり、レコメンドシステム、情報検索、機械学習、自然言語理解と生成、AI等データサイエンスの研究開発とその導入に従事。現在は生成AIやマルチモーダルに向けたAIの研究開発を行っている。
各種データサイエンスに関する講演など対外的な活動も多く、KDD2021-、ICLR2022-、NeurIPS2021-、ICML2022-、AAAI2024-、WSDM2024-等のトップカンファレンスのPCや査読委員など、国内外でAIやデータサイエンス系の論文審査委員も多く担当している。2023年9月より上智大学大学院非常勤講師も務める。

トップページへ戻る