Research

現在鬼塚研が行なっている様々な研究についてご紹介します.

クエリ最適化

query optimization

近年盛んな機械学習を用いた研究開発や大規模なサービス開発では大量のデータを扱う必要があります.そして,大規模なデータを効率的に扱うためにはその保管場所であるデータベースの高速化が欠かせません. 弊研究室では,以下の2つのアプローチでデータベース高速化に取り組んでいます.

  • 機械学習を用いてデータやワークロードの特性を捉え,高効率なクエリの実行計画を得る研究
  • データの保存方法やクエリの実行計画を最適化問題として定式化し,高効率なクエリの実行計画を得る研究

データ統合システム

data integration

データ統合とは,複数のデータベースに分散する関連したデータを統合し,利活用を簡単にする技術です. 近年,生成されるデータ量は増大しており,複数のデータベースに蓄積されたデータの包括的な利活用に対し需要が高まっています. 本研究室では P2P ベースのデータ統合アーキテクチャにおける効率的なトランザクションマネジメント手法を研究しています.

対話システム

conversation system

言葉を理解し,気持ちを察し,人間のような会話をする対話システムの実現を目指し,研究に取り組んでいます. 特に日常会話をするチャットボットと呼ばれるサービスを研究対象としています. 私たちのグループでは検索ベース・生成ベースの2つのアプローチを研究しています.

  • 検索ベース手法:大規模な過去の対話データから,適切な発話を検索し,応答します.
  • 生成ベース手法:様々な機械学習の手法を用い,会話を生成します.

上記の手法を用いて,相手の興味や感情に応じた会話や会話そのものの質を向上させる研究を行っております. この研究では MicrosoftリサーチアジアCORE共同研究プロジェクト の支援のもと,日本マイクロソフト社のサービスであるりんなとの共同研究を行っています. また,対話システムを構築する際には大量の会話データが必要となります. 私達のグループでは,対話システム構築の為のデータの効率的な収集や自動生成にも取り組んでおります. 下記画像は生成型対話システムによる実際の返答です.

conversation system

パラフレーズ

paraphrase

「The discussion heated up.」と「Their debate entered high gear.」のように, 同じ事象や概念を異なる表現でもって表したものをパラフレーズ(言い換え表現)といいます. この2つの文のように,まったく異なる単語から構成されるにも関わらず,なぜ人間はパラフレーズが同じ意味を表すと分かるのでしょうか? 人間の脳ではどのようにしてパラフレーズ,ひいては意味の表現を生み出しているのでしょうか? パラフレーズはこれらの謎を紐解く上で重要な手がかりです. また応用においても,人間の言語能力の推定や,自動質問応答,文書要約にも役立ちます. 私たちはパラフレーズに起こっている言語現象の分析,それを基にしたパラフレーズの認識技術の研究開発に取り組んでいます. プロジェクトページはこちら

言語学習支援

education support

外国語の習得は重要かつ有益ですが,そのプロセスは困難に満ちています. 私たちは言語学習者,また語学教員を支援するシステムの研究開発に取り組んでいます. これまで英語レベルを自動で判定するシステム,英語教材のレベルを自動で調整するシステムを開発しています.

グラフマイニング

graph mining

SNSによって人と人が繋がり,IoTによって機械と機械も繋がるようになり,それらの関係を表すグラフデータの解析が重要になってきています.グラフデータから有益な知見を見つけることを,グラフマイニングといいます(マイニング=採掘).具体的には,似た振る舞いをするグループ(コミュニティ)を見つけるクラスタリングや,次に繋がる可能性が高い箇所を見つけるリンク予測などが盛んに研究されています.このような分析はマーケティングや推薦システムに利用されており,実際のサービスでも広く活用されています.私たちは,より高精度でかつ高速な手法の開発を目指しています.

サブグラフマッチング

SubgraphMatching

ある大きなグラフの中から特定のグラフ構造を探索する問題はサブグラフマッチングと呼ばれ,グラフから複雑な情報を引き出すために用いられています. 例えばソーシャルネットワークにおいて,SNS 上のみでなくオフラインでも友人である可能性が高い人物を発見できます. また,企業間の取引関係を表すグラフから循環取引などの会計不正を発見するような使い方も考えられます. しかしながら多くの応用がある一方で,サブグラフマッチングは処理時間が爆発的に増加しやすい問題(NP 完全問題)としても知られています. そこでビッグデータ工学講座では,効率的な探索により高速なサブグラフマッチングを可能にするアルゴリズムの確立を目指しています.

特許評価AIシステム

graph mining

全世界での登録特許数の数は1千万件を超え,年間の特許出願数は3百万件を超える昨今,企業における特許調査の負荷は大きくなっています.また,中国における年間の特許出願数は世界トップで増加傾向であり,知財権のグローバル化も進んでいることから,ますます網羅的な調査は困難となります.このような状況から,人間による調査だけでは調査不足に陥ると予測しており,AIを利用した高速で幅広い特許調査が必要になってくると考えています.本研究では自然言語処理における近年のニューラルネットワーク等による機械学習の成果を利用し,グラフマッチングやクラスタリングなどビッグデータ分析の手法も取り入れながら,特許調査を半自動で高精度に行うシステムの開発を目指しています.

発見的データ分析

graph mining

発見的データ分析とは,購買データや天体観測データなどの多様で膨大なデータを対象として,通常とは異なる特徴的なデータを発見する技術です.例えば,特定の地域や季節において他とは異なる特徴的なデータを発見して活用する例などが挙げられます.特に,国立天文台と協力して,正常パターンを学習して異常検知する技術や,欠損値補完などの技術に取り組んでおり,短期間で明るさや位置が変化する変動天体の発見を目指しています.

属性グラフクラスタリング

graph mining

属性付きグラフとはノード間を結ぶエッジによる構造的な関係だけでなく,ノードが個々に特徴量を持つようなグラフです. 例えばSNSでのユーザをノードとすると,友達関係にあるユーザ間にエッジを設け,そのユーザの興味のあるカテゴリーなどが特徴量に当たります. 属性付きグラフクラスタリングの利点としては,従来の手法では無視されていた情報を使うことによって, より良いクラスタが抽出できると考えられることです.

経路検索

route search

日常でも多くの方がカーナビやスマートフォンを用いて経路検索を使用しています. 既存のサービスでは検索できないような便利で新しい経路検索の考案を行っております. 特に,実際のデータがもつ属性(カテゴリや説明文等)や周辺情報に着目し, 距離だけではなく他の項目との適合による検索,駐車場情報などとの連携について取り組んでいます. 他にも,既存の検索方法の効率化や地方自治体と連携して実サービスの構築 (スペインサンタンデル市)も行っています.

時空間データマイニング

spatio_temporal_data_mining

近年,街中には気温センサ,騒音センサ,交通量センサ,大気汚染物質センサなど多様なセンサが数多く設置されており, それらは毎日たくさんのデータを生み出しています. 私たちのグループはこれらのビッグデータを分析することで「気温が上昇すると交通量が増加する」, 「騒音が上昇すると大気汚染物質が増加する」といったような, 実世界で起きている事象について新たな知識を発見することを目的としています.