検証可能なデータエコシステム
データに付随する信頼度やリネージュ(来歴)を第一級のデータとしてサポートし、任意のデータを検証可能なデータエコシステムを研究開発します。包括的な信頼度・検証モデル及びトランザクションを考慮したデータベース修復の理論的基盤を構築します。
さらに、高信頼分散ストレージを含むシステムのアーキテクチャを検討、プロトタイプシステムによる実証実験を行い、提案システムの有効性を検証します。
本プロジェクトは、筑波大、名古屋大、お茶の水女子大学、東京工業大学の横断プロジェクトで、大阪大学は主に3つのトピックに焦点を当てています。
最初のトピックでは、historical what-if query analysis を実現するため、トランザクション履歴を一部変更することによってDBの状態をシミュレーションする機能を実現します [3]。
要素技術として、応用プログラムをSQL文と統合する SQL transpiler、および過去のトランザクションを変更した後、トランザクションの再実行を高速に実行する DBMS plugin architeture の研究に取り組んでいます。
第2のトピックでは、ベイズモデルあるいは大規模言語モデルを活用したデータクリーニング [1, 3]に取り組んでいます。
最後に、特に機械学習などでデータ提供者の評価を構成に行うための研究に取り組んでいます。要素技術として、水平・垂直統合型の連合学習におけるシャープレイ値を用いた教師データの貢献度評価について研究しています。
Members
Publication list
[2] Yongrui Zhong, Yunqing Ge, Jianbin Qin, Shuyuan Zheng, Bo Tang, Yu-Xuan Qiu, Rui Mao, Ye Yuan, Makoto Onizuka, Chuan Xiao: Privacy-Enhanced Database Synthesis for Benchmark Publishing. CoRR abs/2405.01312 (2024)
[3] Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada: Jellyfish: A Large Language Model for Data Preprocessing. CoRR abs/2312.01678 (2023)
[4] Ronny Ko, Chuan Xiao, Makoto Onizuka, Yihe Huang, Zhiqiang Lin: Ultraverse: Efficient Retroactive Operation for Attack Recovery in Database Systems and Web Frameworks. CoRR abs/2211.05327 (2022)
Funding
Resources
Source code
Privbench (Privacy-Enhanced Database Synthesis for Benchmark Publishing): https://github.com/dsegszu/privbench
Jellyfish: https://huggingface.co/NECOUDBFM/Jellyfish-8B