Papers · STAIR Lab

ICML'26

Towards the Explainability of Temporal Graph Networks via Memory Backtracking and Topological Attribution

Yazheng Liu, Xi Zhang, Sihong Xie, Hui Xiong

International Conference on Machine Learning · 2026

ICML'26

X-EviProbe: Post-hoc Parameter-free Evidential Uncertainty Quantification for Frozen Graph Neural Networks

Chenghua Guo, Sihong Xie, Xi Zhang

International Conference on Machine Learning · 2026

ACL'26

Beyond Surface-Level Detection: Towards Cognitive-Driven Defense Against Jailbreak Attacks via Meta-Operations Reasoning

Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang

Annual Meeting of the Association for Computational Linguistics · 2026

arXiv

CVPR'26

Diffusion with a Linguistic Compass: Steering the Generation of Clinically Plausible Future sMRI Representations for Early MCI Conversion Prediction

Zhihao Tang, Chaozhuo Li, Litian Zhang, Xi Zhang

IEEE/CVF Conference on Computer Vision and Pattern Recognition · 2026

arXiv

TCSS'26

Loki's Dance of Illusions: A Comprehensive Survey of Hallucination in Large Language Models

Ming Lu, Chaozhuo Li, Pengbo Wang, Chenxu Wang, Litian Zhang, Zheng Liu, Qiwei Ye, Yi Hua, Yushan Cai, Yuanbo Xu, Hao Zhao, Feiran Huang, Xi Zhang, Philip S. Yu

IEEE Transactions on Computational Social Systems · 2026

arXiv

ICASSP'26

GCE-UQ: Quantifying and Decomposing Uncertainty in Graph Counterfactual Explanations

Chenghua Guo, Sihong Xie, Xi Zhang

IEEE International Conference on Acoustics, Speech, and Signal Processing · 2026

ICASSP'26

Constrained Paraphrase Consistency for LLM Hallucination Detection

Shanshan Lin, Dongsheng Hong, Sibo Ju, Chao Chen, Xi Zhang, Xiangwen Liao

IEEE International Conference on Acoustics, Speech, and Signal Processing · 2026

ICASSP'26

Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models

Yusheng Song, Lirong Qiu, Xi Zhang, Zhihao Tang

IEEE International Conference on Acoustics, Speech, and Signal Processing · 2026

arXiv Code

AAAI'26

MirrorShield: Towards Dynamic Adaptive Defense Against Jailbreaks via Entropy-Guided Mirror Crafting

Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang

AAAI Conference on Artificial Intelligence (AAAI 2026) · 2026

arXiv

WWW'26

When Reasoning Leaks Membership: Membership Inference Attack on Black-box Large Reasoning Models

Ruihan Hu, Yu-Ming Shang, Wei Luo, Ye Tao, Xi Zhang*

The Web Conference (WWW) · 2026

首次系统研究黑盒推理模型的成员推理问题。提出框架 BlackSpectrum，利用推理轨迹在语义潜在空间中的「回忆–推断轴」判别成员身份，在 Gemini-2.5、Claude-sonnet 等真实模型上显著优于现有黑盒方法。

arXiv Code

AAAI'26

TruthfulRAG: Resolving Factual-level Conflicts in Retrieval-Augmented Generation with Knowledge Graphs

Shuyi Liu, Yuming Shang, Xi Zhang*

AAAI Conference on Artificial Intelligence · 2026

首个利用知识图谱进行 RAG 事实级冲突检测与消解的框架。

arXiv

IPM'26

Discovering new intents via spatio-temporal pseudo-label denoising

Y Huang, YM Shang, W Huang, S Guo, J Chen, X Zhang, PS Yu

Information Processing & Management · 2026

INFUS'26

Finefake: A knowledge-enriched dataset for fine-grained multi-domain fake news detection

Z Zhou, X Zhang, L Zhang, J Liu, E Cambria, C Li

Information Fusion · 2026

arXiv

ESWA'26

Fact in Fragments: Deconstructing Complex Claims via LLM-based Atomic Fact Extraction and Verification

L Zheng, C Li, Z Liu, F Huang, H Jia, Z Ye, X Zhang

Expert Systems with Applications · 2026

AAAI'25

Beyond Text: Fine-Grained Multi-Modal Fact Verification with Hypergraph Transformers

Hui Pang, Chaozhuo Li*, Litian Zhang, Senzhang Wang, Xi Zhang

Thirty-Ninth AAAI Conference on Artificial Intelligence · 2025

IJCAI'25

Automated Detection of Pre-training Text in Black-box LLMs

Ruihan Hu, Yu-Ming Shang, Jiankun Peng, Wei Luo, Yazhe Wang, Xi Zhang*

International Joint Conference on Artificial Intelligence · 2025

提出 VeilProbe，一种面向黑盒大语言模型的预训练文本自动检测框架。

arXiv Code

AAAI'25

MRR-FV: Unlocking Complex Fact Verification with Multi-hop Retrieval and Reasoning

Liwen Zheng, Chaozhuo Li, Litian Zhang, Haoran Jia, Senzhang Wang, Zheng Liu, Xi Zhang*

AAAI Conference on Artificial Intelligence · 2025

提出 MRR-FV，基于多跳检索和推理的复杂声明事实核查方法。

TKDE'25

Improving Sequential Recommendations via Bidirectional Temporal Data Augmentation with Pre-training

Juyong Jiang, Peiyan Zhang, Yingtao Luo, Chaozhuo Li*, Jae Boum Kim, Kai Zhang, Senzhang Wang, Sunghun Kim, Philip S. Yu

IEEE Transactions on Knowledge and Data Engineering · 2025

arXiv Code

ESWA'25

Beyond entity alignment: Towards complete knowledge graph alignment via entity-relation synergy

X Fang, C Li, Y Zhao, Q Zang, L Zhang, J Peng, X Zhang, J Gong

Expert Systems with Applications · 2025

COLING'25

SCCD: A session-based dataset for Chinese cyberbullying detection

Q Yang, Y Chen, Z Xu, Y Shang, S Guo, X Zhang

International Conference on Computational Linguistics · 2025

arXiv Code

PAKDD'25

Jailbench: A comprehensive chinese security assessment benchmark for large language models

S Liu, S Cui, H Bu, Y Shang, X Zhang

Pacific-Asia Conference on Knowledge Discovery and Data Mining · 2025

arXiv Code

KBS'25

From local to global: Leveraging document graph for named entity recognition

YM Shang, H Mao, T Tian, H Huang, XL Mao

Knowledge-Based Systems · 2025

DSC'25

Navigating the Black Box: Leveraging LLMs for Effective Text-Level Graph Injection Attacks

Yuefei Lyu; Chaozhuo Li; Xi Zhang; Tianle Zhang

DSC · 2025

IJCNN'25

Hear ALL Parties: Detecting Implicit Hate Speech using Contrastive In-context Learning

Yuanyong Li; Sanchuan Guo; Xi Zhang

IJCNN · 2025

ICME'25

Harnessing Counterfactual Reasoning for Explainable Multi-Modal Fact Verification with Large Language Models

Chaozhuo Li; Hui Pang; Xi Zhang; Litian Zhang; Feiran Huang; Ming Lu

ICME · 2025

PCDS'25

Edgebert: a Click-Graph Enhanced Approach for Search Ads Matching

Mai Zhang; Chaozhuo Li; Xi Zhang; Lirong Qiu; Jincui Yang

PCDS · 2025

Transactions on Au'25

Multi-Modal Relation Extraction Enhanced by Out-of-Text Visual Information

Yu-Ming Shang; Tao Wang; Xi Zhang

IEEE Transactions on Audio, Speech and Language Processing · 2025

TIFS'25

LapGLP: Approximating Infinite-Layer Graph Convolutions With Laplacian for Federated Recommendation

Zhi Li; Chaozhuo Li; Feiran Huang; Xi Zhang; Jian Weng; Philip S. Yu Department of Computer Science, University of Illinois at Chicago, Chicago, IL, USA

IEEE TIFS · 2025

WCNC'25

Contention-Aware Microservice Deployment in Collaborative Mobile Edge Networks

Xinlei Ge; Yang Li; Xing Zhang; Yukun Sun; Yunji Zhao Wireless Signal Processing and Network Laboratory, Beijing University of Posts and Telecommunications, Beijing, China

WCNC · 2025

arXiv

Internet of Things'25

Incentive-Driven Task Offloading and Collaborative Computing in Device-Assisted MEC Networks

Yang Li; Xing Zhang; Bo Lei; Qianying Zhao; Min Wei; Zheyan Qu

IEEE Internet of Things Journal · 2025

EMNLP'25

DSG-MCTS: A Dynamic Strategy-Guided Monte Carlo Tree Search for Diversified Reasoning in Large Language Models

Rui Ha, Chaozhuo Li, Rui Pu, Litian Zhang, Xi Zhang, Sen Su

EMNLP · 2025

Transactions on In'25

Advancing session-based recommendations with Atten-Mixer+: dynamic and adaptive multi-level intent mining

Peiyan Zhang, Jiayan Guo, Chaozhuo Li, Liying Kang, Jaeboum Kim, Jie Xu, Xi Zhang, Yan Zhang, Haohan Wang, Sunghun Kim

ACM Transactions on Intelligent Systems and Technology · 2025

IJCAI'25

Curriculum hierarchical knowledge distillation for bias-free survival prediction

Chaozhuo Li, Zhihao Tang, Mingji Zhang, Zhiquan Liu, Litian Zhang, Xi Zhang

IJCAI · 2025

IJCAI'25

Diffusion guided propagation augmentation for popularity prediction

Chaozhuo Li, Tianqi Yang, Litian Zhang, Xi Zhang

IJCAI · 2025

DSC'25

Reasoning Paths as Signals: Augmenting Multi-Hop Fact Verification Through Structural Reasoning Progression

Liwen Zheng; Chaozhuo Li; Haoran Jia; Xi Zhang

DSC · 2025

NeurIPS'25

One SPACE to Rule Them All: Jointly Mitigating Factuality and Faithfulness Hallucinations in LLMs

Pengbo Wang, Chaozhuo Li, Chenxu Wang, Liwen Zheng, Litian Zhang, Xi Zhang

NeurIPS · 2025

arXiv

ACL'25

CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models

Xiaqiang Tang, Jian Li, Keyu Hu, Nan Du, Xiaolong Li, Xi Zhang, Weigao Sun, Sihong Xie

ACL · 2025

AAAI'25

Ghidorah: Towards Robust Multi-Scale Information Diffusion Prediction via Test-Time Training

Wenting Zhu, Chaozhuo Li, Litian Zhang, Senzhang Wang, Xi Zhang

AAAI · 2025

AAAI'25

From Representation Space to Prognostic Insights: Whole Slide Image Generation with Hierarchical Diffusion Model for Survival Prediction

Zhihao Tang, Xi Zhang, Chaozhuo Li

AAAI · 2025

INFUS'25

Knowledge-aware multimodal pre-training for fake news detection

Litian Zhang, Xiaoming Zhang, Ziyi Zhou, Xi Zhang, Philip S Yu, Chaozhuo Li

Information Fusion · 2025

CCF International'25

Bayesian Network-Based Adaptive Prompt Learning for Emotion-Cause Pair Extraction

Hongyan Xie, Yu-Ming Shang

CCF International Conference on Natural Language Processing and Chinese Computing · 2025

MM'24

Mitigating Social Hazards: Early Detection of Fake News via Diffusion-Guided Propagation Path Generation

Litian Zhang, Xiaoming Zhang, Chaozhuo Li*, Ziyi Zhou, Jiacheng Liu, Feiran Huang, Xi Zhang

Proceedings of the 32nd ACM International Conference on Multimedia · 2024

NeurIPS'24

Enhancing Robustness of Graph Neural Networks on Social Media with Explainable Inverse Reinforcement Learning

Yuefei Lyu, Chaozhuo Li*, Sihong Xie, Xi Zhang

Advances in Neural Information Processing Systems (Spotlight) · 2024

SIGIR'24

GPT4Rec: Graph Prompt Tuning for Streaming Recommendation

Peiyan Zhang, Yuchen Yan, Xi Zhang, Liying Kang, Chaozhuo Li*, Feiran Huang, Senzhang Wang, Sunghun Kim

Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval · 2024

arXiv

MM'24

Deeply Fusing Semantics and Interactions for Item Representation Learning via Topology-driven Pre-training

Shiqin Liu, Chaozhuo Li*, Xi Zhang, Minjun Zhao, Yuanbo Xu, Jiajun Bu

Proceedings of the 32nd ACM International Conference on Multimedia · 2024

WWW'24

High-Frequency-aware Hierarchical Contrastive Selective Coding for Representation Learning on Text Attributed Graphs

Peiyan Zhang, Chaozhuo Li*, Liying Kang, Feiran Huang, Senzhang Wang, Xing Xie, Sunghun Kim

Proceedings of the ACM Web Conference 2024 · 2024

arXiv

ACL Findings'24

Evidence retrieval is almost all you need for fact verification

L Zheng, C Li, X Zhang, YM Shang, F Huang, H Jia

Findings of the Association for Computational Linguistics · 2024

AAAI'24

Span graph transformer for document-level named entity recognition

H Mao, XL Mao, H Tang, YM Shang, H Huang

AAAI Conference on Artificial Intelligence · 2024

EMNLP'24

BaitAttack: Alleviating Intention Shift in Jailbreak Attacks via Adaptive Bait Crafting

Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang

EMNLP 2024 · 2024

越狱攻击使恶意查询能够规避LLMs的检测。现有攻击侧重于精心构建提示以伪装有害意图。然而，引入复杂的伪装提示可能会带来“意图偏移”的挑战。意图偏移发生在提示中的额外语义分散了LLMs的注意力，导致响应与原始有害意图显著偏离。在本文中，我们提出了一种新颖的组件，“诱饵”，以减轻意图偏移的影响。诱饵包括对有害查询的初始响应，提示LLMs纠正或补充诱饵中的知识。通过提供与查询相关的丰富语义，诱饵帮助LLMs关注原始意图。为了隐藏诱饵中的有害内容，我们进一步提出了一种新颖的攻击范式，BaitAttack。BaitAttack自适应地生成必要的组件，以说服目标LLMs它们在一个安全的环境中参与一个合法的查询。我们的提议在一个流行的数据集上进行了评估，展示了最先进的攻击性能和减轻意图偏移的非凡能力。BaitAttack的实现可在以下链接获取：https://anonymous.4open.science/r/BaitAttack-D1F5。

EMNLP'24

Exploiting Emotion-Semantic Correlations for Empathetic Response Generation

Zhou Yang，Zhaochun Ren，Yufeng Wang，Xiaofei Zhu，Zhihao Chen，Tiecheng Cai, Yunbing Wu, Yisong Su，Sibo Ju，Xiangwen Liao

EMNLP 2023 · 2024

共情回应生成旨在通过理解对话语言中的说话者情感来生成具有共情能力的回应。现有方法通常捕捉交流者语言中的情感词并将其构建为静态向量来感知细微情绪。然而语言学研究表明，语言中的情感词具有动态特性，且与语法中其他语义角色（即具有实际意义的词汇）存在关联。传统方法忽视了这两个特征，容易导致情绪误判和关键语义遗漏。为解决这一问题，我们提出了一种动态情感-语义关联模型（ESCM）用于共情对话生成任务。该模型通过上下文与情感的交互作用构建动态情感-语义向量，并引入依存树来表征情感与语义之间的关联关系。基于动态情感-语义向量和依存树结构，我们提出动态关联图卷积网络来引导模型学习对话中的上下文语义，进而生成具有共情能力的回应。在EMPATHETIC-DIALOGUES数据集上的实验表明，ESCM能更准确地理解语义与情感，生成流畅且信息丰富的共情回应。分析结果还揭示，情感与语义的关联关系在对话中频繁出现，这对共情感知与表达具有重要意义。

IPM'24

Situation-aware empathetic response generation

Zhou Yang, Zhaochun Ren, Yufeng Wang, Haizhou Sun, Xiaofei Zhu, Xiangwen Liao

Information Processing and Management · 2024

同理心回应生成旨在感知对话中对方的情感和认知状态，并做出恰当的回应。以往的研究通过理解对话的即时上下文来检测对方的状态。然而，这些方法由于忽视了更广泛的上下文（即情境）及其与对话的关联，因此在同理心理解的层次上仍处于基础或中级阶段，导致对对方状态的理解不准确。本文利用包含25k对话的EMPATHETIC-DIALOGUES数据集，并在此基础上提出了情境-对话关联模型（SDAM）。SDAM关注更广泛的上下文——即情境，并通过显性和隐性关联增强同理心理解。在显性关联方面，我们提出了一种双向过滤编码器，它选择情境和对话之间的相关关键词，学习它们的直接词汇相关性。在隐性关联方面，我们使用一个基于知识的超图网络，学习情境和对话之间复杂的联系。此外，我们还引入了一种简单的微调方法，将SDAM与大型语言模型结合，以进一步增强同理心理解能力。与基准模型相比，SDAM展现出了更强的同理心能力。在情感准确性、流畅性和回应多样性（Distinct-1/Distinct-2）方面，SDAM分别提高了12.25（增加30.47%）、0.3（增加0.85%）和0.86/1.23（增加116.22%和30.67%）。此外，我们基于大型语言模型的变体模型在情感识别能力方面表现更佳，且不影响回应质量，特别是在情感准确性上提升了0.23（增加0.37%）。

ACL'24

An Iterative Associative Memory Model for Empathetic Response Generation

Zhou Yang, Zhaochun Ren, Yufeng Wang, Haizhou Sun, Chao Chen, Xiaofei Zhu, Xiangwen Liao

ACL · 2024

同理心回应生成旨在理解对话语句中的认知和情感状态，并生成恰当的回应。心理学理论认为，理解情感和认知状态需要迭代地捕捉和理解对话语句中的相关词汇。然而，现有的方法将对话语句视为长序列或独立语句进行理解，这往往忽视了它们之间的相关词汇。为了解决这一问题，我们提出了一种迭代关联记忆模型（IAMM）用于同理心回应生成。具体来说，我们采用了一种新颖的二阶互动注意力机制，迭代地捕捉对话语句与情境、对话历史之间的相关词汇，以及一个记忆模块（用于存储相关词汇），从而准确且细致地理解语句。我们在Empathetic-Dialogue数据集上进行了实验，自动评估和人工评估验证了该模型的有效性。对大型语言模型（LLM）的变体实验也表明，关注相关词汇能够提高同理心理解与表达。

BIBM'24

A Tiny Efficient U-Net with Gated Linear Attention for Medical Image Segmentation

Sibo Ju, Zhaozhen Chen, Xiangwen Liao, Yiqing Shen, Junjun He, Yanzhou Su

IEEE BIBM · 2024

医学图像分割对于诊断和治疗规划至关重要。尽管深度学习的最新进展，特别是UNet的变种，已提升了分割性能，但它们通常导致模型复杂度增加，从而限制了在临床环境中资源受限设备上的实时应用。为了解决这一挑战，我们提出了微型高效U-Net（TE-UNet），这是一种平衡效率和准确性的全新轻量级模型。TE-UNet采用U型编码器-解码器框架，并结合门控线性注意力机制处理低级和高级特征，既保留了细节，又减少了复杂度。它使用深度可分离卷积进行更高级的处理，提升了效率而不牺牲性能。此外，跳跃连接改善了多尺度特征提取和信息流动。在两个公共数据集上的实验结果表明，TE-UNet超越了十种最先进的方法，且保持了40KB以下的参数量和较低的计算成本。TE-UNet使得在各种临床应用中实现实时分割变得更加可行。

CLOING'24

CTSM: Combining Trait and State Emotions for Empathetic Response Model

Yufeng Wang, Chao Chen, Zhou Yang, Shuhui Wang, Xiangwen Liao

CLOING · 2024

同理心回应生成旨在赋能对话系统感知说话者的情感，并根据情感生成同理心回应。心理学研究表明，情感作为同理心的核心因素，包含特质情感和状态情感，前者是静态且与上下文无关的，后者是动态且依赖于上下文的。然而，过去的研究往往将它们孤立地处理，导致情感感知不足，从而使同理心表达效果不佳。为了解决这个问题，我们提出了“结合特质和状态情感的同理心回应模型”（CTSM）。具体来说，为了充分感知对话中的情感，我们首先构建并编码特质情感和状态情感的嵌入表示，然后通过情感引导模块进一步增强情感感知能力，该模块引导情感表示的学习。此外，我们提出了一个跨对比学习解码器，通过对生成回应和上下文之间的特质情感和状态情感进行对齐，来增强模型的同理心表达能力。自动评估和人工评估结果均表明，CTSM优于最先进的基准模型，并能够生成更具同理心的回应。我们的代码可以在此获取：[https://github.com/wangyufeng-empty/CTSM](https://github.com/wangyufeng-empty/CTSM)

arXiv Code

NIPS'24

Training for Stable Explanation for Free

Chao Chen, Chenghua Guo, Rufeng Chen, Guixiang Ma, Ming Zeng, Xiangwen Liao, Xi Zhang, Sihong Xie

NIPS · 2024

为了增强对机器学习模型的信任，解释必须具有忠实性和稳定性，以便提供一致的洞见。现有的相关研究依赖于距离来评估稳定性，但这与人类的感知存在偏差。此外，现有的对抗训练（AT）由于计算量大，可能会导致一种军备竞赛的局面。为了解决这些挑战，我们提出了一种新颖的度量标准来评估最重要特征的稳定性。我们引入了R2ET，通过高效有效的正则化器训练稳定的解释，并通过多目标优化分析R2ET，以证明解释的数值和统计稳定性。此外，R2ET与认证鲁棒性之间的理论联系证明了R2ET在所有攻击下的稳定性。针对不同数据模态和模型架构的大量实验表明，R2ET在抵抗隐蔽攻击方面表现出色，并能有效地在不同的解释方法中泛化。代码可以在此获取：[https://github.com/ccha005/R2ET](https://github.com/ccha005/R2ET)

Code

KBS'24

HCUKE: A Hierarchical Context-aware approach for Unsupervised Keyphrase Extraction

Chun Xu，Xian-Ling Mao，Cheng-Xin Xin，Yu-Ming Shang，Tian-Yi Che，Hong-Li Mao，Heyan Huang

Knowledge-Based Systems · 2024

关键词提取 (KE) 旨在识别一组简洁的单词或短语，以有效地概括文档的核心思想。最近，基于嵌入的模型通过在无监督关键词提取 (UKE) 中联合建模局部和全局上下文，取得了最佳性能。然而，这些模型经常忽略句子或文档级别的上下文，直接导致全局重要性薄弱或不正确。此外，它们严重依赖局部重要性，使它们容易受到噪声数据的影响，特别是在长文档中，从而导致性能不稳定和次优。直观地说，分层上下文使我们能够更准确地理解候选词，从而增强它们的全局相关性。受此启发，我们提出了一种新颖的分层上下文感知无监督关键词提取方法，称为HCUKE。具体而言，HCUKE 包含三个核心模块：(i) 基于分层上下文的全局重要性度量模块，它从三级分层结构中逐步学习全局语义信息； (ii) 短语级局部重要性度量模块，通过建模候选词之间的上下文交互来捕捉局部语义信息；(iii) 候选词排序模块，将度量得分与位置权重相结合，计算最终排序得分。在三个基准数据集上进行的大量实验表明，该方法显著优于最先进的基线方法。

TKDE'24

Early detection of multimodal fake news via reinforced propagation path generation

Litian Zhang, Xiaoming Zhang, Ziyi Zhou, Xi Zhang, Senzhang Wang, Philip S Yu, Chaozhuo Li

IEEE Transactions on Knowledge and Data Engineering · 2024

在社交媒体平台上多模态虚假新闻快速传播的背景下，虚假新闻的检测已成为主要的研究追求。为了检测细致入微的虚构程度，引入了传播路径以提供细微的社会背景，从而增强新闻内容的语义分析。然而，现有的传播增强模型在检测效力和社会风险之间陷入困境。在本文中，我们通过生成传播路径来探索早期虚假新闻检测的创新问题，能够在传播路径中受益于广泛的社会背景，同时减轻潜在的社会风险。为了应对这些挑战，我们提出了一种新颖的强化传播路径生成虚假新闻检测模型，RPPG-Fake。不同于传统的判别方法，RPPG-Fake从异构社会图中捕获传播拓扑模式，并在强化学习范式下生成传播路径以有效检测虚假新闻。我们的提议在三个流行的数据集上进行了广泛评估，实验结果证明了我们提议的优越性。

Computing Surveys'24

A survey of text watermarking in the era of large language models

Aiwei Liu, Leyi Pan, Yijian Lu, Jingjing Li, Xuming Hu, Xi Zhang, Lijie Wen, Irwin King, Hui Xiong, Philip Yu

ACM Computing Surveys · 2024

文本水印算法对于保护文本内容的版权至关重要。历史上，它们的性能和应用场景有限。然而，近年来大型语言模型（LLMs）的进步已经彻底改变了这些技术。LLMs不仅通过其高级能力增强了文本水印算法，还产生了使用这些算法来保护自身版权或防止潜在滥用的需求。这项工作对文本水印技术的当前状态进行了全面调查，涵盖了四个主要方面：（1）不同文本水印技术的概述和比较；（2）文本水印算法的评估方法，包括其可检测性、对文本或LLM质量的影响以及在目标或非目标攻击下的鲁棒性；（3）文本水印技术的潜在应用场景；（4）文本水印的当前挑战和未来方向。这项调查旨在为研究人员提供对LLM时代文本水印技术的全面理解，从而促进其进一步发展。

SIGIR'24

TransGNN: Harnessing the Collaborative Power of Transformers and Graph Neural Networks for Recommender Systems

Peiyan Zhang, Yuchen Yan, Xi Zhang, Chaozhuo Li, Senzhang Wang, Feiran Huang, Sunghun Kim

Proceedings of the 47th International ACM SIGIR conference on research and development in information retrieval · 2024

图神经网络（GNNs）已成为通过建模用户-物品交互图来解决协同过滤（CF）的有希望的解决方案。现有基于GNN的推荐系统核心涉及沿着用户-物品交互边进行递归消息传递以细化编码嵌入。尽管它们已经证明了有效性，但当前基于GNN的方法面临着感受野有限和存在噪声的“兴趣无关”连接的挑战。相比之下，基于Transformer的方法在自适应和全局聚合信息方面表现出色。然而，它们在大规模交互图中的应用受到固有的复杂性和捕捉复杂、纠缠的结构信息的挑战。在本文中，我们提出了TransGNN，这是一种新颖的模型，它交替地集成Transformer和GNN层以相互增强其能力。具体来说，TransGNN利用Transformer层来扩展感受野并将信息聚合从边中解耦，从而从更多相关节点聚合信息，从而增强GNN的消息传递。此外，为了有效地捕捉图结构信息，我们精心设计了位置编码并将其集成到GNN层中，将这种结构知识编码到节点属性中，从而增强Transformer在图上的性能。通过提出对Transformer最相关节点的采样以及两种高效的样本更新策略来减少复杂性，效率考虑也得到了缓解。此外，理论分析表明，与GNN相比，TransGNN提供了更高的表达能力，同时线性复杂度仅略有增加。在五个公开数据集上的大量实验验证了TransGNN的有效性和效率。我们的代码可在https://github.com/Peiyance/TransGNN-torch上找到。

Code

WWW'24

Collaborative Metapath Enhanced Corporate Default Risk Assessment on Heterogeneous Graph

Zheng Zhang, Yingsheng Ji, Jiachen Shen, Yushu Chen, Xi Zhang, Guangwen Yang

Proceedings of the ACM Web Conference 2024 · 2024

默认的小公司风险评估是金融服务中的一个难题。近期的研究利用了先进的异构图神经网络（HGNNs）和元路径来利用企业活动中的交互特征进行风险评估。然而，针对商业银行的研究工作很少。给定一个真实的金融图，如何检测企业违约风险？我们确定了该任务的两个挑战。（1）大量的噪声连接阻碍了HGNNs取得强结果。（2）多个语义连接大大增加了传递性违约风险，而现有的聚合方案没有利用这种连接模式。在本工作中，我们提出了一种新颖的异构图共注意力网络用于企业违约风险评估。我们的模型利用协作元路径通过共注意力聚合机制提炼风险特征。首先，局部注意力分数通过整体元路径上下文来模拟每个元路径下邻居的重要性。其次，全局注意力分数融合局部注意力分数以过滤有价值/噪声信号。然后，成对重要性学习旨在增强多元路径邻居的注意力分数以提炼风险特征。在大规模银行数据集上的广泛实验证明了我们方法的有效性。

Neural Computing a'24

Predicting rumor veracity on social media with cross-channel interaction of multi-task

Yudong Liu, Xiaoyu Yang, Xi Zhang, Zhihao Tang, Zongyi Chen, Liwen Zheng

Neural Computing and Applications · 2024

如今，社交媒体上的恶意谣言造成了越来越负面的影响。鉴于谣言的快速传播特性，设计自动方法检测谣言的真实性迫在眉睫。先前研究表明，具有立场分类的多任务学习范式可以促进谣言的成功检测，但多任务学习中的共享层往往在结构信息的通用和任务特定表示之间做出妥协。为了解决这个问题，我们提出了一种新颖的多任务学习框架，称为共享多通道交互（MTL-SMI），它由两个共享通道和两个任务特定图通道组成。共享通道提取任务不变文本特征和结构特征，而任务特定图通道通过与共享通道交互，提取任务增强的结构特征。这些通道共同学习以增强表示学习能力。在两个真实世界数据集上的实验结果表明，MTL-SMI相对于强大的基线具有优越性。

AAAI'24

What Is a Good Question? Assessing Question Quality via Meta-Fact Checking

Bo Zhang; Chaozhuo Li; Hao Yu; Li Kong; Zhan Wang; Dezhuang Miao; Xiaoming Zhang; Junsheng Zhou;

AAAI Conference on Artificial Intelligence · 2024

基于知识的问题通常用于评估LLM的知识边界；同时，大量研究集中于问题产生，作为增强模型和个人能力的手段。但是，从知识认知的角度来看，缺乏关于什么构成一个好问题的深入探索。本文提出，将完整知识的基本问题与有效使用的教育标准保持一致，从而开发了问题质量的新知识密集度指标。为此，我们提出了元法检查（MFC），该检查将问题转换为知识图（kg）三倍，利用LLM通过少量提示，从而根据在这些三元组中观察到的模式来量化问题质量。 MFC引入了一种针对KGS的新型交互机制，该机制传达了元法，说明了KG可以向LLM提供的知识类型，以解决推理问题，而不是仅依靠原始三元组。该策略可确保MFC不受LLM与检索期间常规相比尚未在KGS内遇到的未探索的三元组的影响。多个数据集和LLM的实验表明，MFC显着提高了问题答案和评估的准确性和效率。这项研究标志着基于认知能力的问题质量评估的开创性努力。

ACL'24

ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences

Yuanhe Tian, Ruyi Gan, Yan Song, Jiaxing Zhang, Yongdong Zhang

ACL · 2024

NAACL'24

Aspect-based Sentiment Analysis with Context Denoising

Yuanhe Tian, Chang Liu, Yan Song, Fei Xia, Yongdong Zhang.

NAACL · 2024

BigData'23

Improving knowledge distillation for federated learning on non-IID Data

Zongyi Chen, Sanchuan Guo, Liyan Shen, Xi Zhang, Zhuonan Chang

IEEE International Conference on Big Data (BigData) · 2023

联邦学习（FL）利用分布式客户端的知识，在保护隐私的前提下训练全局模型。在FL中，一个关键的挑战是客户端本地数据的异构性（即非独立同分布数据），这可能导致显著的性能下降。联邦蒸馏（FD）可以通过在未标记的公共数据上蒸馏客户端预测结果，从而缓解这一问题，以训练全局学生模型。然而，简单地对客户端预测结果进行平均而不考虑模型置信度可能会导致错误的预测。此外，修正预测出的伪标签也具有挑战性，因为公共数据中没有可用的人工标签。为了解决这些问题，我们提出了一种新的FD框架，名为FedUSL，旨在对非IID数据进行蒸馏，训练出一个强大的全局模型。具体来说，我们估计每个客户端在未标记数据上的预测不确定性，并在考虑不确定性的情况下采用加权集成方法。我们进一步通过一种自标签重新分配方法来修正全局模型的预测，而无需人工标签。在图像和文本任务上的大量实验表明，我们的方法在性能上优于现有最先进的方法，并且在客户端端不增加额外的计算负担。代码可在https://anonymous.4open.science/r/FedUSL-6338/获取。

BigData'23

Don’t Be Misled by Emotion! Disentangle Emotions and Semantics for Cross-Language and Cross-Domain Rumor Detection

Yu Shi, Xi Zhang, Yuming Shang, Ning Yu

IEEE Transactions on Big Data · 2023

跨语言和跨领域的谣言检测是维护健康社交媒体环境的重要研究课题。以往的研究表明，帖子中表达的情绪是谣言检测的重要特征。然而，现有的研究通常利用语义和情绪的纠缠表示，忽略了不同语言和领域对谣言具有不同的情绪。因此，这不可避免地导致从源语言和领域学习到的特征在目标语言和领域中出现偏差。为了解决这一问题，本文提出了一种新的方法，通过分离数据集中的情绪和语义特征，将源语言和领域获得的知识适应到目标数据集。具体来说，所提出的方法主要包括三个步骤：(1) 分离，将谣言编码为两个独立的语义和情绪空间，以防止情绪干扰；(2) 适应，将其他语言和领域的情绪与语义合并，进行对比对齐，以确保有效的适应；(3) 联合训练策略，使上述两个步骤协同工作并相互促进。大量实验结果表明，所提出的方法优于现有的最先进基线。

Natural Language P'23

Enhanced CGSN System for Machine Reading Comprehension

Liwen Zheng, Haoran Jia, Hongyan Xie, Xi Zhang, Yuming Shang

Natural Language Processing and Chinese Computing · 2023

本文介绍了“Guess Right or Not (Ours)”团队为NLPCC 2023 共享任务2（https://github.com/Yottaxx/NLPCC23_SciMRC）--多视角科学机器阅读理解（Multi-perspective Scientific Machine Reading Comprehension）所提出的系统。该任务要求参与者基于最先进的自然语言处理（NLP）和深度学习技术，开发一个阅读理解模型，从给定的科学文本中提取单词序列或句子作为相关问题的答案。针对该任务，我们使用了一个细粒度的上下文编码器，以突出科学文本中与问题高度相关的关键上下文信息。此外，基于现有的先进模型CGSN [7]，我们利用局部图网络和全局图网络来捕捉科学文本中的全局结构信息，并通过证据记忆网络进一步缓解冗余问题，通过在前面步骤中保存所选结果来实现。实验表明，我们提出的模型在NLPCC 2023发布的数据集上表现良好，并根据官方结果，我们的方法在SMRC任务2中排名第一。

Code

IJCNN'23

Interpretable and Effective Reinforcement Learning for Attacking against Graph-based Rumor Detection

Yuefei Lyu, Xiaoyu Yang, Jiaxin Liu, Philip S Yu, Sihong Xie, Xi Zhang

International Joint Conference on Neural Networks (IJCNN) · 2023

社交网络经常被谣言污染，这些谣言可以通过图神经网络等高级模型进行检测。然而，这些模型容易受到攻击，发现和理解这些脆弱性对于实现鲁棒的谣言检测至关重要。为了发现细微的脆弱性，我们设计了一种基于强化学习的攻击算法，用以使谣言躲避黑盒检测器。我们处理了指数级大的状态空间、高阶图依赖关系以及排序依赖关系，这些是该问题设置中特有的，但对当前最先进的端到端方法构成了根本性的挑战。我们设计了具有因果效应的领域特定特征，使得即使线性策略也能实现强大的攻击并具有额外的可解释性。为了加快策略优化，我们设计了：(i) 一种信用分配方法，将延迟和聚合的奖励按比例分解到基本的攻击动作上，以增强特征-奖励关联；(ii) 一种时间相关的控制变量，基于奖励方差分析和预测分布的贝叶斯分析，以减少由于大规模状态-动作空间和长攻击时间范围导致的预测方差。在两个现实世界的谣言检测数据集上，我们展示了：(i) 所学攻击策略在各种目标模型上的有效性，相比基于规则和端到端的攻击方法；(ii) 所提出的信用分配策略和方差减少组件的实用性；(iii) 攻击策略的可解释性。

TKDE'23

Inconsistent Matters: A Knowledge-Guided Dual-Consistency Network for Multi-Modal Rumor Detection

Mengzhu Sun, Xi Zhang, Jianqiang Ma, Sihong Xie, Yazheng Liu, Philip S Yu

IEEE Transactions on Knowledge and Data Engineering · 2023

谣言传播者越来越多地利用多媒体内容来吸引新闻消费者的注意和信任。尽管相当多的谣言检测模型已经利用了多模态数据，但它们很少考虑图像和文本之间不一致的语义，也很少发现帖子内容和背景知识之间的一致性。此外，它们通常假设多个模态的完整性，因此在现实场景中无法处理缺失的模态。受社交媒体中的谣言更可能具有不一致语义的直觉启发，提出了一种新颖的知识引导的双一致性网络来检测包含多媒体内容的谣言。它使用两个一致性检测子网络同时捕捉跨模态级别和内容-知识级别的不一致性。它还能够在不同的缺失视觉模态条件下实现鲁棒的多模态表示学习，使用特殊标记来区分具有视觉模态的帖子和无视觉模态的帖子。在三个公开的真实世界多媒体数据集上的大量实验表明，我们的框架在完整和不完整的模态条件下都能优于最先进的基线。

arXiv

SIGIR'23

Multi-grained topological pre-training of language models in sponsored search

Zhoujin Tian, Chaozhuo Li*, Zhiqiang Zuo, Zengxuan Wen, Xinyue Hu, Xiao Han, Haizhen Huang, Senzhang Wang, Weiwei Deng, Xing Xie, Qi Zhang

Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval · 2023

arXiv

BigData'23

Clean-label poisoning attack against fake news detection models

J Liang, X Zhang, Y Shang, S Guo, C Li

IEEE International Conference on Big Data · 2023

DSC'23

FedValidate: A robust federated learning framework based on client-side validation

W Zhu, Z Liu, Z Chen, C Shi, X Zhang, S Guo

International Conference on Data Science in Cyberspace · 2023

Machine Learning a'23

Class-Specific Noise Injection for Improved Road Segmentation

Yukai Gu, Hao Shan, Penghui Ruan & Yutong Gao

Machine Learning and Intelligent Communication · 2023

本文介绍了一种针对道路分割领域高效数据增强的新颖类特定噪声方法。这种方法是基于一个观察：在实际图像分割中，特定类别的边缘区域通常比内部区域更具重要性。与传统的数据增强技术不同，我们的方法根据特定的类别来定制噪声的生成。通过实验验证，我们证明了所提出的方法可以显著提高模型在测试数据集上的平均交并比（mean intersection over union, miou）性能。我们的技术对广泛的图像分割任务都有潜力，包括但不限于医学成像和道路分割。

DSC'23

Violence Detection In Videos via Motion-Guided Global and Local Views

Ning Su; Lijuan Sun; Yutong Gao; Jingchen Wu; Xu Wu

International Conference on Data Science in Cyberspace · 2023

视频暴力检测旨在定位暴力行为发生的时域窗口。大多数方法专注于直接利用RGB特征或仅融合RGB和音频特征，忽略了有效利用光流携带的运动信息。这种对运动信息的忽视可能会影响暴力检测的整体准确性。此外，我们观察到视频中存在较强的局部相关性，因此仅从全局角度分析而未捕捉到更细微的细节是不够的。为此，本文设计了一种新型的全局与局部跨模态网络（GL-CMN），有效整合了目标视频中的运动信息和多粒度特征。具体来说，我们首先提出了一种基于运动引导的注意模块（MGAM），通过光流特征校准RGB特征来获取增强的视觉特征。其次，增强后的特征同时输入到网络的两个并行分支中：全局分支将视觉和音频特征融合成全局表示，局部分支通过扩张卷积提取多尺度的时间依赖性。实验表明，与先前的最新方法相比，我们的方法在XD-Violence数据集上取得了显著的改进。

ICLR'23

A Differential Geometric View and Explainability of GNN on Evolving Graphs

Yazheng Liu, Xi Zhang, Sihong Xie

ICLR · 2023

图在社交网络和生物化学领域无处不在，其中图神经网络 (GNN) 是最先进的预测模型。图可以不断演化，因此，对训练好的 GNN 如何响应图演化进行形式化建模和理解至关重要。我们提出了一种使用公理归因对 GNN 预测分布进行平滑参数化的方法，其中分布位于高维嵌入空间内的低维流形上。我们利用微分几何的视角，将分布演化建模为流形上的平滑曲线。我们对流形上的曲线族进行了重新参数化，并设计了一个凸优化问题，以找到一条能够简洁地近似分布演化以便于人类理解的唯一曲线。在节点分类、链接预测和图分类任务上进行的大量实验表明，与最先进的方法相比，所提出的方法具有更好的稀疏性、忠实性和直观性。

arXiv

CVPR'23

Learning Semantic Relationship Among Instances for Image-Text Matching

Zheren Fu, Zhendong Mao, Yan Song, Yongdong Zhang

CVPR · 2023

BigData'22

Cross-Lingual Propaganda Detection

Wenshan Zhang, Xi Zhang

2022 IEEE International Conference on Big Data (Big Data) · 2022

宣传信息旨在影响人们观点的，在人们周围变得越来越普遍，尤其是在社交媒体上。对于宣传内容的检测，研究人员已经从多个角度进行了研究，包括文档级别、句子级别和片段级别。然而，由于缺乏多语言数据集，大多数现有方法主要关注单一语言中的宣传检测。在本文中，我们首先提出一个中英文宣传检测数据集。然后，我们提出了一种跨语言宣传检测方法，利用不同语言之间的语义和句法信息。在我们多语言数据集上的大量实验证明了我们建议在跨语言宣传检测中的有效性。

BigData'22

Abusive Language Detection with Graph based Multi-task Learning

Chunyun Zhang, Xi Zhang, Quan Wang, Jiayi Liang, Ge Zhang, Sanchuan Guo, Wenyu Zang, Yongdong Zhang

2022 IEEE International Conference on Big Data (Big Data) · 2022

为了应对社交媒体中的网络侮辱性语言，开发自动化检测方法是非常有必要的。先前的研究主要将这个问题表述为句子级别的分类任务，忽略了侮辱性词汇在增强模型可解释性和实现更忠实预测中的关键作用。尽管一些方法已经引入了侮辱性词汇进行检测，但他们使用的词汇表要么是外部提供的，要么是由人工标注者标注的，存在两个局限性：（1）缺乏适应多样化和不断演变的侮辱场景的能力；（2）需要大量的人工标注工作。本文通过一个多任务侮辱性语言检测框架克服了先前工作的局限性。它结合了基于依赖树图注意力网络（GAT）的句子级别和词汇级别分类任务。通过这两个任务，可以鼓励捕捉全局和局部数据属性，以产生更好的句子表示。在学习过程中，它还有利于自动构建词汇表，无需人工标注。在两个公开数据集上的大量实验表明，我们的提议可以超越最先进的基线。案例研究表明，通过我们的框架识别出的侮辱部分可以增强模型的可解释性。我们的代码已公开发布。

DASFAA'22

Predicting Rumor Veracity on Social Media with Graph Structured Multi-task Learning

Yudong Liu, Xiaoyu Yang, Xi Zhang, Zhihao Tang, Zongyi Chen, Zheng Liwen

International Conference on Database Systems for Advanced Applications · 2022

先前的研究表明，具有立场分类的多任务学习范式可以促进谣言的成功检测，但多任务学习中的共享层往往会在结构信息的通用和任务特定表示之间做出妥协。为了解决这个问题，我们提出了一种新的具有共享多通道交互（MTL-SMI）的多任务学习框架，它由两个共享通道和两个任务特定图通道组成。共享通道提取任务不变文本特征和结构特征，而任务特定图通道通过与共享通道的交互，提取任务增强的结构特征。在两个真实世界数据集上的实验表明，MTL-SMI相对于强大的基线具有优越性。

IJCNN'22

Multi-modal False Information Detection Based on Adversarial Learning

Tian Tian, Yudong Liu, Xi Zhang, Mengzhu Sun

IJCNN 2022 · 2022

如今，随着多媒体技术的发展，谣言传播者倾向于使用多模态内容来制作虚假信息以吸引新闻读者的注意。然而，在多模态数据中捕捉隐含线索以产生虚假信息检测的有效表示是一项挑战。此外，由于它们倾向于规避检测器，因此有必要开发一种鲁棒的检测模式，能够抵抗多模态对抗攻击，这在现有工作中研究较少。为了解决这些问题，在本文中，我们提出了一种新颖的多模态虚假信息检测框架，具有对抗性训练（MFAT）。通过采用预训练的多模态模型和跨模态注意力机制，MFAT能够同时捕捉细粒度元素级关系和粗粒度模态级关系，从而更好地捕捉各种多模态线索。此外，MFAT还通过防御多模态特征上的对抗攻击来增强鲁棒性和泛化能力。在两个真实世界数据集上的实验表明，MFAT可以显著优于最先进的基线。我们还展示了三种类型的多模态攻击的影响，并验证了模型的无敌性得到了提高。一旦被接受，代码将发布。

TOIS'22

An adaptive graph pre-training framework for localized collaborative filtering

Yiqi Wang, Chaozhuo Li*, Zheng Liu, Mingzheng Li, Jiliang Tang, Xing Xie, Lei Chen, Philip S. Yu

ACM Transactions on Information Systems · 2022

arXiv

AAAI'22

Explainable Survival Analysis with Convolution-involved Vision Transformer

Yifan Shen, Li Liu, Zhihao Tang, Zongyi Chen, Guixiang Ma, Jiyan Dong, Xi Zhang, Lin Yang, Qingfeng Zheng

AAAI · 2022

基于图像的生存预测模型可以协助医生诊断和治疗癌症患者。随着数字病理技术的进步，大型的全切片图像（WSI）提供了更高的分辨率和更多的诊断细节。然而，GB级大小的WSI会使大多数模型在计算上变得不可行。为此，大多数现有模型不是使用完整的WSI，而是仅使用预先选定的关键补丁或补丁簇子集作为输入，这可能导致无法完全捕捉患者的肿瘤形态。在本工作中，我们旨在开发一种新的生存分析模型，以充分利用完整的WSI信息。我们表明，使用视觉Transformer（ViT）骨干，以及其中涉及的卷积操作，是一个有效的框架，可以改善预测性能。此外，我们提出了一种事后解释方法，以识别最显著的补丁和独特的形态特征，使模型更忠实，结果更容易被人类用户理解。在两个大型癌症数据集上的评估表明，我们提出的模型在生存预测方面更有效，且具有更好的可解释性。

AAAI'22

DDGCN: Dual Dynamic Graph Convolutional Networks for Rumor Detection on Social Media

Mengzhu Sun, Xi Zhang, Jiaqi Zheng, Guixiang Ma

AAAI · 2022

检测社交媒体上的谣言变得尤为重要，因为谣言的快速传播对我们生活产生了不利影响。尽管一组谣言检测模型已经利用了消息传播的结构或时间信息，但它们很少将它们全部建模以充分利用两者的优势。此外，与评论相关的知识信息的动态也没有涉及。为此，我们提出了一种新颖的双重动态图卷积网络，称为DDGCN，它可以在一个统一的框架中模拟消息传播的动态以及知识图谱中背景知识的动态。具体来说，采用两个图卷积网络在不同时间阶段捕捉上述两种结构信息，然后与一个时间融合单元相结合。这允许以更精细的方式学习动态事件表示，并逐步聚合它们以捕捉级联效应，从而更好地检测谣言。在两个公开的真实世界数据集上的大量实验表明，与强大的基线相比，我们的提议取得了显著的改进，并且可以在早期阶段检测到谣言。

IJCAI'22

MFAN: Multi-modal feature-enhanced attention networks for rumor detection

J Zheng, X Zhang, S Guo, Q Wang, W Zang, Y Zhang

International Joint Conference on Artificial Intelligence · 2022

arXiv Code

ICDM'21

Multi-objective Explanations of GNN Predictions

Yifei Liu, Chao Chen, Yazheng Liu, Xi Zhang, Sihong Xie

2021 IEEE International Conference on Data Mining (ICDM) · 2021

图神经网络（GNN）在各种高风险预测任务中取得了最先进的性能，但图结构不规则的多层聚合使得GNN成为一个难以解释的模型。先前的方法使用更简单的子图来模拟完整模型，或者使用反事实来识别预测的原因。这两种方法旨在实现两个不同的目标，“可模拟性”和“反事实相关性”，但尚不清楚这些目标如何共同影响人类对解释的理解。我们设计了一项用户研究来调查这种联合效应，并利用研究结果设计了一个多目标优化（MOO）算法，以找到在可模拟性和反事实之间平衡良好的帕累托最优解释。由于目标模型可以是任何GNN变体，并且可能由于隐私问题而无法访问，我们设计了一个使用零阶信息进行搜索的算法，而不访问目标模型的架构和参数。在四个应用中的九个图上的定量实验表明，帕累托有效的解释优于使用一阶连续优化或离散组合搜索的单目标基线。这些解释进一步在鲁棒性和敏感性方面进行了评估，以展示它们揭示令人信服原因的能力，同时谨慎对待可能的混杂因素。多样的主导反事实可以证明算法回溯的可行性，这有可能在人类参与决策时促进算法的公平性，使用GNN进行决策。

DSC'21

Insider Threat Detection Based on User Historical Behavior and Attention Mechanism

Weiyu He, Xu Wu,Jingchen Wu,Xiaqing Xie,Lirong Qiu,d Lijuan Sun

2021 IEEE Sixth International Conference on Data Science in Cyberspace (DSC) · 2021

内部威胁会使企业或组织遭受财产损失和声誉负面影响。用户行为分析是检测内部威胁的主流方法，但由于缺乏细粒度检测以及无法有效捕捉个体用户的行为模式，检测的准确性和精确性不足。为解决这一问题，本文设计了一种基于用户历史行为和注意力机制的内部威胁检测方法，包括使用长短期记忆网络（LSTM）提取用户行为序列信息，使用基于用户历史行为的注意力机制（ABUHB）学习不同用户行为之间的差异，并使用双向长短期记忆网络（Bi-LSTM）学习行为的演变不同的用户行为模式，最终实现细粒度的用户异常行为检测。为了评估该方法的有效性，我们在CMU-CERT内部威胁数据集上进行了实验。实验结果表明，该方法的有效性比其他对比模型方法高出3.1%至6.3%，并且能够以细粒度的方式检测不同用户行为中的内部威胁。

DSC'21

Adversarial Residual Variational Graph Autoencoder with Batch Normalization

Qisheng Liao，Xu Wu，Xiaqing Xie， Jingchen Wu，Lirong Qiu，Lijuan Sun

2021 IEEE Sixth International Conference on Data Science in Cyberspace (DSC) · 2021

变分图自动编码器（VGAE）是一种用于图结构数据无监督学习的框架，最近在图嵌入领域引起了越来越多的关注。然而，它面临着KL消失的挑战，KL消失将收敛到局部最优，使图嵌入无法用于链接预测等下游任务。本文提出了一种新的变分图自编码器框架，以实现更有效的图嵌入。首先，我们引入批量归一化，通过保持KL分布的期望值为正来确保KL分布与整个数据集一致，从而避免后验崩溃。此外，我们引入残差连接和对抗网络，将拓扑信息和内容信息同时稳定地嵌入到图表示中，增强了潜在向量的表达能力。最后，在三个引文数据集上的链接预测实验表明，我们的算法的AUC得分高于92%，平均准确率高于93%，与最先进的变分图自编码器相比具有竞争力。

DSC'21

Sensitive Image Information Recognition Model of Network Community based on Content Text

Li Gao, Xu Wu, Jingchen Wu, Xiaqing Xie, Lirong Qiu,Lijuan Sun

2021 IEEE Sixth International Conference on Data Science in Cyberspace (DSC) · 2021

随着多媒体时代和读图时代的到来，图像数据敏感内容的识别效果成为维护网络社区信息安全的关键。目前，针对网络社区敏感图像的图像分类与识别技术无法获取图像的语义内容，难以将图像信息与网络社区知识相结合，导致识别准确率低、可解释性差，难以追溯网络社区图像信息的传播和发酵。针对该问题，本文利用图像字幕技术，提出了一种基于内容文本的网络社区敏感图像信息识别模型。通过对网络社区图像内容进行文本描述，并融合大量网络社区文本知识，该模型最终能够更准确、更易理解地识别出包含敏感内容的图像，并通过内容文本追溯网络上图像信息的传播。本文采用MSCOCO（Microsoft Common Objects in Context）数据集和自制的网络社区敏感图像数据集作为训练集。实验结果表明,本文提出的方法在图像敏感信息识别结果的准确率和可追溯性方面明显优于基于图像分类任务的模型,证明了基于内容文本的网络社区敏感图像信息识别的可行性和有效性。

International Conf'21

CWAI-CNER: Chinese entity recognition based on adaptive incorporation of characters and words

Pai Peng，Xu Wu，Xiaqing Xie，Jingchen Wu

2021 IEEE International Conference on Consumer Electronics and Computer Engineering (ICCECE) · 2021

中文命名实体识别 (CNER) 是中文自然语言处理领域的一个重要分支，在多任务处理中发挥着重要作用。然而，由于中文词语之间并非自然划分，实体边界难以确定，这进一步增加了 CNER 任务的难度。此外，主流的命名实体识别 (NER) 基于序列标注，导致训练集标注成本过高，许多 NER 任务受限于训练集的不足。本文提出了一种基于自适应融合字词的 CNER 方法——CWAI，以解决由于缺乏词汇边界而导致的词汇信息丢失问题。该方法利用卷积神经网络 (CNN) 捕捉每个字的局部语义，然后基于字词之间的注意力机制，自适应地为每个字计算与词典匹配的潜在词汇的权重。针对训练集不足导致模型效果有限的问题，我们将模型与预训练模型相结合进行改进。

DSC'21

Graph Neural Network Based User Group Comments Interaction Behavior Prediction on Microblog Websites

Yisen Chen; Xu Wu; Xiaqing Xie; Jingchen Wu; Lirong Qiu; Lijuan Sun

2021 IEEE Sixth International Conference on Data Science in Cyberspace (DSC) · 2021

微博用户群内评论的互动行为具有双向性和动态性，体现了用户间的熟悉程度。预测用户群内未来的评论互动行为对商业推荐和打击犯罪具有重要意义。相关研究将其视为一个时间链接预测问题，假设演化平滑或完全没有演化。同时，这些研究中的特征过于单一，导致链接预测性能较低。本文提出一种用户群评论互动行为预测方法（UGCIBP），该方法结合结构提取层和演化提取层进行动态图表示学习，实现用户群历史评论互动图的建模，构建微博用户间的沟通权重、兴趣相似度和共同活跃度等特征。然后，结合动态图表示学习和构建的特征进行链接预测，最终达到预测评论互动性的目的。在公开数据集Enron和Twitter数据集上进行了实验，以评估该方法的有效性。结果表明，该方法的AUC得分分别比现有方法提高了4.74%和9.95%，证明了UGCIBP方法的有效性。

International Conf'21

Audio Public opinion Analysis Model based on heterogeneous Neural Network

Haikun Jiang; Xu Wu; Xiaqing Xie; Jingchen Wu

2021 IEEE International Conference on Consumer Electronics and Computer Engineering (ICCECE) · 2021

随着信息时代的快速发展，舆情信息的主体不再仅仅是文本、数字等结构化数据，音频、视频等非结构化数据的占比大幅提升。因此，对非结构化舆情数据的分析处理成为应对舆情问题的关键。基于此，本文设计了一种基于异构神经网络的音频舆情预警模型。异构神经网络是指在数据共享的前提下，由多种不同类型的神经网络参与完成指定任务，同时保留各个神经网络的自主性。本文将音频数据转化为频谱作为输入特征，卷积神经网络可以得到音频在频谱图中的特征表示，将其作为循环神经网络的输入，进而得到与文本表示相关的特征。本文利用BERT结合舆情领域知识对结果进行语义修正，最终将结果引入浅层神经网络Fasttext进行舆情预警处理。本文基于开源语音数据集ST-CMDS-20170001-1中文普通话语料库和Pytorch平台进行实验，结果表明该模型能够有效地对非结构化音视频数据的舆情进行分析处理。

TKDE'21

Finding Route Hotspots in Large Labeled Networks

Mingtao Lei，Xi Zhang，Lingyang Chu， Zhefeng Wang，Philip S. Yu，Binxing Fang

IEEE TKDE · 2021

在许多高级网络分析应用中，例如社交网络、电子商务和网络安全，热点通常被视为一组由于相似特征（例如共同习惯和位置接近）而紧密连接的顶点。在本文中，我们从另一个角度研究热点的形成，即将网络路径上的路由作为辅助信息，并尝试在大型标记网络中寻找路由热点。路由热点是由一组路由覆盖的内聚子图，这些路由对应于由顶点标签组成的相同序列模式。据我们所知，在大型标记网络中寻找路由热点的问题尚未在文献中得到解决。然而，由于计算网络中热点的数量是#P-hard，因此它具有挑战性。受热点规模随模式长度增加而减小这一观察结果的启发，我们证明了热点的几个反单调性性质，并开发了一种名为 FastRH 的可扩展算法，该算法可以利用这些性质有效地修剪无法形成热点的模式。此外，为了避免重复计算开销，我们巧妙地设计了一种名为 RH-Index 的有效索引结构，用于将热点和模式信息集中存储，从而实现增量更新和高效的查询处理。我们在真实数据集上的实验结果清晰地证明了我们提出方法的有效性和可扩展性。

CIKM'20

Shapley Values and Meta-Explanations for Probabilistic Graphical Model Inference

Yifei Liu, Chao Chen, Yazheng Liu, Xi Zhang, Sihong Xie

Proceedings of the 29th ACM International Conference on Information & Knowledge Management · 2020

概率图模型，如马尔可夫随机场（MRF），利用随机变量之间的依赖关系来模拟丰富的联合概率分布族。推理算法，如信念传播（BP），可以有效地计算边缘后验以进行决策。然而，推理涉及复杂的概率计算，对人类来说难以解释。在所有现有的MRF解释方法中，没有一种方法是为将推理结果公平地归因于MRF上的元素而设计的。Shapley值提供了严格的归因，但迄今为止尚未在MRF上研究。因此，我们为MRF定义Shapley值，以捕捉变量在MRF上的概率和拓扑贡献。我们理论性地描述了关于独立性、等贡献、可加性和次可加性的新定义。由于Shapley值的暴力计算具有挑战性，我们提出了GraphShapley，这是一种近似算法，它利用Shapley值的可分解性、MRF的结构和BP推理的迭代性质来加速计算。在实践中，我们提出了元解释来解释Shapley值，使它们对人类用户更加易于理解和可信。在四个合成和九个真实世界的MRF上，我们证明了GraphShapley可以生成合理且实用的解释。

CIKM'20

QSAN: A Quantum-probability based Signed Attention Network for Explainable False Information Detection

Tian Tian, Yudong Liu, Xiaoyu Yang, Yuefei Lyu, Xi Zhang, Binxing Fang

Proceedings of the 29th ACM international conference on information & knowledge management · 2020

社交媒体上的虚假信息检测具有挑战性，因为它通常需要繁琐的证据收集，但缺乏可用的比较信息。从用户评论中挖掘出的线索，作为群体智慧，可以为这项任务带来相当大的益处。然而，考虑到它们隐含的相关性，从内容和评论中捕捉复杂的语义并非易事。尽管深度神经网络具有很好的表达能力，但一个主要的缺点是缺乏可解释性。在本文中，我们关注如何从社交媒体的帖子内容和相关评论中学习，以更有效地理解和检测虚假信息，并具有可解释性。因此，我们提出了一种基于量子概率的签名注意力网络（QSAN），该网络在一个统一的框架中集成了量子驱动的文本编码和一种新颖的签名注意力机制。QSAN不仅能够区分重要的评论与其他评论，而且还能利用评论中的冲突社会观点来促进检测。此外，由于量子物理的意义和注意力权重，QSAN在透明度方面具有可解释性的优势。在真实世界数据集上的大量实验表明，我们的方法优于最先进的基线，并且可以提供不同类型的用户评论来解释为什么一条信息被检测为虚假。

IJCAI'20

Rumor Detection on Social Media with Graph Structured Adversarial Learning

Xiaoyu Yang, Yuefei Lyu, Tian Tian, Yifei Liu, Yudong Liu, Xi Zhang

IJCAI 2020 · 2020

社交媒体上谣言的广泛传播在线上线下世界都产生了巨大影响。除了文本信息外，最近检测方法开始利用传播网络中的图结构。然而，如果没有严格的设计，谣言可能会通过扰动结构数据使用各种伪装策略来规避这样的图模型。我们在这项工作中的重点是开发一个鲁棒的基于图的检测器，从对抗性角度识别社交媒体上的谣言。我们首先构建了一个异构信息网络，用于检测用户、帖子以及用户评论之间的丰富信息。然后，我们提出了一种图对抗学习框架，其中攻击者试图在图结构上动态添加有意扰动以欺骗检测器，而检测器则会学习更多独特的结构特征以抵抗这种扰动。通过这种方式，我们的模型在鲁棒性和泛化能力上都会得到增强。在真实世界数据集上的实验表明，我们的模型比最先进的方法取得了更好的结果。

DSC'20

Chinese Open Relation Extraction with Pointer-Generator Networks

Ziheng Cheng， Xu Wu，Xiaqing Xie，Jingchen Wu

2020 IEEE Fifth International Conference on Data Science in Cyberspace (DSC) · 2020

大多数传统的中文开放关系抽取（open RE）系统都利用了句法、词汇和其他自然语言获得的语言结构信息从句子到手工构建的NLP工具这容易导致误差传播并影响提取的准确性。本文提出了一种基于指针生成器网络PGCORE的端到端抽象中文Open RE模型。我们采用最先进的基于模式的中国开放式可再生能源系统提取的结果作为模型的训练集。实验结果表明，我们的方法优于基于模式的多基线系统，证明了该方法的可行性和有效性使用深度学习模型进行中国开放教育。

DSC'20

Real-time Event Detection and Tracking in Microblog via Text Chain and Sentiment time series

Bingxu Piao，Xu Wu,Jingchen Wu, Xiaqing Xie

2020 IEEE Fifth International Conference on Data Science in Cyberspace (DSC) · 2020

微博成为分享第一手信息最受欢迎的媒体之一。随着微博事件越来越接近真实事件，微博事件的检测和跟踪成为研究热点。为了缓解特征稀疏问题，传统的事件检测和跟踪方法利用评论、回复和转发来丰富帖子的信息。然而，忽略文本关系只会导致更多不相关的信息。针对这一问题，提出了一种新的微博流实时事件检测和跟踪方法。对于实时流中的每个微博，首先评估其与历史事件集的相似性。然后，采用所提出的方法对已知事件微博进行情感时间序列划分，基于词关系图进行聚类，并与之前的图进行比较，以跟踪突发关键字。同时，引入文本链来检测未知事件微博的事件。文本链是微博中一种独特的关系，其中评论、回复和转发被用来形成相应帖子的单词关系图。帖子和附加的图表被聚类以检测新事件。在实时微博数据集上进行实验，以评估方法的有效性。结果表明，所提出的方法比类似方法获得了更好的F度量。

BigData'19

Learning to Generate Diverse and Authentic Reviews via an Encoder-Decoder Model with Transformer and GRU

Kaifu Jin, Xi Zhang, Jiayuan Zhang

2019 IEEE International Conference on Big Data (Big Data) · 2019

由机器学习模型自动生成的虚假评论可以被操纵以影响顾客的观点，这对像社交网络和电子商务网站这样的在线评论平台构成了巨大威胁。之前的评论生成方法通常采用企业信息（例如位置和产品）或消费者现有的评论文本作为输入，而目前尚未报道出利用这两种类型信息的方法。由于企业信息可以帮助生成的评论获得相关性，而现有的用户评论有助于提高生成评论的多样性，我们设想这两种类型信息的整合可能会产生更好的评论生成器。为此，我们提出了一种编码器-解码器模型来生成真实且多样化的评论，该模型分别应用Transformer和变分门控循环单元（GRU）对商业信息和客户评论进行编码。此外，为了解决评估评论多样性的合适指标不足的问题，我们开发了一种新的文本多样性指标，称为DMet。我们在Yelp数据集上的实验表明，我们开发的模型与现有方法相比，可以生成质量更高、多样性更好的评论，并且DMet能够在评估文本多样性方面与人类判断紧密匹配。

Knowledge and Info'19

Enhancing stock market prediction with extended coupled hidden Markov model over multi-sourced data

Xi Zhang, Yixuan Li, Senzhang Wang, Binxing Fang, Philip S Yu

Knowledge and Information Systems · 2019

传统股票市场预测方法通常仅利用历史交易数据，忽略了股票市场波动可能受到各种其他信息来源（如与股票相关的事件）的影响。尽管一些近期的研究通过考虑事件数据提出了事件驱动预测方法，但如何利用多个数据源的联合影响仍然是一个开放的研究问题。在本工作中，我们研究了如何探索多个数据源以提高股票预测的性能。我们引入了一个扩展的耦合隐马尔可夫模型，该模型结合了新闻事件和历史交易数据。为了解决单个股票新闻事件的数据稀疏性问题，我们进一步研究了股票之间的波动相关性，并将这些相关性纳入模型中，以促进预测任务。对2016年中国A股市场数据的评估显示，我们的模型在性能上优于先前的方法。

Access'19

Efficiently Approximating Top- k Sequential Patterns in Transactional Graphs

Mingtao Lei, Xi Zhang, Jincui Yang, Binxing Fang

IEEE Access · 2019

在现实世界的网络中，一条边（或顶点）可能与一个事务数据库相关联，其中每个事务由一组项目来描述边（或顶点）的属性或行为。这种类型的图被称为事务图，从事务图中挖掘顺序模式的问题是从事务序列中发现频繁出现在图许多路径中的子序列。解决此问题可以促进从社交网络分析到城市计算等广泛的应用。然而，由于图中存在大量序列，这项任务并不简单。特别是，图中的每条路径都可能诱导多个事务序列，而收集由所有路径诱导的事务序列可能会导致极其庞大的数据量。为了有效地近似top-k模式，我们提出了一种基于并行化采样的top-k顺序模式挖掘方法，PSMSP，它涉及两种关键技术：(a)基于序列平衡图划分策略的并行化无偏序列采样方法，以及(b)一种新颖的PSP-Tree结构，以基于反单调性属性有效地挖掘模式。在合成数据和现实世界数据集上的实验结果表明，PSMSP可以成功以优越的效率找到顺序模式。

DASFAA'19

PSMSP: A Parallelized Sampling-Based Approach for Mining Top-k Sequential Patterns in Database Graphs

Mingtao Lei, Xi Zhang, Jincui Yang, Binxing Fang

International Conference on Database Systems for Advanced Applications · 2019

我们研究提高在数据库图中寻找前k个序列模式效率的方法，其中每条边（或顶点）都与多个事务相关联，而一个事务由一组项目组成。这个任务是要发现频繁出现在许多路径中的事务序列的子序列。我们提出了PSMSP，一种基于并行化采样的挖掘前k个序列模式的方法，包括：（a）一种并行化的无偏序列采样方法，以及（b）一种新颖的PSP-Tree结构，基于反单调性属性有效地挖掘模式。我们通过使用真实世界数据集的大量实验验证了我们的方法。

DASFAA'19

Understanding Information Diffusion via Heterogeneous Information Network Embeddings

Yuan Su, Xi Zhang, Senzhang Wang, Binxing Fang, Tianle Zhang, Philip S Yu

International Conference on Database Systems for Advanced Applications · 2019

预测社交网络中的信息扩散引起了大量研究。对于社交网络中的特定用户，是否转发一个传播事件受到其邻居用户和最近参与的传播事件之间复杂交互的影响，这很难在一个统一的模型中进行建模。为了解决这个问题，我们研究了在用户和传播事件之间的一组交互下的传播采纳行为，这些交互被学习为潜在表示。我们不是分别学习每种类型的表示，而是尝试将用户和传播事件联合编码到同一个潜在空间中，从而可以适当融合它们的复杂交互关系。为此，我们构建了一个异构信息网络，包含用户和传播事件作为两种类型的对象，并提出了一种新的随机游走算法，通过基于元路径的邻近性作为指导来学习异构对象的表示。最后，为了预测传播采纳，我们精心设计了一个有效的神经网络模型，基于这些表示来捕捉交互关系。在大规模新浪微博数据集上的评估结果表明，我们的方法可以优于竞争基线。此外，这些潜在表示也适用于传播事件的多类别分类。

ICAIS'19

Short Text Topic Recognition and Optimization Method for University Online Community

Xu Wu，Haitao Wu，Xiaqing Xie， Jin Xu，Tianle Zhang

International Conference on Artificial Intelligence and Security · 2019

大学在线社区主要记录目标地区和人群中发生的事情。它具有时效性、区域性强、目标群体明确等特点。与微博和贴吧相比，大学社区的文本主题识别需要解决文本噪声大、文本更新快、单个文本内容短等问题。为此，这本文提出了一种基于LDA主题模型构建大学主题模型的方法。通过原始文本的降噪步骤，LDA（潜在狄利克雷分配（LDA））是一种常用的主题模型机器学习，通常用于文本分类。)模型识别和识别结果的加权计算等，表征大学在线社区共同特征的事件主题是获得。基于真实大学在线社区数据的实验表明，本文的主题识别模型建立的大学流行事件主题模型可以反映大学中的一些流行事件为高校管理提供合理支持。

ICAIS'19

Emergency Analysis Based on Affective Computing in Universities Forum

Lu Zhang,Xu Wu, Xiaqing Xie,Jin Xu,Tianle Zhang

International Conference on Artificial Intelligence and Security · 2019

社交网站的突发事件分析日益受到关注。为了检测高校论坛中的突发事件，本文提出了一种基于情感计算的突发事件分析方法。该方法基于情感计算和人工构建的高校舆情本体（UPO_Ontology），实时检测突发事件并计算评分。在两个测试数据集上对该方法进行了测试。结果表明，UPO_Ontology和情感计算显著提高了准确率、召回率和F值，满足实时检测的要求。此外，该方法的F值比Laylavi等人提出的“事件特定检测”方法提高了1.24%，比基于上下文语义的突发事件检测方法提高了近7.1%。对高校论坛中的突发事件进行分析将有助于高校更有效地应对突发事件，并为学生提供更好的服务。

DSC'19

Hybrid Text Topic Discovery Method for Multi-source Information

Xinzhe Wang， Xu Wu， Xiaqing Xie， Jin Xu

IEEE International Conference on Data Science in Cyberspace (DSC) · 2019

随着信息技术的广泛应用和网络空间的快速发展，网络空间安全已成为社会热点问题。话题发现技术在网络空间安全治理中对于把握舆情走向起着至关重要的作用。由于信息源的多样性，混合文本的分布呈现出非均质性特征，当前的话题发现问题大多采用聚类算法来解决，但这些算法在处理混合文本时效果不佳。因此，本文提出一种基于狄利克雷多项式混合模型（DMM）的多源文本聚类方法。考虑到多源文本数据之间的特征差异，本文提出了一种基于TextRank算法的特征融合算法，并利用DMM模型解决了特征融合中文本稀疏和高维的问题。数值结果表明，所提聚类算法显著提高了多源文本聚类性能，缓解了特征融合后文本特征非均质性、文本稀疏和高维的影响。为网络空间安全治理提供决策支持，促进社会稳定发展。

ICAIS'19

An Improved Multi-classification Algorithm for Imbalanced Online Public Opinion Data

Xige Dang, Xu Wu, Xiaqing Xie, Tianle Zhang

International Conference on Artificial Intelligence and Security · 2019

当网络舆情数据集不平衡时，分类器容易为了追求整体最优性能而牺牲少数类的准确率。针对该问题，本文提出了一种基于随机森林和代价敏感的网络舆情文本多分类算法。该算法采用朴素贝叶斯构建代价矩阵，选择带有误判代价的基尼系数作为决策树节点的选择。经过对比实验，该分类器整体性能提升3%，少数类性能提升8%，一定程度上解决了数据不平衡的问题。

DSC'19

A Topic Mining Method for Multi-source Network Public Opinion Based on Improved Hierarchical Clustering

Yue Cai, Xu Wu, Xiaqing Xie, Jin Xu

IEEE International Conference on Data Science in Cyberspace (DSC) · 2019

异构网络信息平台包含共同主题和特征主题，然而舆情主题的划分尚无统一标准，现有技术无法很好地适应多源网络平台的特点。本文提出一种半监督主题挖掘方法，该方法的核心是在传统层次聚类算法基础上改进的半监督层次聚类算法，并在此算法基础上从模型输入向量化和高质量主题选取两个角度进行优化。因此，本文提出的方法可以有效地应用于主题广泛、文本噪声较多、语法规范缺乏的多源网络平台短文本的主题和层次结构挖掘，准确地提取平台的共同主题、特征主题以及主题之间的层次结构。实验表明，该方法能够有效地挖掘主题及其层次结构，并且在层次结构挖掘和细粒度主题挖掘方面优于传统的LDA主题模型。通过对多源网络平台文本数据的分析，可以挖掘出主题及主题间的层级关系，有利于后续主题检索、主题演化等研究的分析，同时网络平台用户和管理者可以系统、集中地获取主题分布信息，对引导网络舆情、营造良好的网络舆论环境具有重要意义。

DSC'19

Hot Event Detection for Social Media Based on Keyword Semantic Information

Zexuan Yu; Xu Wu; Xiaqing Xie; Jin Xu

2019 IEEE Fourth International Conference on Data Science in Cyberspace · 2019

统计特征通常用于检测社交媒体中的热门事件。但是，这些功能不能代表同义词表达式的语义相似性。针对这个问题，本文提出了一种基于语义关键字的社交媒体的基于语义关键字的热门事件检测方法，其中包括一种语义关键字模型，以将现实世界事件与热门话题区分开来。使用具有统计特征的亲和力传播发现群集。此外，使用单词嵌入从事件的不同角度进行相关讨论。之后，使用热门话题的新闻标题和帖子来培训语义关键字模型。该模型用于区分现实事件和群集。实验表明，所提出的方法可以从社交媒体数据和相关帖子中找到热门事件，以进行进一步研究。

Cognitive Systems'19

Mining Friendships Based on Bipartite Network Though Campus Spatiotemporal Feature

Feng Zhang, Xiaqing Xie, Jin Xu & Xu Wu

International Conference on Cognitive Systems and Signal Processing · 2019

校园网络的发展产生了大量数据，其中包含具有隐式时空属性的学生行为特征。但是，现有的采矿方法主要集中在低维度上。很难覆盖时空属性的维度。为了基于双方网络解决它，本文提出了一种采矿友谊的方法。针对时空数据集的特征，首先构建了两部分网络，并分为具有相同程度的时空节点的子网络。在每个子网络中，通过使用假设检验，删除了随机相遇的共发生节点之间的边缘。最后，学生的友谊网络是双方网络的投影。实验表明该方法可以有效地吸引学生之间的朋友关系。此外，友谊网络有助于分析学生的行为，这在大学决策中起着重要作用。

EMNLP'19

Machine Reading Comprehension Using Structural Knowledge Graph-aware Network

Delai Qiu, Yuanzhe Zhang, Xinwei Feng, Xiangwen Liao, Wenbin Jiang, Yajuan Lyu, Kang Liu, Jun Zhao

EMNLP · 2019

利用外部知识是机器理解任务中的新兴趋势。先前的研究通常利用诸如ConceptNet之类的知识图谱作为外部知识，并从中提取三元组来增强机器理解上下文的初始表示。然而，这种方法无法捕捉知识图谱中的结构信息。为此，我们提出了一种结构知识图谱感知网络（SKG）模型，为机器理解上下文中的实体构建子图。我们的方法根据构建的子图的结构信息动态更新知识的表示。实验表明，SKG在ReCoRD数据集上取得了最佳性能。

CCL'19

Reconstructed Option Rereading Network for Opinion Reading Comprehension

Delai Qiu, Liang Bao, Zhixing Tian, Yuanzhe Zhang, Kang Liu, Jun Zhao ,Xiangwen Liao

CCL · 2019

近年来，多项选择阅读理解任务越来越受欢迎，其目标是从与相关段落相关的问题的候选选项中选出正确的选项。先前的研究侧重于基于事实的问题，而忽略了基于观点的问题。基于观点的问题的选项通常是情绪短语，例如“好”或“坏”。这导致先前的研究无法对段落、问题和选项之间的交互信息进行建模，因为它们的方法都建立在选项包含丰富语义信息的前提上。为此，我们提出了一个重构选项阅读网络( RORN )来解决这个问题。我们首先基于问题重构选项。然后，模型利用重构的选项生成选项的表示。最后，我们将结果输入到最大池化层以获得每个观点的排名分数。实验表明，我们提出的方法在人工智能挑战赛的中文观点问题机器阅读理解数据集上取得了最佳性能。

Journal of computa'18

Exploiting investors social network for stock prediction in China's market

Xi Zhang, Jiawei Shi, Di Wang, Binxing Fang

Journal of computational science · 2018

近期的研究表明，社交媒体平台能够影响股价走势的趋势。然而，现有研究主要集中在美股市场，对某些新兴国家如中国的关注不足，在这些国家，散户投资者主导着市场。在这方面，由于散户投资者容易受到新闻或其他社交媒体的影响，从社交媒体平台提取的心理和行为特征被认为可以很好地预测中国市场的股价走势。中国在投资者社交网络方面的最新进展使得可以从网络规模的数据中提取此类特征。在本文中，基于雪球——一个专门为投资者设计的流行的类似Twitter的中文社交媒体平台——的推文，我们通过采用非线性模型分析了与股票相关性相关的集体情绪和认知特征，并预测了股价走势。我们感兴趣的这些特征在我们的实验中证明是有效的。

arXiv

TKDE'18

IAD: Interaction-Aware Diffusion Framework in Social Networks

Xi Zhang, Yuan Su, Siyu Qu, Sihong Xie, Binxing Fang, Philip S Yu

IEEE Transactions on Knowledge and Data Engineering · 2018

在网络上，多种传染，如信息和购买行为，可能随着它们的同时传播而相互交互。然而，大多数现有的信息扩散模型都是基于这样的假设：每个个体传染的传播是独立的，无论它们的交互如何。深入了解这种交互对于理解传染的采用行为至关重要，因此可以做出更好的预测。在本文中，我们研究了一组交互下的传染采用行为，特别是用户之间、传染内容以及从社交网络结构和文本中学习到的情感的交互。我们开发了一个有效且高效的交互感知扩散（IAD）框架，将这些交互纳入一个统一模型中。我们还提出了一种生成过程来区分用户角色，一种协同训练方法来确定传染的分类，以及一种新的主题模型来获取特定主题的情感。在大型微博数据集上的评估表明，我们的提议可以有效地学习不同用户、传染类别和情感如何相互交互。有了这些交互，我们可以比最先进的基线做出更准确的预测。此外，我们可以更好地理解交互如何影响传播过程，从而可以为病毒营销中的信息推广或抑制提出有用的方向。

arXiv

KBS'18

Improving stock market prediction via heterogeneous information fusion

Xi Zhang, Yunjia Zhang, Senzhang Wang, Yuntao Yao, Binxing Fang, Philip S Yu

Knowledge-Based Systems · 2018

传统股票市场预测方法通常利用股票的历史价格相关数据来预测其未来趋势。随着网络信息的增长，最近一些工作试图探索金融新闻以提高预测。有效的指标，例如与股票相关的事件以及人们对市场和股票的情感，已被证明在股票的波动中扮演着重要角色，并被提取出来以输入预测模型以提高预测精度。然而，先前方法的一个主要局限性是指标仅从单一来源获得，其可靠性可能较低，或者从多个数据源获得，但多源数据之间的交互和相关性在很大程度上被忽视。在这项工作中，我们从网络新闻中提取事件，从社交媒体中提取用户的情感，并通过耦合矩阵和张量分解框架研究它们对股价运动的联合影响。具体来说，首先构建一个张量以融合异构数据并捕捉事件和投资者情感之间的内在关系。由于张量的稀疏性，构建并纳入了两个辅助矩阵，即股票定量特征矩阵和股票相关矩阵，以协助张量分解。背后的直觉是，高度相互关联的股票倾向于受到相同事件的影响。因此，我们不是分别和独立地对每个股票预测任务进行预测，而是通过它们的共性同时预测多个相关股票，这些共性通过在矩阵和张量之间共享协同分解的低秩矩阵来实现。对2015年中国A股数据和香港股票数据的评估证明了所提出模型的有效性。

arXiv

FGCS'18

Quantum digital signature for the access control of sensitive data in the big data era

Qiu Lirong, Cai Feng, Xu Guixian.

Future Generation Computer Systems · 2018

在我们的论文中，我们关注量子数字签名在敏感数据访问控制中的应用，例如在医疗保健等领域出现的数据，以保护用户的个人信息。我们的协议中有三方：签名者、仲裁者和接收者。与大多数现有在仲裁量子签名中开发的协议不同，在这些协议中仲裁者要么被假设为诚实，要么被假设为不诚实，在我们的协议中，我们假设仲裁者部分诚实，即仲裁者是诚实但好奇的。我们在本文中提出的量子协议与现有相同目的的协议相比具有各种优势。我们提出的技术可以保证无条件的安全，并且可以通过当前技术实现，因此我们提出的方法可以保证在大数据时代用户个人信息的安全性。

SoftComputing'18

Categorical quantum cryptography for access control in cloud computing

Qiu Lirong, Sun Xin, Xu Juan

Soft Computing · 2018

访问控制是一种机制，用于决定哪些代理可以访问哪些资源以及进行一些特定操作。本文致力于研究访问控制中的量子密码学。我们开发了三种量子协议，分别用于密钥分发、身份验证和数字认证。我们通过范畴量子力学的图形语言分析我们的协议。这些协议无条件安全，并且可以通过当前技术实现。

DSC'18

Efficient Identity-Based Offline/Online Encryption Scheme for Lightweight Devices

Jin Xu, Xu Wu, Xiaqing Xie

2018 IEEE Third International Conference on Data Science in Cyberspace · 2018

由于存储和功率有限，使用大量计算和大量计算资源的加密方案不适用于轻量级设备。离线/在线技术是解决这一困境的一种可能方法。基于椭圆曲线上的双线性配对，提出了一种新的基于身份的轻量级设备离线/在线加密方案。在离线加密阶段，点乘和其他繁重的计算由功能强大的设备进行预处理。在线加密阶段只需要简单的计算，这适用于轻量级设备并加快了加密速度。形式化安全分析表明，在k-BCAA2假设下，所提出的方案是IND-ID-CCA2安全的。与其他相关方案相比，我们的方案具有更少的离线存储和更短的密文，在加密和解密阶段都取得了更好的性能。

China Communicatio'18

Lightweight mutual authentication scheme for protecting identity in insecure environment

Xu Wu; Jin Xu; Binxing Fang

China Communications · 2018

为了提高身份验证的快速性和安全性，许多改进的身份验证方案被提出。然而，无论是过度使用哈希函数还是额外的对称加密，都无法真正提高整体安全性，反而增加了计算成本，降低了性能。由于存在隐藏的漏洞和缺陷，这些方案仍然容易受到智能卡丢失攻击、身份冒充攻击等各种威胁。更糟糕的是，在不安全的环境中，用户身份可能会被解析，甚至被追踪。为了保护身份，提出了一个轻量级的双向认证方案。该方案删除了冗余操作，使验证过程更加明确。与其他类似方案相比，该方案在平均成本下获得了更好的性能。密码分析表明，该方案能够抵御常见的攻击并实现用户匿名。利用广为接受的互联网安全协议和应用程序自动验证工具（AVISPA）进一步验证了方案的形式安全性。

DSC'18

RansomTracer: Exploiting Cyber Deception for Ransomware Tracing

ZiHan Wang; Xu Wu; ChaoGe Liu; QiXu Liu; JiaLai Zhang

2018 IEEE Third International Conference on Data Science in Cyberspace · 2018

勒索软件是一种通过加密数据或锁定设备来勒索赎金的恶意软件。最近，各种高调的勒索软件攻击频发，并且提出了许多防勒索系统的解决方案。然而，没有一种系统专注于防御如通过远程桌面协议（RDP）攻击的非定向攻击。为了解决这个问题，本文提出了一种通过陷阱和追踪来对抗RDP勒索软件攻击的方法。它通过网络欺骗环境发现并诱捕攻击者，并利用辅助追踪技术找到攻击者，最终实现了震慑勒索软件攻击者和应对RDP攻击勒索软件的目的。本文基于网络欺骗，引入了一个名为RansomTracer的辅助可追踪勒索软件系统。RansomTracer通过在网络欺骗环境中部署监控器收集攻击者的线索，然后自动提取和分析这些可追踪的线索。实验证明，RansomTracer能够诱捕攻击者于欺骗环境中，并显著提高了线索分析的效率。此外，它还能够识别标识攻击者的线索，筛选率达到98.34%。

Advanced Data Mini'17

Efficient Revenue Maximization for Viral Marketing in Social Networks

Yuan Su, Xi Zhang, Sihong Xie, Philip S Yu, Binxing Fang

International Conference on Advanced Data Mining and Applications · 2017

在社会网络中，收入最大化问题旨在最大化用户在影响传播下的购买行为带来的总体收入。先前的研究通过在影响级联上进行大量模拟来获得最大收入。然而，这些基于模拟的方法耗时且无法应用于大规模网络。相反，我们提出了基于计算的算法来实现收入最大化，通过在局部无环图中进行快速近似计算来获得最大收入，而不是在全局网络中进行缓慢的模拟。此外，还提出了一种最大堆更新方案来剪枝不必要的计算。这些算法适用于无限和有限商品供应的场景。在合成数据和真实世界数据集上的实验证明了我们提议的效率和有效性，即我们的算法比最先进的基线快几个数量级，同时，实现的最大收入几乎不受影响。

IEICE TRANSACTIONS'17

ARW: Efficient Replacement Policies for Phase Change Memory and NAND Flash

Xi Zhang, Xinning Duan, Jincui Yang, Jingyuan Wang

IEICE TRANSACTIONS on Information and Systems · 2017

对新兴的非易失性存储器（NVM），如NAND闪存和相变存储器（PCM）的写操作通常会产生较高的访问延迟，需要优化。在本文中，我们提出了非对称读写（ARW）策略以最小化发送到NVM的写流量。ARW策略利用读写操作的不对称成本，并对替换算法的插入策略和命中提升策略进行调整。ARW可以通过防止脏数据块频繁驱逐来减少NVM的写流量。我们在以PCM为主存储器和NAND闪存为磁盘的系统上评估了ARW策略。在8核多核上的模拟结果表明，与LRU基线相比，在最后一级缓存（LLC）上采用的ARW策略平均可以减少超过15%的写流量。当同时用于LLC和DRAM缓存时，ARW策略在不降低系统性能的情况下实现了40%的写流量显著降低。当用于固态硬盘（SSD）的磁盘缓冲区时，ARW在写流量和整体访问延迟方面都表现出显著的降低。此外，ARW策略轻量级，易于实现，且存储和运行时开销可忽略不计。

Transactions on Cy'17

Semantic Feature Learning for Heterogeneous Multitask Classification via Non-Negative Matrix Factorization

Fuzhen Zhuang, Xuebing Li, Xin Jin, Dapeng Zhang, Lirong Qiu, Qing He

IEEE Transactions on Cybernetics · 2017

多任务学习（MTL）旨在同时学习多个相关任务，而不是分别学习，以提高每个任务的泛化性能。大多数现有的MTL方法假设要学习的多个任务具有相同的特征表示。然而，这个假设对于许多实际应用可能不成立。在本文中，我们研究了具有异构特征的MTL问题。为了解决这个问题，我们首先构建了一组二分图的集成图，以建立不同任务之间的联系。然后，我们提出了一种基于非负矩阵分解的多任务方法（MTNMF），以学习每个任务不同异构特征空间下的共同语义特征空间。此外，我们还提出了一种改进的MTNMF版本（IMTNMF），其中我们不需要构建输入特征和类别标签之间的相关矩阵，从而避免信息损失。最后，基于共同语义特征和原始异构特征，我们将异构MTL问题建模为多任务多视角学习（MTMVL）问题。这样，许多现有的MTMVL方法可以有效地应用于解决这个问题。在三个实际问题上进行的广泛实验证明了我们提出的方法的有效性，与MTNMF相比，改进版本IMTNMF的平均准确率提高了约2%。

Cluster Computing'17

Knowledge entity learning and representation for ontology matching based on deep neural networks

Qiu Lirong, Yu Jia, Pu Qiumei, Xiang Chuncheng

Cluster Computing · 2017

我们研究的是本体匹配任务，主要用于解决语义异构性问题，它主要关注在不同本体之间找到语义相关的实体。许多先前的工作在应用基于字符串的匹配器或基于标记的匹配器来查找对应实体时，直接利用本体中实体描述的字符级或标记级信息。他们忽略了不同实体描述之间的更高层次相关性。为了解决这个问题，我们提出了一种基于深度神经网络的表现学习方法，旨在学习输入实体的更高层次抽象表示。特别是，实体的表示首先以无监督的方式进行学习，然后使用训练数据进行微调。实验结果表明，我们的方法可以从实体的描述信息中学习到有用的表示，以更好地衡量实体之间的相似度。

Personal and Ubiqu'17

Implementing RSA for sensor nodes in smart cities

Lirong Qiu, Zhe Liu, Geovandro CCF Pereira, Hwajeong Seo

Personal and Ubiquitous Computing · 2017

在城市建设过程中，无线传感器网络（WSN）通常被部署以收集和传输实时数据。WSN的节点是集成了传感器和数据处理模块的嵌入式设施。出于安全和隐私的考虑，需要加密方法来保护数据。然而，由于RSA加密系统（RSA）固有的算术运算需要大量的计算，它作为最流行和部署最广泛的公钥算法，在嵌入式设备上仍然难以实现。尽管如此，已经提出了不同的方法来提高RSA实现的效率，例如利用中国剩余定理、各种模幂运算方法和优化的模算术方法。在本文中，我们提出了一种在配备16位微控制器的传感器节点上对长整数进行高效乘法的方法。结合这种高效的乘法，我们获得了一种更快的Montgomery乘法。结合优化的Montgomery乘法、中国剩余定理和m进制指数法，使得RSA解密执行时间低于44.6 × 10^6个时钟周期，这是在MSP430微控制器上RSA实现的新的速度记录。

Science China Inf.'17

Relative influence maximization in competitive social networks

Dingda YANG, Xiangwen LIAO, Huawei SHEN, Xueqi CHENG,Guolong CHEN

Science China Inf. Science · 2017

在很多现实场景中，如政治选举和病毒式营销，两种截然相反的意见，即正面意见和负面意见，会同时在同一社交网络中传播[1, 2]。因此，为了实现良好的口碑效应，人们希望在最大化正面意见传播的同时减少负面意见的传播，即最大化正面意见传播与负面意见传播之间的差值。本文研究的是相对影响力最大化（RIM）问题，即在存在负面个体的情况下，选择初始个体作为正面种子集，最大化正面意见传播与负面意见传播之差，即相对影响力。现有的方法大约是通过促进正面影响的传播 [1] 或限制负面影响的传播 [2] 来解决这个问题的。在本文中，我们从理论上分析了这一问题的内在复杂性，并根据经验开发了直接解决社交网络中 RIM 问题的有效方法。

Mathematical Probl'16

Effective and Fast Near Duplicate Detection via Signature-Based Compression Metrics

Xi Zhang, Yuntao Yao, Yingsheng Ji, Binxing Fang

Mathematical Problems in Engineering · 2016

检测网络上的近似重复项具有挑战性，因为其数量和种类繁多。大多数先前的研究需要设置输入参数，这使得它们在没有仔细调整的情况下难以在各种场景中实现鲁棒性。最近，一种通用的、参数免费的相似度度量，即归一化压缩距离或NCD，已经在各种应用中被有效地采用。尽管如此，由于NCD缺乏效率且容易受到大对象尺寸的影响而变得倾斜，因此存在一些问题阻止其在中等至大型数据集中应用。为了使这种参数免费的方法在大量网络文档语料库上可行，我们提出了一种新的方法，称为SigNCD，它基于轻量级签名而不是完整文档来衡量NCD，从而提高了效率和稳定性。我们推导出NCD的各种下界，并提出了剪枝策略以进一步降低计算复杂度。我们在英语和中文数据集上评估了SigNCD，与原始NCD方法相比，F1分数有所提高，运行时间显著减少。与其他竞争性方法的比较也证明了我们方法的优势。此外，在SigNCD中不需要进行参数调整，除了一个相似度阈值。

DSC'16

A Topic Label Extraction Method for the University BBS

Wenling Tang，Xu Wu，Yuxiao Li，Jin Xu

2016 IEEE First International Conference on Data Science in Cyberspace · 2016

高校BBS（电子公告板系统）的话题检测在学习型大学中起着重要作用学生最为关注，并呈现出校园舆论的趋势。现有的主题模型使用单词概率分布来表示主题，缺乏可解释性，难以表达统一的含义。更重要的是，高校BBS有其自身的特点，论坛帖子口语化，现有的话题模式不合适。基于LDA（潜在狄利克雷分配）的结果，本文提出了一种主题标签提取方法，包括主题建模、关键字提取和主题选择三个步骤。引入了主题选择算法和人工反馈机制，以提高主题结果的准确性和相关性。通过对BYR BBS数据的分析实验，结果表明该方法效果良好。

Cloud Computing an'16

Implicit semantic text retrieval and distributed implementation for rural medical care

Yutong Gao; Feifan Song; Xiaqing Xie; Xuebin Gao

International Conference on Cloud Computing and Intelligence Systems · 2016

目前农村医疗卫生信息系统建设还不够完善，大量的常见病医疗相关数据利用率非常低。为了提高这些数据的利用率并为乡村医生和农村居民提供帮助，本文提出了基于隐含语义检索的分布式文本检索模型并改进了隐含语义文本检索中词权重计算的公式。实验结果表明，本文所提出的检索框架能缩短文本检索时间并提高检索的准确率。

Frontiers of Compu'16

Understanding information interactions in diffusion: an evolutionary game-theoretic perspective.

Yuan Su, Xi Zhang, Lixin Liu, Shouyou Song , Binxing Fang

Frontiers of Computer Science · 2016

社交网络是信息传播的基本媒介，传染病在网络的某个节点出现，并向边缘传播。先前的研究主要关注单个传染病的独立传播，而忽略了多个传染病同时传播时相互作用的情况。在现实世界中，同时发生的新闻和事件通常需要争夺用户的注意力才能传播。在其他情况下，它们可以相互协作，产生更大的影响。本文提出了一个演化博弈论框架来模拟多种传染病之间的相互作用。其基本思想是，社交网络中的不同传染病类似于种群中的多种生物，其扩散过程是生物体相互作用，然后从一种状态进化到另一种状态。该框架通过统计学习传染病相互作用过程中的收益，并构建收益矩阵。由于学习所有传染病对的收益几乎是不可能的（收益是传染病数量的二次方），因此提出了一种传染病聚类方法，以减少需要拟合的参数数量，从而使我们的方法高效且可扩展。为了验证所提出的框架，我们使用Digg的真实信息传播数据集进行了实验。实验结果表明，所提出的博弈论框架有助于更好地理解信息扩散过程，并能够比以往的研究更准确地预测用户的转发行为。对传染病演化动力学和演化稳定策略的分析揭示了在扩散过程中，一种传染病是否会被其他传染病所促进或抑制。

International Conf'15

Diffusion of Information in Mobile Social Networks: A Brief Survey

Qipeng Yao，Xu Wu，Xi Zhang

2015 IEEE International Conference on Mobile Services · 2015

移动社交网络（MSN）结合了社会科学和无线通信技术，用于移动网络。MSN可以看作是一个提供各种数据传输服务的系统，涉及移动用户之间的社会关系。移动社交网络中的信息传播为创新等正面信息的传播和恶意谣言等负面信息的传播提供了巨大的机会。因此，理解移动社交网络中的信息传播是一个关键的研究目标。本文概述了信息扩散领域的最新研究，包括优化算法、数据挖掘、数据流等各种技术，涵盖了影响扩散最大化、负面信息限制等大量问题，并研究了移动社交网络的趋势。

Computer Science'15

Research on optimization of community mass data storage based on HBASE

Jian Guo,Xu Wu

2015 Computer Science · 2015

基于HBase的特点，表中的数据会根据Rowkey自动排序，因此在组织来自社区的大量数据时，可以在存储结构中添加时间戳以加快查询速度，但HBase区域分割会导致HBase负载不平衡的缺陷。针对上述问题，本文提出了预分区和哈希的设计思想。事先，根据数据特征，将集群划分为几个区域，然后通过Rowkey哈希映射将数据均匀地存储到每个分区。将数据以相等的概率存储到每个区域，不仅可以解决单个节点过载和一些节点浪费资源的问题，还可以避免对单个节点查询的压力。实践表明，预分区和哈希存储机制可以有效地优化HBase负载不平衡的问题，这是由社区存储的大量数据造成的。

ICTCS'15

The Design and Implementation of APK eBooks Online Generation System Based on FBReader

Xu Wu, Jiada Shi, Xiaqing Xie

International Conference on Trustworthy Computing and Services · 2015

用户可以轻松上传自定义图书，通过自动生成APK电子书在线完成电子书制作。丰富了图书馆的电子书服务，为图书馆搭建电子书仓库提供了新的途径，也为读者提供了制作自定义APK电子书的新服务。基于FBReader，结合Android编译机制以及Ant、FBReader等开源软件，设计并实现了APK电子书在线生成系统。解决了电子书模板制作、APK自动化生成以及打包过程中签名冲突等关键技术问题。经测试，系统运行稳定，操作简便，具有良好的交互界面。原有的上传文件格式类型有待进一步扩展。在数字图书馆和移动阅读等领域有良好的应用前景。

International Symp'15

Research and Implementation for Rural Medical Information Extraction Method

Yutong Gao, Feifan Song, Xiaqing Xie, Shengnan Geng & Wenling Tang

International Symposium on Computational Intelligence and Intelligent Systems · 2015

目前，中国农村诊所系统的输入主要来源于患者描述的症状。然而，患者描述中存在一些现有问题，比如描述不规范、口语化以及过多无关信息等。为了更好地匹配症状与疾病，并提高诊疗的准确性，我们需要使用信息提取技术来从患者描述中提取更多有用的信息，作为后续流程的输入信息。我们设计了一种使用开源工具进行农村诊所信息提取的方法。基于机器学习方法，我们从患者描述中提取了时间和程度的信息。我们还设计并实现了算法的并行化，以加快响应速度。

ICTCS'14

Domain-Specific Semantic Retrieval of Institutional Repository Based on Query Extension

Xu Wu, Pengchong Li1,, Jin Xu, and Xiaqing Xie

International Conference on Trustworthy Computing and Services · 2014

研究人员发现，大多数机构存储库仍在使用基于关键字的检索技术，但由于其包含的信息资源丰富且高度专业化，这种检索技术往往无法满足用户的需求。本文设计并实现了一个机构知识库的领域特定语义检索，使用语义词典WordNet进行词义消歧和扩展，并过滤领域词典得到的结果，利用开源Lucene搜索引擎工具完成文档检索。实验结果表明，在覆盖率和精度方面都有所提高。

ICTCS'14

Research of eID Mobile Identity Authentication Method

Xu Wu,Yue Fan,Xi Zhang,Jin Xu

International Conference on Trustworthy Computing and Services · 2014

在大数据新时代，现有的移动身份认证方法缺乏对用户隐私的普遍保护，导致用户隐私泄露事件频繁发生。本文基于电子身份（eID）提出了一种移动身份认证方法。本文利用近场通信（NFC）技术将eID集成到应用系统的身份验证过程中，设计并实现了eID身份验证过程。该方法保证了用户身份认证的安全可靠，并在移动终端上有效地保护了用户的隐私。实验表明，这是一种普遍有效的解决方案。

ICTCS'14

A Method to Build and Expand the Domain Dictionary Automatically Based on WordNet

Xu Wu,Weiyi Zhang,Xi Zhang,Jin Xu

International Standard Conference of Trustworthy Computing and Services · 2014

领域词典在信息处理、自然语言处理等领域发挥着越来越重要的作用。然而，建立领域词典的过程繁琐、费力，并且有高度的人为干预。本文提出了一种基于语义词典WordNet构建和扩展计算机术语词典的方法。通过分析WordNet的结构及其概念节点之间的关系，同时收集信息并整合到计算机术语集中，通过清WordNet中的非计算机域节点和消除环来构建树形结构的主域词典。然后分析新术语的语义，将其插入主领域词典的适当位置，从而实现自动扩展。实验和分析表明，该方法可以有效地构建和自动扩展计算机专业领域词典。

IEICE TRANSACTIONS'13

Improving Cache Partitioning Algorithms for Pseudo-LRU Policies

Xi Zhang, Chuanyi Liu, Zhenyu Liu, Dongsheng Wang

IEICE TRANSACTIONS on Information and Systems · 2013

随着芯片多处理器（CMPs）上同时运行的应用程序数量增加，高效管理共享的最后一级缓存（LLC）对于保证整体性能至关重要。最近的研究表明，缓存分区可以在吞吐量、公平性和服务质量方面提供好处。大多数现有技术采用真正的最近最少使用（LRU）作为底层缓存替换策略，并依赖于其栈属性来正常工作。然而，在商用处理器中，通常使用没有栈属性的伪-LRU策略来代替LRU，因为它们简单且存储开销低。因此，这项研究旨在了解基于LRU的缓存分区技术是否可以应用于商用处理器。在这项工作中，我们提出了两种流行的伪-LRU策略：未最近使用（NRU）和二叉树（BT）的缓存分区机制。在没有真正LRU的栈属性的帮助下，我们提出了一种分析逻辑，该方法应用曲线逼近方法来推导出应用程序的命中曲线（在变化的分配方式下的命中次数）。然后，我们提出了一种混合分区机制，该机制缓解了预测命中曲线与实际统计数据之间的差距。仿真结果表明，我们的提议平均可以提高吞吐量15.3%，并且平均比栈估计提议高12.6%。在加权加速方面也可以实现类似的结果。对于正在研究的缓存配置，与最后一级缓存相比，它需要的存储开销不到0.5%。此外，我们还表明，仅使用一个真正的LRU ATD的分析机制可以达到可比的性能，并且与混合机制相比，可以进一步降低近三分之二的硬件成本。

ICTCS'12

An Improved Design of the Trustworthiness Authentication Mechanism of IaaS

Xu Wu,Xiaqing Xie,Chuanyi Liu,

International Conference on Trustworthy Computing and Services · 2012

通过提高资源利用率，云计算可以大大节省成本，为用户带来可观的利润。然而，安全问题已成为更快、更广泛地采用云计算的最重要障碍之一。因此，本文重点研究了基础设施即服务（IaaS）的可信度，并设计了一种基于角色的身份验证可信度机制，以确保IaaS架构中的不同角色是可信的。此外，本文还考虑了云环境中不同角色之间的交互，并设计了相关的验证协议。最后，我们还设计了一些基准来评估该机制的性能开销，结果表明，成本可以忽略不计。

ICTCS'12

An Implementation of Trusted Remote Attestation Oriented the IaaSCloud

Chunwen Li, Xu Wu, Chuanyi Liu ,Xiaqing Xie

International Conference on Trustworthy Computing and Services · 2012

云计算的托管服务模式带来了云提供商的可信度问题，严重阻碍了云服务的广泛应用。本文基于可信计算组织（TCG）的开源组件和IBM的完整性度量架构（IMA），设计并实现了一套远程认证架构及协议，用于验证IaaS云中用户虚拟机的可信度。同时，可信第三方作为验证代理，最大程度地减少了云配置信息的泄露，保障了云服务的隐私性。实验表明，该架构在提供可信度保障的同时，几乎没有额外开销。

International Conf'12

Research and implementation of a role-based trustworthiness mechanism for IaaS

Xu Wu， Xiaqing Xie， Chunwen Li

IEEE International Conference on Cloud Computing and Intelligence Systems · 2012

尽管云计算带来了诸多优势，但安全问题已成为其快速普及的最大障碍之一。因此，本文重点研究了基础设施即服务 (IaaS) 的可信性，并提出了一种基于角色的可信机制，以确保 IaaS 架构中不同角色的可信性。此外，本文还考虑了云环境中不同角色之间的交互，并设计了相应的验证协议。实验也表明，该可信机制在性能方面具有实用性。

Advanced Intellige'10

Design and implementation of proxy-based SSO and security audit system for remote desktop access

Zaobao Tan， Xu Wu， Qiaoyan Wen， Hua Zhang

2010 International Conference on Advanced Intelligence and Awarenss Internet (AIAI 2010) · 2010

远程桌面访问用于访问和维护企业内部的各种资源。然而，传统的企业网络系统通常对资源进行单独账户维护，当安全事件发生时，难以查明根源，给监管和安全审计带来了诸多问题。针对此问题，本文提出了一种基于代理的单点登录（SSO）和安全审计系统，以满足统一计费管理的需求，保障远程桌面访问的安全监管和审计。该系统基于解析的协议实现SSO功能，并通过记录所有会话数据提供回放功能。该系统效率更高，无需在不同的远程桌面协议之间进行转换，能够有效地处理企业网络中所有RDP、VNC和X-windows访问会话。

学术论文