Shaokai Li

I'm a researcher in Speech Signal Processing and Machine Learning at Wuhan University currently working on obstructive sleep apnea recognition. I previously did research at Southeast University working with Prof. Wenming Zheng and Prof. Peng Song.

My work focuses on developing novel transfer learning and deep learning frameworks to improve the generalization ability of speech emotion recognition systems across different domains and databases. I've proposed several approaches including feature distribution adaptation networks, multi-source discriminant subspace alignment, and coupled discriminant subspace alignment to tackle the challenging cross-domain speech emotion recognition problem.

I have published over 20 papers in top venues like IEEE/ACM Transactions on Audio, Speech and Language Processing, INTERSPEECH, and ICASSP. Some of my recent work includes developing a feature distribution adaptation network that aligns visual and audio feature distributions for multi-modal emotion recognition, and creating a framework for enhancing emotion recognition in scenarios with incomplete modalities through cross-modal alignment and reconstruction. I'm particularly interested in bridging the domain gap between different emotional speech corpora to build more robust and generalizable emotion recognition systems.

Publications

Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network

S. Li, Yixuan Ji, Peng Song, Haoqin Sun, Wenming Zheng

ABS HTML PDF

Domain adaptive dual-relaxation regression for speech emotion recognition

Hao Wang, Peng Song, Shenjie Jiang, Run-duo Wang, S. Li, Tao Liu

Applied Acoustics 2024

Shaokai Li

Publications

Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network

Domain adaptive dual-relaxation regression for speech emotion recognition

Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework

Common Latent Embedding Space for Cross-Domain Facial Expression Recognition

Joint Instance Reconstruction and Feature Subspace Alignment for Cross-Domain Speech Emotion Recognition

Unsupervised Transfer Components Learning for Cross-Domain Speech Emotion Recognition

Learning transferable non-negative feature representation for facial expression recognition

A Generalized Subspace Distribution Adaptation Framework for Cross-Corpus Speech Emotion Recognition

Adaptive graph regularized transferable regression for facial expression recognition

Dual-graph regularized concept factorization for multi-view clustering

A Firefly Algorithm-Based Spectral Fitting Technique for Wavelength Modulation Spectroscopy Systems

Coupled Discriminant Subspace Alignment for Cross-database Speech Emotion Recognition

A novel Adaptive Weighted Transfer Subspace Learning Method for Cross-Database Speech Emotion Recognition

Transferable discriminant linear regression for cross-corpus speech emotion recognition

A Novel Discriminative Virtual Label Regression Method for Unsupervised Feature Selection

Feature distribution Adaptation Network for Speech Emotion Recognition

Multi-Source Discriminant Subspace Alignment for Cross-Domain Speech Emotion Recognition

Dynamic Graph-Guided Transferable Regression for Cross-Domain Speech Emotion Recognition

Cross-Corpus Speech Emotion Recognition Based on Sparse Subspace Transfer Learning

Optimal prototype selection for speech emotion recognition using fuzzy k-important nearest neighbour