Sihan Chen

Citata da

	Tutte	Dal 2019
Citazioni	519	518
Indice H	8	8
i10-index	7	7

300

150

225

202120222023202416 60 148 282

Accesso pubblico

Visualizza tutto

3 articoli

0 articoli

Disponibili

Non disponibili

In base ai mandati di finanziamento

Coautori

Jing Liu 刘静Professor in Institute of Automation of the Chinese Academy Sciences (CASIA)Email verificata su nlpr.ia.ac.cn
Xinxin Zhu 朱欣鑫Institute of Automation of the Chinese Academy Sciences (CASIA)Email verificata su nlpr.ia.ac.cn
Longteng GuoAssociate Professor, Institute of Automation of the Chinese Academy Sciences (CASIA)Email verificata su nlpr.ia.ac.cn
Xingjian HeInstitute of Automation of the Chinese Academy Sciences (CASIA)Email verificata su nlpr.ia.ac.cn
Zijia ZhaoInstitute of Automation, Chinese Academy Sciences (CASIA)Email verificata su ia.ac.cn
Handong LiInstitute of Automation, Chinese Academy of SciencesEmail verificata su ia.ac.cn
Xiaojie Jin, 靳潇杰Bytedance Research, USAEmail verificata su bytedance.com
Jiashi FengByteDance Inc.Email verificata su bytedance.com
Weining WangInstitute of Automation, Chinese Academy of SciencesEmail verificata su nlpr.ia.ac.cn
Zikang LiuInstitute of Automation, Chinese Academy of SciencesEmail verificata su ia.ac.cn
Yichen YanCollege of Computer Science and Technology, Zhejiang UniversityEmail verificata su zju.edu.cn
Jiawei LiuByteDanceEmail verificata su bytedance.com

Segui

Sihan Chen

Institute of Automation, Chinese Academy of Sciences

Email verificata su nlpr.ia.ac.cn

Vision-Language Pretraining Multimodal Understanding


Titolo Ordina per citazioni Ordina per anno Ordina per titolo	Citata da Citata da	Anno
Cptr: Full transformer network for image captioning W Liu, S Chen, L Guo, X Zhu, J Liu arXiv preprint arXiv:2101.10804, 2021	204	2021
Vast: A vision-audio-subtitle-text omni-modality foundation model and dataset S Chen, H Li, Q Wang, Z Zhao, M Sun, X Zhu, J Liu Advances in Neural Information Processing Systems 36, 72842-72866, 2023	84	2023
Valor: Vision-audio-language omni-perception pretraining model and dataset S Chen, X He, L Guo, X Zhu, W Wang, J Tang, J Liu IEEE transactions on pattern analysis and machine intelligence, 2023	82	2023
Chatbridge: Bridging modalities with large language model as a language catalyst Z Zhao, L Guo, T Yue, S Chen, S Shao, X Zhu, Z Yuan, J Liu arXiv preprint arXiv:2305.16103, 2023	44	2023
Vl-mamba: Exploring state space models for multimodal learning Y Qiao, Z Yu, L Guo, S Chen, Z Zhao, M Sun, Q Wu, J Liu arXiv preprint arXiv:2403.13600, 2024	36	2024
Global-local propagation network for RGB-D semantic segmentation S Chen, X Zhu, W Liu, X He, J Liu arXiv preprint arXiv:2101.10801, 2021	24	2021
Vlab: Enhancing video language pre-training by feature adapting and blending X He, S Chen, F Ma, Z Huang, X Jin, Z Liu, D Fu, Y Yang, J Liu, J Feng IEEE Transactions on Multimedia, 2023	19	2023
Sounding video generator: A unified framework for text-guided sounding video generation J Liu, W Wang, S Chen, X Zhu, J Liu IEEE Transactions on Multimedia 26, 141-153, 2023	8	2023
Mm21 pre-training for video understanding challenge: Video captioning with pretraining techniques S Chen, X Zhu, D Hao, W Liu, J Liu, Z Zhao, L Guo, J Liu Proceedings of the 29th ACM International Conference on Multimedia, 4853-4857, 2021	7	2021
Cosa: Concatenated sample pretrained vision-language foundation model S Chen, X He, H Li, X Jin, J Feng, J Liu The Twelfth International Conference on Learning Representations, 2023	6	2023
GLOBER: coherent non-autoregressive video generation via global guided video decoder M Sun, W Wang, Z Qin, J Sun, S Chen, J Liu Advances in Neural Information Processing Systems 36, 2024	2	2024
EAVL: Explicitly Align Vision and Language for Referring Image Segmentation Y Yan, X He, W Wang, S Chen, J Liu arXiv preprint arXiv:2308.09779, 2023	2	2023
Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner Z Liu, S Chen, L Guo, H Li, X He, J Liu Proceedings of the 31st ACM International Conference on Multimedia, 5120-5131, 2023	1	2023
Fuse and Calibrate: A Bi-directional Vision-Language Guided Framework for Referring Image Segmentation Y Yan, X He, S Chen, S Lu, J Liu International Conference on Intelligent Computing, 313-324, 2024		2024
Calibration & Reconstruction: Deeply Integrated Language for Referring Image Segmentation Y Yan, X He, S Chen, J Liu Proceedings of the 2024 International Conference on Multimedia Retrieval …, 2024		2024

Il sistema al momento non può eseguire l'operazione. Riprova più tardi.

Articoli 1–15

Citazioni per anno

Citazioni duplicate

Citazioni unite

Aggiungi coautoriCoautori

Segui

Citata da

Coautori