Csaba Szepesvari

Dikutip oleh

	Semua	Sejak 2019
Kutipan	36431	24747
indeks-h	81	73
indeks-i10	248	196

5000

2500

1250

3750

2003200420052006200720082009201020112012201320142015201620172018201920202021202220232024114 97 131 96 216 329 379 532 770 834 928 1116 1149 1366 1308 1740 2446 3394 4282 4674 4908 4907

Akses publik

Lihat semua

75 artikel

0 artikel

tersedia

tidak tersedia

Berdasarkan pada mandat pendanaan

Pengarang bersama

Tor LattimoreDeepMindEmail yang diverifikasi di google.com
Yasin Abbasi YadkoriGoogle DeepMindEmail yang diverifikasi di google.com
Rémi MunosGoogle DeepMindEmail yang diverifikasi di inria.fr
Branislav KvetonAdobe ResearchEmail yang diverifikasi di adobe.com
Dale SchuurmansUniversity of Alberta, Google DeepMindEmail yang diverifikasi di cs.ualberta.ca
Kocsis LeventeMTA SZTAKIEmail yang diverifikasi di sztaki.hu
Richard S. SuttonKeen, Amii, and University of AlbertaEmail yang diverifikasi di richsutton.com
Dávid PálStaff Machine Learning Engineer, InstacartEmail yang diverifikasi di instacart.com
Mohammad GhavamzadehAmazonEmail yang diverifikasi di amazon.com
András AntosBudapest University of Technology and EconomicsEmail yang diverifikasi di cs.bme.hu
Amir-massoud FarahmandPolytechnique Montreal, Mila, University of TorontoEmail yang diverifikasi di cs.toronto.edu
Zheng WenGoogle DeepMindEmail yang diverifikasi di google.com
Shalabh BhatnagarProfessor in the Department of Computer Science and Automation, Indian Institute of ScienceEmail yang diverifikasi di iisc.ac.in
Lorincz, AndrasEotvos Lorand UniversityEmail yang diverifikasi di inf.elte.hu
Hamid MaeiNetflixEmail yang diverifikasi di netflix.com
Mengdi WangCenter for Statistics & Machine Learning, ECE, Princeton UniversityEmail yang diverifikasi di princeton.edu
Jincheng MeiResearch Scientist, Google DeepMindEmail yang diverifikasi di google.com
Nevena LazicDeepMindEmail yang diverifikasi di google.com
Michael LittmanBrown UniversityEmail yang diverifikasi di brown.edu
Bo DaiGoogle Brain & Georgia TechEmail yang diverifikasi di google.com

Ikuti

Csaba Szepesvari

DeepMind & University of Alberta

Email yang diverifikasi di cs.ualberta.ca - Beranda

machine learning learning theory online learning reinforcement learning Markov Decision Processes


Judul Urutkan menurut kutipan Urutkan menurut tahun Urutkan menurut judul	Dikutip oleh Dikutip oleh	Tahun
Bandit based monte-carlo planning L Kocsis, C Szepesvári European conference on machine learning, 282-293, 2006	4485	2006
Bandit algorithms T Lattimore, C Szepesvári Cambridge University Press, 2020	3155	2020
Algorithms for Reinforcement Learning C Szepesvari Morgan and Claypool, 2010	2198*	2010
Improved algorithms for linear stochastic bandits Y Abbasi-Yadkori, C Szepesvári, D Pál Advances in Neural Information Processing Systems, 2312-2320, 2011	2114	2011
Convergence results for single-step on-policy reinforcement-learning algorithms S Singh, T Jaakkola, ML Littman, C Szepesvári Machine learning 38, 287-308, 2000	1043	2000
Exploration–exploitation tradeoff using variance estimates in multi-armed bandits JY Audibert, R Munos, C Szepesvári Theoretical Computer Science 410 (19), 1876-1902, 2009	800	2009
Fast gradient-descent methods for temporal-difference learning with linear function approximation RS Sutton, HR Maei, D Precup, S Bhatnagar, D Silver, C Szepesvári, ... Proceedings of the 26th annual international conference on machine learning …, 2009	737	2009
Finite-Time Bounds for Fitted Value Iteration. R Munos, C Szepesvári Journal of Machine Learning Research 9 (5), 2008	659	2008
Parametric bandits: The generalized linear case S Filippi, O Cappe, A Garivier, C Szepesvári Advances in neural information processing systems 23, 2010	566	2010
Learning near-optimal policies with Bellman-residual minimization based fitted policy iteration and a single sample path A Antos, C Szepesvári, R Munos Machine Learning 71, 89-129, 2008	516	2008
X-Armed Bandits. S Bubeck, R Munos, G Stoltz, C Szepesvári Journal of Machine Learning Research 12 (5), 2011	514	2011
Learning with a strong adversary R Huang, B Xu, D Schuurmans, C Szepesvári arXiv preprint arXiv:1511.03034, 2015	456	2015
Regret bounds for the adaptive control of linear quadratic systems Y Abbasi-Yadkori, C Szepesvári Proceedings of the 24th Annual Conference on Learning Theory, 1-26, 2011	449	2011
Convergent temporal-difference learning with arbitrary smooth function approximation H Maei, C Szepesvari, S Bhatnagar, D Precup, D Silver, RS Sutton Advances in neural information processing systems 22, 2009	357	2009
A generalized reinforcement-learning model: Convergence and applications ML Littman, C Szepesvári ICML 96, 310-318, 1996	353	1996
Model-based reinforcement learning with value-targeted regression A Ayoub, Z Jia, C Szepesvari, M Wang, L Yang International Conference on Machine Learning, 463-474, 2020	345	2020
Toward off-policy learning control with function approximation. HR Maei, C Szepesvári, S Bhatnagar, RS Sutton ICML 10, 719-726, 2010	345	2010
Online learning under delayed feedback P Joulani, A Gyorgy, C Szepesvári International conference on machine learning, 1453-1461, 2013	338	2013
Tight regret bounds for stochastic combinatorial semi-bandits B Kveton, Z Wen, A Ashkan, C Szepesvari Artificial Intelligence and Statistics, 535-543, 2015	337	2015
Cascading bandits: Learning to rank in the cascade model B Kveton, C Szepesvari, Z Wen, A Ashkan International conference on machine learning, 767-776, 2015	326	2015

Sistem tidak dapat melakukan operasi ini. Coba lagi nanti.

Artikel 1–20

Kutipan per tahun

Kutipan duplikat

Kutipan yang digabung

Tambahkan pengarang bersamaPengarang bersama

Ikuti

Dikutip oleh

Pengarang bersama