Can Rager

Navedeno

	Vse	Od leta 2020
Navedbe	193	192
indeks h	7	6
indeks i10	4	4

160

120

201820192020202120222023202420251 2 2 2 145 41

Javni dostop

Prikaži vse

1 članek

0 člankov

na voljo

ni na voljo

Na podlagi zahtev v povezavi s financiranjem

Soavtorji

Samuel MarksPostdoctoral researcher, Northeastern UniversityPreverjeni e-poštni naslov na northeastern.edu
David BauAssistant Professor at Northeastern UniversityPreverjeni e-poštni naslov na northeastern.edu
Aaron MuellerPostdoctoral Fellow, Northeastern University and The TechnionPreverjeni e-poštni naslov na northeastern.edu
Jannik BrinkmannPhD student, University of MannheimPreverjeni e-poštni naslov na uni-mannheim.de
Yonatan BelinkovTechnionPreverjeni e-poštni naslov na technion.ac.il
Eric J. MichaudGraduate student, MITPreverjeni e-poštni naslov na mit.edu
Arthur ConmyGoogle DeepMindPreverjeni e-poštni naslov na google.com
Sidney RednerResident Faculty Member, Santa Fe InstitutePreverjeni e-poštni naslov na santafe.edu

Spremljaj

Can Rager

Research Assistant

Preverjeni e-poštni naslov na northeastern.edu - Domača stran

Natural Language Processing Mechanistic Interpretability


Naslov Razvrsti po navedbah Razvrsti po letniku Razvrsti po naslovu	Navedeno Navedeno	Leto
Sparse feature circuits: Discovering and editing interpretable causal graphs in language models S Marks, C Rager, EJ Michaud, Y Belinkov, D Bau, A Mueller arXiv preprint arXiv:2403.19647, 2024	87	2024
Attribution patching outperforms automated circuit discovery A Syed, C Rager, A Conmy BlackBoxNLP 2024, 2024	48	2024
The quest for the right mediator: A history, survey, and theoretical grounding of causal interpretability A Mueller, J Brinkmann, M Li, S Marks, K Pal, N Prakash, C Rager, ... arXiv preprint arXiv:2408.01416, 2024	13	2024
Measuring progress in dictionary learning for language model interpretability with board game models A Karvonen, B Wright, C Rager, R Angell, J Brinkmann, L Smith, ... NeurIPS 2024, 2024	13	2024
Nnsight and ndif: Democratizing access to foundation model internals JF Fiotto-Kaufman, AR Loftus, E Todd, J Brinkmann, K Pal, D Troitskii, ... The Thirteenth International Conference on Learning Representations, 2024	9	2024
Linearly structured world representations in maze-solving transformers M Ivanitskiy, AF Spies, T Räuker, G Corlouer, C Mathwin, L Quirke, ... Proceedings of UniReps: the First Workshop on Unifying Representations in …, 2024	8*	2024
The advantage of foraging myopically CL Rager, U Bhat, O Bénichou, S Redner Journal of Statistical Mechanics: Theory and Experiment 2018 (7), 073501, 2018	7	2018
A Configurable Library for Generating and Manipulating Maze Datasets M Igorevich Ivanitskiy, R Shah, AF Spies, T Räuker, D Valentine, C Rager, ... arXiv e-prints, arXiv: 2309.10498, 2023	4*	2023
An adversarial example for direct logit attribution: Memory management in gelu-4l J Dao, YT Lau, C Rager, J Janiak arXiv preprint arXiv:2310.07325, 2023	2	2023
Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks A Karvonen, C Rager, S Marks, N Nanda arXiv preprint arXiv:2411.18895, 2024	1	2024
NNsight and NDIF: Democratizing access to open-weight foundation model internals J Fiotto-Kaufman, AR Loftus, E Todd, J Brinkmann, K Pal, D Troitskii, ... arXiv preprint arXiv:2407.14561, 2024	1	2024
Safety of self-assembled neuromorphic hardware C Rager, K Webster arXiv preprint arXiv:2301.10201, 2023		2023

Sistem trenutno ne more izvesti postopka. Poskusite znova pozneje.

Članki 1–12

Št. navedb na leto

Podvojene navedbe

Združene navedbe

Dodajanje soavtorjevSoavtorji

Spremljaj

Navedeno

Soavtorji