[spa] A medida que la esperanza de vida aumenta a nivel
mundial, el cuidado de la gente mayor se está volviendo un asunto
cada vez más preocupante, especialmente cuando dicha gente
vive sola. Para paliar este problema, es necesario más trabajo en
tecnologías asistenciales, como forma de garantizar la seguridad
y el bienestar de este colectivo. En este trabajo, se presenta una
contribución en esta dirección: un sistema de reconocimiento de
acciones humanas, especialmente diseñado para reconocer las
actividades diarias de la población mayor en su propio ambiente
doméstico. Para ello, hemos tomado un modelo de aprendizaje
profundo (TimeSformer) con rendimiento de estado del arte, ya
entrenado con un extenso dataset para el reconocimiento de acciones (Kinetics400), y le hemos aplicado "fine-tuning" usando un
dataset compuesto por vídeos de gente mayor realizando acciones
del día a día en su propio hogar (ETRI-Activity3D). Además,
como paso adicional en la validación del modelo entrenado y para
ayudar a futuros usuarios del sistema a entender las decisiones de
dicho modelo, hemos explicado los resultados adaptando LIME
para que use entrada de vídeo, consiguiendo explicaciones en
espacio y tiempo, e independientes del modelo. Esperamos que
con el uso de este sistema se puedan descubrir conductas extrañas
(como repeticiones u omisiones) o situaciones peligrosas (como
caídas), y actuar acorde para ayudar a la gente mayor.
[eng] Since global life expectancy is rising, the healthcare of elderly
people is becoming an increasingly worrying matter, especially
when they are living alone. To cope with this problem, more
work has to be done in ambient assistant technologies, in order
to guarantee the safety and well-being of this group. In this
work, we present a contribution in this direction: a Human
Action Recognition System specifically designed for daily
activities of elderly people at their home environment. In order
to do it, we have taken a state-of-the-art deep learning model
(TimeSformer) already trained on a big action recognition
dataset (Kinetics400) and fine-tuned it to work with a big
dataset of elderly people activities at home environments
(ETRI-Activity3D). In addition, as an extra step into the
validation of the trained model and to help future users of
the system understand the decisions of the model, we have
explained the results adapting LIME to work with video input,
getting local model-agnostic explanations in space and time.
We hope that through the use of this system, abnormal (such as
repetitions or omissions) or alarming (like fallings) activities
can be discovered and help elderly people accordingly.