Este epígrafe se encuentra dividido en tres sub-epígrafes en los cuales se describe el proceso de obtención de los datos necesarios para la realización del resto del procedimiento. En el primero se detallan los pasos llevados a cabo para obtener los datos de las empresas y seleccionar aquellas con las que se trabajó en el resto del procedimiento. En el segundo sub-epígrafe se presenta una breve explicación de los indicadores computados que se utilizarán como variables de entrada, en conjunto con los valores históricos de rentabilidad de las empresas seleccionadas en el primer sub-epígrafe. El tercer sub-epígrafe expone el procedimiento llevado a cabo para la creación de los vectores de entrada y salida a partir de los datos resultantes del segundo sub-epígrafe.

2.4.1 Obtención de Datos

Una explicación más detallada, en lo respecto a el código utilizado para la realización del procedimiento expuesto en el presente sub-epígrafe se encuentra en el Anexo 4 - Obtención de Datos.

Con el objetivo de ejemplificar como las redes neuronales artificiales y la programación cuadrática pueden ser usadas en una estrategia de gestión de cartera, se decidió en el presente trabajo utilizar datos de la bolsa del mercado español. Por lo que se decidió trabajar con la información correspondiente a las empresas que se encuentran en la lista de empresas cotizadas que se expone en «Empresas cotizadas» (s. f.) y puede ver en Tabla 2.

En la Tabla 2 se recogen los datos de r nrow(empresas) empresas. Siendo los datos recogidos el nombre, ticker, sector y subsector, mercado, índice de cada una de las empresas y si fueron seleccionadas o no para realizar el resto del procedimiento después de la realización de los pasos expuestos en el presente sub-epígrafe.

Con el objetivo de obtener los datos de las empresas y analizarlas para seleccionar aquellas con las que se trabajó en el resto del procedimiento se usó como fuente (s. f.a). A continuación, se expone el proceso llevado a cabo para la obtención y selección de los datos.

Se decidió descargar los datos mensuales de cada una de las empresas recogidas en Tabla 2. Obteniéndose todos los datos comprendidos entre el 31 de enero del 2000 al 28 de febrero del 2023 de cada una de las entidades.

Tras obtener los datos se pasó evaluar la calidad de estos. Se comenzó la evaluación con un análisis exploratorio visual de los precios ajustado ya que, como se explicó en el capítulo anterior estos son los ideales para usar en cualquier metodología de análisis históricos.

Durante el mencionado análisis exploratorio visual, se detectó que existían irregularidades en los precios ajustados de algunas de las series. Las irregularidades detectadas consistían en el incorrecto registro de los precios ajustados, así como errores en el cálculo de estos. Estos errores se detectaron fácilmente al observar en las gráficas de los valores del precio de cierre ajustado tendencia constante en periodos largos de tiempo, como se observa en Figura 6, lo que indica un registro erróneo de las variaciones de los precios; así como cambios bruscos de hasta más de un 100% en los mismos en un solo período de tiempo, lo que puede indicar un mal cálculo en el precio ajustado, como se ve en Figura 7, en este último caso se verificó con otras fuentes como (s. f.b), para comprobar que de echo estaban mal computados los precios.

Dado el tiempo con el que se contaba para realizar el estudio expuesto en el procedimiento y la extensa cantidad de tiempo que requeriría la investigación a realizar para sustituir los valores erróneos en las series se decidió eliminar estas irregularidades mediante el uso solo de los valores posteriores a enero del 2005, que ya no presentaban inconsistencia en el cálculo del precio ajustado, posteriormente se eliminaron aquellas series que aún contenían valores faltantes y que presentaban irregularidad en el registro de las variaciones, para esto último se eliminaron aquellas series en las que las variaciones de los precios sin registrar sea en más de 10 observaciones.

Quedando tras los ajustes realizados r length(returns_emps3) empresas, como se ve en la columna seleccionadas de la Tabla 2, algunas de estas empresas cuentan con distintos números de observaciones, debido a que no todas existían o habían salido al mercado bursátil antes de enero del 2005.

Una vez seleccionadas las empresas con las que se trabajó se computaron las rentabilidades de estas a partir de los precios ajustados. Además de las rentabilidades correspondientes a las empresas seleccionadas se usaron las rentabilidades del precio de cierre ajustado del IBEX 35, además se computaron otras variables que sirven como indicadores del comportamiento de las rentabilidades, y la relación de estas con las del índice, en este caso las del IBEX 35. Entre estas variables se encuentran las volatilidades de las empresas y el índice, la correlación entre los valores de las series y el IBEX, y la beta de las empresas en relación con el IBEX.

2.4.2 Indicadores

En el presente sub-epígrafe se expone una breve explicación de las variables computadas para usar como variables de entradas en conjunto con los valores históricos de las rentabilidades de las empresas. Una explicación más detallada, en lo respecto a el código utilizado para la realización del procedimiento expuesto en el presente sub-epígrafe se encuentra en Anexo 4 - Indicadores.

2.4.2.1 Volatilidad

A partir de lo expuesto en Hargrave (2023) y Hayes (2023) la desviación estándar y la volatilidad son dos conceptos relacionados que miden cuánto fluctúa el precio de una acción u otro activo a lo largo del tiempo. La desviación estándar es un término estadístico que cuantifica la dispersión de un conjunto de puntos de datos alrededor de su valor medio. La volatilidad es un término financiero que describe el grado de variación en los rendimientos de un activo durante un período de tiempo determinado.

La desviación estándar y la volatilidad son importantes en el análisis del mercado de valores porque indican el riesgo y la incertidumbre asociados con la inversión en un activo en particular. Una desviación estándar o volatilidad alta significa que el precio del activo puede cambiar significativamente en cualquier dirección, lo que implica un mayor potencial de ganancias o pérdidas. Una desviación estándar o volatilidad baja significa que el precio del activo es relativamente estable y predecible, lo que implica un menor potencial de ganancias o pérdidas Hayes (2023).

Para calcular la volatilidad de una acción o índice se calcula la desviación estándar de las rentabilidades. Siendo por tanto los cálculos necesarios los que se muestran a continuación en la Ecuación 1.

\[R_i = \frac{P_i - P_{i-1}}{P_{i-1}}\]

\[\sigma = \sqrt{\frac{\sum_{i=1}^N (R_i - \bar{R})^2}{N} } \tag{1}\]

donde:

  • \(R_i\) es la rentabilidad de la acción en el periodo \(i\)

  • \(P_i\) y \(P_{i-1}\) son los precios de una acción en periodos de tiempo \(i\) e \(i-1\), respectivamente.

  • \(\sigma\) es la desviación estandar - \(N\) es el número de observaciones

  • \(\bar{R}\) es la rentabilidad media de la acción.

La desviación estándar y la volatilidad son herramientas útiles para que los inversores y analistas evalúen el equilibrio riesgo-recompensa de diferentes activos y carteras. También pueden ayudar a comparar el rendimiento de diferentes activos y carteras a lo largo del tiempo y en diferentes condiciones de mercado.

2.4.2.2 Correlación

Como se explica en Edwards (2022) la correlación es una medida estadística que determina cómo dos variables se mueven entre sí. En el análisis del mercado de valores, la correlación puede ayudar a comprender el comportamiento de diferentes acciones o indicadores del mercado a lo largo del tiempo. Tomando como ejemplo los datos que se usan en este trabajo, si los precios de una de las empresas seleccionadas tienden a subir y bajar junto con el IBEX 35, estos precios tienen una correlación positiva. Si al contrario los precios de la empresa tienden a subir cuando el indicador del IBEX 35 baja, tienen una correlación negativa. Un coeficiente de correlación de cero significa que no existe una relación lineal entre las variables, siendo en este caso los valores del IBEX 35 y los precios de una de las empresas determinadas.

Como se expone en Ross (2022) la correlación entre dos variables se calcula usando la siguiente ecuación, Ecuación 2:

\[\rho_{xy} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2}\sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} \tag{2}\]

donde:

  • \(\rho_{xy}\) es el coeficiente de correlación

  • \(n\) es el número de observaciones

  • \(x_i\) y \(y_i\) son los valores de las dos variables para la \(i\) observación

  • \(\bar{x}\) y \(\bar{y}\) son las medias de las dos variables.

Como se explica también en Edwards (2022), el coeficiente de correlación se encuentra en un rango de -1 a 1, donde -1 indica una correlación negativa perfecta, 1 indica una correlación positiva perfecta, y 0 indica que no existe correlación alguna. Pudiéndose entender que, mientras más cercano se encuentre el coeficiente de correlación tanto a -1 como a 1, más fuerte es la relación lineal entre las variables analizadas.

Como ya se explicó con anterioridad el coeficiente de correlación, en el presente trabajo, se puede utilizar para analizar qué tan parecido se mueven las rentabilidades de una empresa en comparación con las del IBEX 35. La correlación también se puede utilizar para diversificar una cartera eligiendo acciones que tengan una correlación baja o negativa entre sí, como se explica en Boyte-White (2022). Esto puede ayudar a reducir el riesgo general de la cartera, ya que las pérdidas de una acción pueden compensarse con las ganancias de otra. Sin embargo, la correlación no es constante y puede cambiar con el tiempo debido a varios factores, como las condiciones del mercado, los eventos económicos o las noticias de la empresa. Por lo tanto, es importante monitorear la correlación de acciones regularmente y ajustar la cartera en consecuencia Boyte-White (2022).

La correlación es una herramienta valiosa en el análisis del mercado de valores, pero no implica causalidad. Tener una correlación alta o baja entre dos variables no implica que una variable cause cambios en la otra. La correlación simplemente mide la fuerza y dirección de la relación lineal entre dos variables, sin considerar otros factores que puedan influir en ellas.

Como se expone también en Edwards (2022), la correlación guarda una íntima relación con la volatilidad del mercado y de las acciones, pudiéndose ver que, durante períodos de mayor volatilidad, como la crisis financiera de 2008, las acciones pueden tener una tendencia a estar más correlacionadas, incluso si se encuentran en diferentes sectores. Los mercados internacionales también pueden volverse altamente correlacionados durante tiempos de inestabilidad. Los inversores pueden querer incluir activos en sus carteras que tengan una baja correlación de mercado con los mercados de valores para ayudar a administrar su riesgo.

2.4.2.3 Beta

Como se explica en Kenton (2022) Beta es una medida de cuán sensibles son los rendimientos de una acción a los cambios en los rendimientos del mercado. Se calcula como la pendiente de la línea de regresión que se ajusta a los rendimientos históricos de la acción y del mercado. Una beta de 1 significa que la acción se mueve en sincronía con el mercado, una beta superior a 1 significa que la acción es más volátil que el mercado y una beta inferior a 1 significa que la acción es menos volátil que el mercado.

Beta es importante en el análisis del mercado de valores porque, como se explica en Kenton (2022), ayuda a los inversores a evaluar el riesgo y el rendimiento de una cartera. Al conocer la versión beta de cada acción en una cartera, los inversores pueden estimar cuánto fluctuará la cartera con los movimientos del mercado y ajustar su asignación de activos en consecuencia. Por ejemplo, si un inversor quiere reducir el riesgo de su cartera, puede elegir acciones con valores beta bajos o negativos que tienden a moverse en dirección opuesta al mercado.

Como se explica en Monaghan (2019) Beta está relacionado con la correlación, pero no son lo mismo. Como se explicó con anterioridad la correlación es una medida de cuán linealmente relacionadas están dos variables, Beta, por otro lado, es una medida de cuán fuertemente relacionadas están dos variables, lo que indica cuánto cambia una variable cuando otra variable cambia en una unidad. Beta se puede calcular a partir de la correlación usando la siguiente ecuación, Ecuación 3:

\[\beta = \frac{\rho_{xy} \sigma_x}{\sigma_y} \tag{3}\]

donde:

  • \(\rho_{xy}\) es el coeficiente de correlación entre \(x\) y \(y\)

  • \(\sigma_x\) es la volatilidad de x

  • \(\sigma_y\) es la volatilidad de y.

2.4.3 Vectores

En el presente sub-epígrafe se expone el procedimiento llevado a cabo para la creación de los vectores de entrada y salida a partir de los datos resultantes del procedimiento expuesto en el sub-epígrafe anterior. Una explicación más detallada, en lo respecto a el código utilizado para la realización del procedimiento expuesto en el presente sub-epígrafe se encuentra en Anexo 4 - Vectores.

La estructura del conjunto de vectores de entradas y salidas es de vital importancia en el modelado de técnicas de ML teniendo un impacto importante en su eficacia. El conjunto debe de vectores debe crearse de manera representativa del problema a resolver, por lo que los pasos descritos a continuación explican en detalle los aspectos del problema a dar respuesta en el presente trabajo y como dar forma al conjunto de vectores de entradas y salidas para ello.

Como se ha mencionado con anterioridad el objetivo del presente trabajo es exponer un procedimiento para la utilización de modelos de RNA y programación cuadrática en una estrategia de inversión. El modelado atiende a la necesidad de obtener unas predicciones lo más acertada posible para posteriormente, basándose en las predicciones y en los datos históricos, hallar la composición de cartera idónea. Por lo que el problema a representar con los conjuntos de vectores de entradas y salidas es como explicar el comportamiento de la rentabilidad de una empresa en un instante de tiempo \(i+1\) con los valores de varias variables en el instante de tiempo \(i\).

Para la representación de este problema se crearon vectores tridimensionales, siguiendo lo expuesto en Chollet y Allaire (2018). Las dimensiones de estos vectores se explican de la siguiente manera:

  • La primera dimensión está comprendida por el número de muestras obtenidas al seccionar las observaciones de las distintas series en vectores bidimensionales consecutivos.

  • La segunda dimensión está comprendida por el número de observaciones, de las distintas series, recogido en cada vector bidimensional.

  • La tercera dimensión es el número de series en cada vector bidimensional.

Por lo que para la correcta obtención de estas muestras se deben definir primero que series serán utilizadas para los vectores de entrada y salida. Las series utilizadas en los vectores de entrada fueron definidas en el epígrafe anterior, siendo estas: las rentabilidades históricas de la empresa y el IBEX, las volatilidades históricas de la empresa y el IBEX, la correlación histórica de la empresa y el IBEX, y el Beta histórico de la empresa y el IBEX. La serie utilizada para los vectores de salida es las rentabilidades históricas de la empresa.

Posteriormente se definió el horizonte temporal que se desea prever, este es un aspecto clave en la creación de los conjuntos de entradas y de salidas. El número de observaciones definido como horizonte temporal determina las observaciones los vectores de salida, en el presente trabajo se determinó como horizonte temporal una observación ya que se desea predecir la rentabilidad del próximo mes de las distintas empresas seleccionadas.

Y el último aspecto a definir es cuantas observaciones debe observar el modelo para inferir la salida deseada. Esto define la cantidad de observaciones que se tomarán de cada serie de tiempo para conformar los vectores de entrada. Para determinar este aspecto se debe realizar un proceso iterativo probando distintas cantidades y evaluar los resultados obtenidos por los modelos que se entrenen con dichos. Para simplificar el proceso, en el presente trabajo se determinó probar distintos tamaños de entrada siendo estos 1, 2 y 3 observaciones. Probándose así de cierta manera como el tamaño de las entradas afecta la predicción obtenida.

Si tenemos una de serie para los vectores de entrada contiene unas r dim(returns_indc[[1]])[1] observaciones se puede calcular el número de muestras que se obtuvo de esta serie siguiendo la siguiente ecuación, Ecuación 4:

\[ m = n - (i-1+o) \tag{4}\]

donde:

  • \(m\) el número de muestras

  • \(n\) la cantidad de observaciones de las series

  • \(i\) y \(o\) el número de observaciones en los vecotres de entrada y salida respectivamente.

En la Tabla 3 se expone la cantidad de muestras obtenidas para los distintos tamaños de vectores de entrada planteados, para lo que se tuvo en cuenta los distintos números de observaciones con las que cuentan las r length(returns_indc) seleccionadas. En la Figura 16 se expone como lucen los vectores de entrada y salida, en el caso en el que el vector de entrada cuenta con 3 observaciones.