La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Price Rank Prediction of a Company by Utilizing Data Mining Methods on Financial Disclosures Prédiction du classement des prix d'une entreprise en utilisant des méthodes d'exploration de données sur les informations financières

Mustafa Sami KACAR, Semih YUMUSAK, Halife KODAZ

  • Vues en texte intégral

    0

  • Citer

Résumé:

L’utilisation de rapports en action s’est considérablement développée au cours des dernières décennies à mesure que les données sont numérisées. Cependant, les méthodes statistiques traditionnelles ne fonctionnent plus en raison de l’expansion incontrôlable et de la complexité des données brutes. Il est donc crucial de nettoyer et d’analyser les données financières à l’aide de méthodes modernes d’apprentissage automatique. Dans cette étude, les rapports trimestriels (c'est-à-dire les dépôts 10Q) des sociétés cotées en bourse aux États-Unis ont été analysés à l'aide de méthodes d'exploration de données. L'étude a utilisé 8905 2019 rapports trimestriels d'entreprises de 2022 à 10. L'approche proposée se compose de deux phases avec une combinaison de trois méthodes d'apprentissage automatique différentes. Les deux premières méthodes ont été utilisées pour générer un ensemble de données à partir des dépôts 2Q avec extraction de nouvelles fonctionnalités, et la dernière méthode a été utilisée pour le problème de classification. La méthode Doc10Vec dans le framework Gensim a été utilisée pour générer des vecteurs à partir de balises textuelles dans les dépôts 94000Q. Les vecteurs générés ont été regroupés à l'aide de l'algorithme K-means pour combiner les balises en fonction de leur sémantique. De cette manière, 20000 84 balises représentant différents éléments financiers ont été réduites à 10 XNUMX clusters constitués de ces balises, rendant l'analyse plus efficace et plus gérable. L'ensemble de données a été créé avec les valeurs correspondant aux balises dans les clusters. De plus, la métrique PriceRank a été ajoutée à l'ensemble de données en tant qu'étiquette de classe indiquant la force des prix des entreprises pour le prochain trimestre financier. Ainsi, l'objectif est de déterminer l'effet des rapports trimestriels d'une entreprise sur le prix de marché de l'entreprise pour la période suivante. Enfin, un modèle de réseau neuronal convolutif a été utilisé pour le problème de classification. Pour évaluer les résultats, toutes les étapes de la méthode hybride proposée ont été comparées à d’autres techniques d’apprentissage automatique. Cette nouvelle approche pourrait aider les investisseurs à examiner les entreprises collectivement et à en déduire de nouvelles informations significatives. La méthode proposée a été comparée à différentes approches de création d'ensembles de données en extrayant de nouvelles fonctionnalités et tâches de classification, puis finalement testée avec différentes métriques. L'approche proposée a donné des résultats comparativement meilleurs que les autres méthodes d'apprentissage automatique pour prédire la force future des prix sur la base de rapports antérieurs avec une précision de XNUMX % sur l'ensemble de données de dépôts XNUMXQ créé.

Publication
IEICE TRANSACTIONS on Information Vol.E106-D No.9 pp.1461-1471
Date de publication
2023/09/01
Publicisé
2023/05/22
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2022OFP0002
Type de manuscrit
Special Section PAPER (Special Section on Log Data Usage Technology and Office Information Systems)
Catégories

Auteurs

Mustafa Sami KACAR
  Konya Technical Univ.
Semih YUMUSAK
  KTO Karatay Univ.
Halife KODAZ
  Konya Technical Univ.

Mots-clés

Table des matières