Modele bayesien naif

By February 16, 2019 Uncategorized No Comments

Voici un exemple travaillé de classification bayésienne naïve au problème de classification des documents. Considérez le problème de classer les documents par leur contenu, par exemple dans les e-mails de spam et de non-spam. Imaginez que les documents proviennent d`un certain nombre de classes de documents qui peuvent être modélisées comme des ensembles de mots où la probabilité (indépendante) que le i-ème mot d`un document donné se produit dans un document de la classe C peut être écrit comme étape 3: maintenant , utilisez l`équation bayésienne Naive pour calculer la probabilité postérieure pour chaque classe. La classe ayant la probabilité postérieure la plus élevée est le résultat de la prédiction. Dans les statistiques et la littérature en informatique, les modèles naïfs de Bayes sont connus sous une variété de noms, y compris les Bayes simples et l`indépendance Bayes. Tous ces noms font référence à l`utilisation du théorème de Bayes dans la règle de décision du classifieur, mais naïfs Bayes n`est pas (nécessairement) une méthode bayésienne [4]. 1 [4] bien que les probabilités antérieures indiquent que X peut appartenir à GREEN (étant donné qu`il y a deux fois plus de vert par rapport à RED), la probabilité indique le contraire; que l`appartenance à la classe de X est rouge (étant donné qu`il y a plus d`objets RED à proximité de X que GREEN). Dans l`analyse bayésienne, la classification finale est obtenue en combinant les deux sources d`information, c.-à-d. le précédent et la probabilité, pour former une probabilité postérieure à l`aide de la règle dite de Bayes (nommée d`après le révérend Thomas Bayes 1702-1761). En dépit de leur conception naïve et des hypothèses apparemment simplistes, les classificateurs Bayes naïfs ont très bien fonctionné dans de nombreuses situations complexes du monde réel. En 2004, une analyse du problème de classification bayésienne a montré qu`il existe des raisons théoriques solides pour l`efficacité apparemment invraisemblable des classificateurs naïfs de Bayes. Cependant, une comparaison complète avec d`autres algorithmes de classification en 2006 a montré que la classification de Bayes est surperformée par d`autres approches, comme les arbres boostés ou les forêts aléatoires. [6] en anglais clair, en utilisant la terminologie de probabilité bayésienne, l`équation ci-dessus peut être écrite en tant que modèles graphiques probabilistes (PGMs) sont un cadre riche pour l`encodage des distributions de probabilité sur des domaines complexes: les distributions conjointes (multivariées) sur un grand nombre de variables aléatoires qui interagissent les unes avec les autres.

Ces représentations se trouvent à l`intersection des statistiques et de l`informatique, en s`appuyant sur des concepts de la théorie des probabilités, des algorithmes de graphe, de l`apprentissage automatique et plus encore. Ils sont la base pour les méthodes de pointe dans une grande variété d`applications, telles que le diagnostic médical, la compréhension de l`image, la reconnaissance vocale, le traitement du langage naturel, et beaucoup, beaucoup plus. Ils sont également un outil fondamental dans la formulation de nombreux problèmes d`apprentissage machine. Ce cours est le premier d`une séquence de trois. Il décrit les deux représentations de base de PGM: réseaux bayésiens, qui reposent sur un graphe dirigé; et les réseaux de Markov, qui utilisent un graphe non dirigé. Le cours aborde à la fois les propriétés théoriques de ces représentations ainsi que leur utilisation dans la pratique.