Glossaire du machine learning: Bases du ML

Cette page contient les termes du glossaire ML Fundamentals. Pour tous les termes du glossaire, cliquez ici.

A

accuracy

#fundamentals

Nombre de prédictions de classification correcte divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle ayant effectué 40 prédictions correctes et 10 prédictions incorrectes la précision des prédictions est de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques pour connaître les différentes catégories de prédictions correctes prédictions incorrectes. La formule de justesse pour la classification binaire se présente comme suit:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

  • "VP" correspond au nombre de vrais positifs (prédictions correctes).
  • VN correspond au nombre de vrais négatifs (prédictions correctes).
  • "FP" correspond au nombre de faux positifs (prédictions incorrectes).
  • "FN" correspond au nombre de faux négatifs (prédictions incorrectes).

Indiquer les points communs et les différences entre précision et rappel.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre Relations nonlinear (complexes) entre les caractéristiques et l'étiquette.

Les fonctions d'activation les plus courantes sont les suivantes:

Les tracés des fonctions d'activation ne sont jamais de simples lignes droites. Par exemple, le tracé de la fonction d'activation ReLU est le suivant : deux lignes droites:

Graphique cartésien de deux droites. La première ligne a une constante
          valeur y de 0, le long de l'axe des x de -infini,0 à 0,-0.
          La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, donc
          elle va de 0,0 à +infini,+infini.

Voici un graphique illustrant la fonction d'activation sigmoïde:

Graphique en courbes bidimensionnelles avec des valeurs x couvrant le domaine
          -infini à +positive, tandis que les valeurs y couvrent la plage presque 0 à
          presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours
          positive, avec la pente la plus élevée à 0,0,5 et une diminution progressive
          pentes à mesure que la valeur absolue de x augmente.

intelligence artificielle

#fundamentals

Programme ou modèle non humain capable d'exécuter des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte, ou un programme ou un modèle identifie les maladies à partir d'images radiologiques souffrent toutes deux d'intelligence artificielle.

Officiellement, le machine learning est un sous-domaine de l'intelligence artificielle et l'intelligence artificielle. Cependant, ces dernières années, certaines entreprises ont commencé à utiliser les termes intelligence artificielle et machine learning sont interchangeables.

AUC (aire sous la courbe ROC)

#fundamentals

Un nombre compris entre 0,0 et 1,0 représentant une modèle de classification binaire possibilité de séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, meilleure est la capacité du modèle à séparer les uns des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréaliste parfaitement un AUC de 1,0:

Un axe gradué avec 8 exemples positifs d'un côté et
          9 exemples négatifs de l'autre côté.

À l'inverse, l'illustration suivante montre les résultats pour un classificateur. qui a généré des résultats aléatoires. Ce modèle a un AUC de 0,5:

Un axe gradué avec 6 exemples positifs et 6 exemples négatifs.
          La séquence d'exemples est 
positive, négative
          positif, négatif, positif, négatif, positif, négatif, positif
          négative, positive, négative.

Oui, l'AUC du modèle précédent est de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le paramètre permet de séparer quelque peu les positifs et les négatifs. a un AUC compris entre 0,5 et 1,0:

Un axe gradué avec 6 exemples positifs et 6 exemples négatifs.
          La séquence d'exemples est négative, négative, négative, négative
          positif, négatif, positif, positif, négatif, positif, positif,
          positif.

L'AUC ignore toute valeur définie pour seuil de classification. Au lieu de cela, l'AUC prend en compte tous les seuils de classification possibles.

B

rétropropagation

#fundamentals

L'algorithme qui implémente descente de gradient dans réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses itérations du cycle en deux passages suivant:

  1. Lors de la propagation avant, le système traite un lot de exemples pour générer une ou plusieurs prédictions. Le système compare chaque à chaque valeur d'étiquette. La différence entre la prédiction et la valeur de l'étiquette correspond à la perte pour cet exemple. Le système agrège les pertes pour tous les exemples afin de calculer le total pour le lot actuel.
  2. Lors de la rétropropagation, le système réduit la perte de ajuster les pondérations de tous les neurones de toutes les couche(s) cachée(s).

Les réseaux de neurones contiennent souvent de nombreux neurones dans de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine s'il faut augmenter ou diminuer les pondérations appliquées à certains neurones.

Le taux d'apprentissage est un multiplicateur qui contrôle degré auquel chaque rétrogradation augmente ou diminue chaque pondération. Un taux d'apprentissage élevé augmente ou diminue chaque pondération un faible taux d'apprentissage.

En termes de calcul, la rétropropagation implémente le règle de la chaîne. du calcul. Autrement dit, la rétropropagation calcule dérivée partielle de l'erreur avec pour chaque paramètre.

Il y a quelques années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes comme TensorFlow implémentent désormais la rétropropagation pour vous. Ouf !

lot

#fundamentals

Ensemble des exemples utilisés dans une formation itération. La taille de lot détermine le nombre d'exemples dans un par lot.

Reportez-vous à la section epoch pour plus d'informations sur la manière dont un lot est lié à par époque.

taille de lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération

Voici des stratégies couramment utilisées pour la taille de lot:

  • Descente de gradient stochastique (SGD), où la taille de lot est de 1.
  • "Lot complet", dont la taille correspond au nombre d'exemples dans l'intégralité ensemble d'entraînement. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, alors la taille de lot est d'un million exemples. Le traitement par lot complet est généralement une stratégie inefficace.
  • mini-lot dont la taille de lot est généralement comprise entre 10 et 1 000. Le mini-lot est généralement la stratégie la plus efficace.

biais (éthique/impartialité)

#fairness
#fundamentals

1. Stéréotypage, préjugé ou favoritisme envers certaines choses, des personnes, ou des groupes plutôt que d'autres. Ces biais peuvent affecter la collecte l'interprétation des données, la conception d'un système et la façon dont les utilisateurs interagissent avec un système. Les formes de ce type de préjugé comprennent:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports. Les formes de ce type de préjugé comprennent:

À ne pas confondre avec le biais utilisé dans les modèles de machine learning ou biais de prédiction.

biais (mathématiques) ou terme de biais

#fundamentals

Interception ou décalage par rapport à une origine. Le biais est un paramètre dans de machine learning, symbolisé par l'un ou l'autre suivantes:

  • B
  • W0

Par exemple, b représente le biais dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une ligne bidimensionnelle simple, le biais signifie simplement "ordonnée". Par exemple, dans l'illustration suivante, le biais de la ligne est de 2.

Graphique d'une ligne avec une pente de 0,5 et un biais (ordonnée à l'origine) de 2.

Il existe un biais, car tous les modèles ne partent pas de l'origine (0,0). Par exemple : supposons qu'un parc d'attractions coûte 2 euros et 0,5 euro par heure de séjour. Par conséquent, un modèle mappant le coût total a un biais de 2, car le coût le plus bas est de 2 euros.

Il ne faut pas confondre les préjugés avec les biais en matière d'éthique et d'équité. ou biais de prédiction.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes s'excluant mutuellement:

Par exemple, les deux modèles de machine learning suivants effectuent chacun Classification binaire:

  • Un modèle qui détermine si les e-mails sont spam (classe positive) ou non spam (classe négative).
  • Un modèle qui évalue les symptômes médicaux pour déterminer si une personne souffre d'une maladie particulière (la classe positive) ou n'en souffre pas ; (classe négative).

À comparer à la classification à classes multiples.

Voir aussi Régression logistique et seuil de classification.

le binning

#fundamentals

Convertir une seule caractéristique en plusieurs caractéristiques binaires appelés buckets ou bins, généralement en fonction d'une plage de valeurs. La caractéristique hachée est généralement caractéristique continue.

Par exemple, au lieu de représenter la température comme une à virgule flottante continue, vous pouvez hacher des plages de températures en buckets discrets, tels que:

  • <= 10 degrés Celsius correspond au "froid" bucket.
  • Entre 11 et 24 degrés Celsius correspond à "tempéré" bucket.
  • Une température supérieure ou égale à 25 degrés Celsius correspond à la température "chaude". bucket.

Le modèle traitera de manière identique chaque valeur d'un même bucket. Pour Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket tempéré. Par conséquent, le traite les deux valeurs de manière identique.

C

données catégorielles

#fundamentals

Caractéristiques ayant un ensemble spécifique de valeurs possibles. Par exemple : considérez une caractéristique catégorielle nommée traffic-light-state, qui ne peut ont l'une des trois valeurs suivantes:

  • red
  • yellow
  • green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre impacts différents de red, green et yellow sur le comportement des conducteurs.

Les caractéristiques catégorielles sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Un modèle de classification prédit une classe. En revanche, un modèle de régression prédit un nombre et non une classe.

modèle de classification

#fundamentals

Un modèle dont la prédiction est une classe. Voici des exemples de tous les modèles de classification:

  • Un modèle qui prédit la langue d'une phrase d'entrée (le français ? Espagnol ? italien ?).
  • Un modèle qui prédit les espèces d'arbres Chêne ? Baobab?).
  • Un modèle qui prédit la classe positive ou négative d'une valeur donnée ou d'une maladie.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Voici deux types courants de modèles de classification:

seuil de classification

#fundamentals

Dans une classification binaire, entre 0 et 1, qui convertit la sortie brute d'une modèle de régression logistique ; en une prédiction de la classe positive ou la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non une valeur choisie par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Ensuite :

  • Si cette valeur brute est supérieure au seuil de classification, alors la classe positive est prédite.
  • Si cette valeur brute est inférieure au seuil de classification, alors la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute égale à 0,9, le modèle prédit la classe positive. Si la valeur brute est 0,7, le modèle prédit alors la classe négative.

Le choix du seuil de classification a une forte influence sur le nombre faux positifs et faux négatifs.

ensemble de données avec déséquilibre des classes

#fundamentals

Jeu de données pour un problème de classification dans lequel le nombre total des étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont deux étiquettes sont divisés comme suit:

  • 1 000 000 étiquettes négatives
  • 10 étiquettes positives

Le ratio entre les étiquettes négatives et positives est de 100 000 pour 1. est un ensemble de données avec déséquilibre des classes.

En revanche, l'ensemble de données suivant n'est pas avec un déséquilibre des classes, car le le rapport entre les étiquettes négatives et les étiquettes positives est relativement proche de 1:

  • 517 étiquettes à exclure
  • 483 étiquettes positives

Les ensembles de données à classes multiples peuvent également présenter un déséquilibre entre les classes. Par exemple : un ensemble de données de classification à classes multiples présente également un déséquilibre entre classes, car une étiquette contient beaucoup plus d'exemples que les deux autres:

  • 1 000 000 étiquettes avec la classe "green"
  • 200 étiquettes avec la classe "violet"
  • 350 libellés avec la classe "orange"

Voir aussi entropie, classe de majorité, et la classe minoritaire.

rognage

#fundamentals

Une technique de gestion des valeurs aberrantes : l'un des éléments suivants, ou les deux:

  • Réduire les valeurs de caractéristiques supérieures à une valeur maximale jusqu'à ce seuil maximal.
  • Augmenter les valeurs des caractéristiques inférieures à un seuil minimal jusqu'à cette seuil minimal.

Par exemple, supposons que moins de 0,5% des valeurs d'une caractéristique particulière tombent en dehors de la plage 40-60. Dans ce cas, vous pouvez procéder comme suit:

  • Rogner toutes les valeurs supérieures à 60 (seuil maximal) pour qu'elles soient exactement égales à 60.
  • Rogner toutes les valeurs inférieures à 40 (seuil minimal) pour obtenir exactement 40.

Les anomalies peuvent endommager les modèles et entraîner parfois des pondérations pendant l'entraînement. Certaines valeurs aberrantes peuvent aussi considérablement gâcher des métriques telles que la précision. Le rognage est une technique courante pour limiter les dommages.

Force le bornement de gradient des valeurs de gradient dans une plage désignée pendant l'entraînement.

matrice de confusion

#fundamentals

Table NxN qui résume le nombre de prédictions correctes et incorrectes généré par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante, modèle de classification binaire:

Tumeur (prédiction) Pas de tumeur (prédiction)
Tumeur (vérité terrain) 18 (VP) 1 (FN)
Non-tumeur (vérité terrain) 6 (FP) 452 (VN)

La matrice de confusion précédente montre les éléments suivants:

  • Sur les 19 prédictions pour lesquelles la vérité terrain était "Tumor", le modèle a classé 18 correctement et 1 de manière incorrecte.
  • Sur les 458 prédictions pour lesquelles la vérité terrain ne correspondait pas à une tumeur, le modèle les catégories 452 et 6 sont incorrectes.

Matrice de confusion pour une classification à classes multiples peut vous aider à identifier des modèles d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle à 3 classes modèle de classification à classes multiples qui classe trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de se tromper pour prédire des couleurs Versicolor plutôt que Setosa:

  Setosa (prédiction) Versicolor (prédiction) Virginie (prédiction)
Setosa (vérité terrain) 88 12 0
Versicolor (vérité terrain) 6 141 7
Virginie (vérité terrain) 2 27 109

Autre exemple, une matrice de confusion peut révéler qu'un modèle entraîné à reconnaître les chiffres manuscrits tend à prédire à tort 9 au lieu de 4, ou prédit à tort 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision ; et le rappel.

fonctionnalité continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de possibilités comme la température ou le poids.

À comparer à la caractéristique discrète.

convergence

#fundamentals

État atteint lorsque les valeurs de perte changent très peu ou pas du tout à chaque itération. Par exemple : La courbe de perte suggère une convergence à environ 700 itérations:

Graphique cartésien. L&#39;axe des abscisses correspond à la perte. L&#39;axe Y correspond au nombre d&#39;entraînements
          itérations. La perte est très élevée
lors des premières itérations, mais
          diminue fortement. Après environ 100 itérations, la perte est toujours
          décroissant mais beaucoup
plus progressivement. Après environ 700 itérations,
          reste stable.

Un modèle converge lorsqu'un entraînement supplémentaire n'est pas pour améliorer le modèle.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant finalement redescendre. Sur une longue période de valeurs de perte constantes, vous pouvez temporairement avoir une fausse impression de convergence.

Voir aussi arrêt prématuré.

D

DataFrame

#fundamentals

Type de données pandas populaire, qui permet de représenter ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne de un DataFrame a un nom (un en-tête), et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau 2D, sauf que chaque colonne peut se voir attribuer son propre type de données.

Voir aussi la version officielle Documentation de référence sur pandas.DataFrame .

ensemble de données

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisées de façon à des formats suivants:

  • une feuille de calcul
  • Un fichier au format CSV (valeurs séparées par des virgules)

modèle deep learning

#fundamentals

Un réseau de neurones contenant plusieurs couche cachée.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

caractéristique dense

#fundamentals

caractéristique dans laquelle la plupart ou la totalité des valeurs sont différentes de zéro, généralement un Tensor de valeurs à virgule flottante. Par exemple : Le Tensor à 10 éléments est dense, car neuf de ses valeurs sont différentes de zéro:

8 3 7 5 2 4 0 4 9 6

À comparer à la caractéristique creuse.

profondeur

#fundamentals

Somme des éléments suivants dans un réseau de neurones:

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée ne influencer la profondeur.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble limité de valeurs possibles. Par exemple : une caractéristique dont les valeurs peuvent uniquement être animal, légume ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

dynamic

#fundamentals

Quelque chose fait fréquemment ou continuellement. Les termes dynamique et en ligne sont des synonymes en machine learning. Voici des utilisations courantes de dynamique et en ligne dans apprentissage:

  • Un modèle dynamique (ou modèle en ligne) est un modèle qui sont réentraînés fréquemment ou en continu.
  • L'entraînement dynamique (ou l'entraînement en ligne) est le processus d'entraînement. fréquemment ou en continu.
  • L'inférence dynamique (ou inférence en ligne) est le processus générer des prédictions à la demande.

modèle dynamique

#fundamentals

Un modèle fréquemment (peut-être continu) réentraîné. Un modèle dynamique apprend tout au long de sa vie que s'adapte constamment à l'évolution des données. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

arrêt prématuré

#fundamentals

Méthode de régularisation impliquant de terminer entraînement avant la fin de la perte d'entraînement diminue. Lors de l'arrêt prématuré, vous arrêtez volontairement l'entraînement du modèle Lorsque la perte d'un ensemble de données de validation commence à increase; c'est-à-dire, quand les performances en généralisation se dégradent.

couche de représentation vectorielle continue

#language
#fundamentals

Une couche cachée spéciale qui s'entraîne sur une une caractéristique catégorielle de grande dimension pour nous apprendrons progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une la couche de représentation vectorielle continue permet à un réseau de neurones d'entraîner plus efficace que l'entraînement sur la caractéristique catégorielle de grande dimension.

Par exemple, Google Earth accueille actuellement environ 73 000 espèces d'arbres. Supposons espèce d'arbre est une caractéristique de votre modèle. Par conséquent, la couche d'entrée inclut un vecteur one-hot 73 000 les éléments de long. Par exemple, baobab serait peut-être représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur
     0. L&#39;élément suivant contient la valeur 1. Les 66 767 éléments finaux
     la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement prend beaucoup de temps, car en multipliant 72 999 zéros. Vous choisissez peut-être la couche de représentation vectorielle continue 12 dimensions. La couche de représentation vectorielle continue va donc apprendre progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.

Dans certains cas, le hachage constitue une alternative raisonnable. à une couche de représentation vectorielle continue.

epoch

#fundamentals

Un passage d'entraînement complet sur l'intégralité de l'ensemble d'entraînement de sorte que chaque exemple ait été traité une fois.

Une époque représente N/taille de lot itérations d'entraînement, où N est le le nombre total d'exemples.

Par exemple, supposons les éléments suivants:

  • L'ensemble de données comprend 1 000 exemples.
  • La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

exemple

#fundamentals

Les valeurs d'une ligne de features et éventuellement un libellé. Exemples dans l'apprentissage supervisé se divise en deux catégories générales:

  • Un exemple étiqueté comprend une ou plusieurs caractéristiques et un libellé. Les exemples étiquetés sont utilisés pendant l'entraînement.
  • Un exemple sans étiquette comprend un ou plusieurs plus de caractéristiques, mais pas d'étiquette. Les exemples sans étiquette sont utilisés pendant l'inférence.

Par exemple, supposons que vous entraînez un modèle pour déterminer l'influence sur les conditions météorologiques sur les résultats des élèves. Voici trois exemples étiquetés:

Fonctionnalités Libellé
Température Humidité Pression Résultat du test
15 47 998 Bonne
19 34 1020 Excellente
18 92 1012 Médiocre

Voici trois exemples sans étiquette:

Température Humidité Pression  
12 62 1014  
21 47 1017  
19 41 1021  

La ligne d'un ensemble de données est généralement la source brute d'un exemple. C'est-à-dire qu'un exemple se compose généralement d'un sous-ensemble des colonnes dans le jeu de données. De plus, les caractéristiques d'un exemple peuvent aussi inclure : caractéristiques synthétiques telles que croisements de caractéristiques.

F

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort le classe négative. Par exemple, le modèle prédit qu'un e-mail donné n'est pas du spam. (la classe négative), alors que cet e-mail est en réalité du spam.

faux positif (FP) (false positive (FP))

#fundamentals

Exemple dans lequel le modèle prédit à tort le classe positive. Par exemple, le modèle prédit qu'un e-mail donné est considéré comme du spam (classe positive), mais que l'e-mail n'est en réalité pas un spam.

taux de faux positifs (TFP)

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle se trompe a prédit la classe positive. La formule suivante calcule la valeur taux de positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'axe des abscisses d'une courbe ROC.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Exemple comprend une ou plusieurs caractéristiques. Par exemple, supposons que vous entraîniez un pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et une étiquette:

Fonctionnalités Libellé
Température Humidité Pression Résultat du test
15 47 998 92
19 34 1020 84
18 92 1012 87

À comparer au libellé.

croisement de caractéristiques

#fundamentals

Caractéristique synthétique formée par un "croisement" catégorielles ou divisées.

Prenons l'exemple d'une "prévision de l'humeur" qui représente température dans l'un des quatre buckets suivants:

  • freezing
  • chilly
  • temperate
  • warm

Elle représente la vitesse du vent dans l'un des trois segments suivants:

  • still
  • light
  • windy

Sans croisements de caractéristiques, le modèle linéaire est entraîné indépendamment sur chacune des qui précède sept buckets différents. Le modèle est entraîné, par exemple, freezing indépendamment de l'entraînement windy

Vous pouvez aussi créer un croisement de caractéristiques de température la vitesse du vent. Cette caractéristique synthétique aurait les 12 possibilités suivantes : :

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour de freezing-windy et un jour de freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques ayant chacune de nombreuses d'ensembles différents, le croisement de caractéristiques résultant de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets l'autre comporte 2 000 buckets, le croisement de caractéristiques obtenu comporte 2 000 000 Cloud Storage.

Officiellement, une croix est une Produit cartésien.

Les croisements de caractéristiques sont principalement utilisés avec les modèles linéaires et sont rarement utilisés avec les réseaux de neurones.

l'ingénierie des caractéristiques.

#fundamentals
#TensorFlow

Un processus qui comprend les étapes suivantes:

  1. Déterminer les fonctionnalités qui pourraient être utiles lors de l'entraînement d'un modèle.
  2. Conversion des données brutes de l'ensemble de données en versions efficaces ces caractéristiques.

Par exemple, vous pouvez déterminer que temperature peut être utile . Vous pouvez ensuite tester le binning afin d'optimiser ce que le modèle peut apprendre à partir des différentes plages temperature.

L'ingénierie des caractéristiques est parfois appelée extraction de caractéristiques ou featurization.

ensemble de caractéristiques

#fundamentals

Groupe des caractéristiques que votre modèle de machine learning pour l'entraînement du modèle. Par exemple, le code postal, la taille et l'état du bien peuvent comprend un ensemble de caractéristiques simple pour un modèle qui prédit le prix des logements.

vecteur de caractéristiques

#fundamentals

Tableau de valeurs de caractéristiques comprenant un exemple. L'entrée du vecteur de caractéristiques entraînement et pendant l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle comportant deux caractéristiques distinctes pourrait être:

[0.92, 0.56]

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.
          La couche d&#39;entrée contient deux nœuds, l&#39;un contenant la valeur
          0,92 et l&#39;autre contenant la valeur 0,56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. pour l'exemple suivant, le vecteur de caractéristiques pourrait ressembler à ceci:

[0.73, 0.49]

L'ingénierie des caractéristiques détermine comment représenter dans le vecteur de caractéristiques. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peuvent être représentées par encodage one-hot. Dans ce cas, la partie le vecteur de caractéristiques pour un exemple particulier se compose de quatre zéros et un seul 1.0 en troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Autre exemple : supposons que votre modèle se compose de trois caractéristiques :

  • une caractéristique catégorielle binaire avec cinq valeurs possibles représentées par encodage one-hot Exemple: [0.0, 1.0, 0.0, 0.0, 0.0]
  • une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées avec encodage one-hot, Exemple: [0.0, 0.0, 1.0]
  • une caractéristique à virgule flottante, Exemple: 8.3.

Dans ce cas, le vecteur de caractéristiques de chaque exemple serait représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

boucle de rétroaction

#fundamentals

En machine learning, une situation dans laquelle les prédictions d'un modèle influencent pour le même modèle ou un autre modèle. Par exemple, un modèle recommande des films influencer les films que les gens regardent, qui ensuite influencent les modèles de recommandation de films suivants.

G

généralisation

#fundamentals

La capacité d'un modèle à effectuer des prédictions correctes sur de nouvelles des données inconnues. Un modèle qui peut généraliser est l'inverse d'un modèle en surapprentissage.

courbe de généralisation

#fundamentals

Graphique représentant la perte d'entraînement et perte de validation en tant que fonction du nombre de itérations.

Une courbe de généralisation peut vous aider à détecter surapprentissage. Par exemple : la courbe de généralisation suggère un surapprentissage, car la perte de validation devient finalement significativement plus élevée que la perte d'entraînement.

Un graphe cartésien dans lequel l&#39;axe des y est étiqueté &quot;perte&quot; et l&#39;axe des x
          sont étiquetées &quot;itérations&quot;. Deux tracés apparaissent. Un tracé montre le
          la perte d&#39;entraînement, et l&#39;autre
indique la perte de validation.
          Les deux tracés commencent de la même manière, mais la perte d&#39;entraînement finit par
          baisse bien en dessous
de la perte de validation.

descente de gradient

#fundamentals

Technique mathématique permettant de minimiser la perte. La descente de gradient s'ajuste de façon itérative. les pondérations et les biais, trouver progressivement la meilleure combinaison pour minimiser la perte.

La descente de gradient est beaucoup plus ancienne que le machine learning.

vérité terrain

#fundamentals

La réalité.

Ce qui s'est passé réellement.

Prenons l'exemple d'une classification binaire. qui prédit si un étudiant en première année d'université obtiendra son diplôme dans les six ans. Pour ce modèle, la vérité terrain est de savoir si pas qu’un étudiant ait réellement obtenu son diplôme dans les six ans.

H

couche cachée

#fundamentals

Couche d'un réseau de neurones entre les couche d'entrée (les caractéristiques) et couche de sortie (la prédiction). Chaque couche cachée se compose d'un ou de plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées : le premier avec trois neurones et le second avec deux.

Quatre couches. La première couche est une couche d&#39;entrée contenant
          caractéristiques. La deuxième couche est une couche cachée contenant
          de neurones. La troisième couche est une couche cachée contenant
          de neurones. La quatrième couche est une couche de sortie. Chaque fonctionnalité
          contient trois arêtes, chacune pointant vers un neurone différent
          dans la deuxième couche. Chacun des neurones de la deuxième couche
          contient deux arêtes, chacune pointant vers un neurone différent
          dans la troisième couche. Chacun des neurones de la troisième couche contient
          une arête, chacune pointant vers la couche de sortie.

Un réseau de neurones profond contient plusieurs couche cachée. Par exemple, l'illustration précédente montre un schéma neuronal profond car il contient deux couches cachées.

hyperparamètre

#fundamentals

Les variables que vous ou un service de réglage lors des exécutions successives de l'entraînement d'un modèle. Par exemple : Le taux d'apprentissage est un hyperparamètre. Vous pourriez définir le taux d'apprentissage sur 0,01 avant une session d'entraînement. Si vous et que 0,01 est trop élevé, vous pouvez définir la valeur d'apprentissage à 0,003 pour la prochaine session de formation.

En revanche, les paramètres sont les différents pondérations et biais que le modèle apprend pendant l'entraînement.

I

variables indépendantes et identiquement distribuées (i.i.d)

#fundamentals

Données tirées d'une distribution qui ne change pas, et où chaque valeur ne dépend pas des valeurs qui ont été dessinées précédemment. Une variable iid. est le gaz idéal de machine learning d'apprentissage : il s'agit d'une construction mathématique utile qui n'a quasiment jamais été trouvée dans le monde réel. Par exemple, la répartition des visiteurs d'une page Web peuvent être des variables iid. sur une courte période de temps ; c'est-à-dire que la distribution pendant cette courte période, alors que la visite d'une personne indépendamment de la visite d'un autre utilisateur. Cependant, si vous étendez cette période, des différences saisonnières au niveau des visiteurs de la page Web peuvent apparaître.

Voir aussi nonstationarité.

inférence

#fundamentals

Dans le machine learning, le processus de réalisation de prédictions Application d'un modèle entraîné à des exemples sans étiquette

En statistique, l'inférence a une signification légèrement différente. Consultez le <ph type="x-smartling-placeholder"></ph> Article Wikipédia sur l'inférence statistique.

couche d'entrée

#fundamentals

La couche d'un réseau de neurones contient le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou inférence. Par exemple, la couche d'entrée dans l'exemple Le réseau de neurones présente deux caractéristiques:

Quatre couches: une couche d&#39;entrée, deux couches cachées et une couche de sortie.

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter le raisonnement d'un modèle de ML des termes compréhensibles pour un humain.

La plupart des modèles de régression linéaire, par exemple, sont fortement et interprétables. Il vous suffit d'examiner les pondérations entraînées pour chaque feature.) Les forêts de décision sont également hautement interprétables. Cependant, certains modèles nécessitent une visualisation sophistiquée pour devenir interprétable.

Vous pouvez utiliser Learning Interpretability Tool (LIT) pour interpréter des modèles de ML.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle : ses pondérations et biais, formation. La taille de lot détermine le nombre d'exemples traités par le modèle au cours d'une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite alors 20 exemples avant ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes:

  1. Une propagation avant pour évaluer la perte d'un seul lot.
  2. Une rétropropagation (rétropropagation) pour ajuster le paramètre les paramètres du modèle en fonction de la perte et du taux d'apprentissage.

L

Régularisation L0

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles ; dans un modèle. Par exemple, un modèle avec 11 pondérations non nulles serait pénalisé plus cher qu'un modèle similaire ayant 10 paires de pondérations non nulles.

La régularisation L0 est parfois appelée régularisation L0.

perte L1

#fundamentals

Une fonction de perte qui calcule la valeur absolue de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici la calcul de la perte L1 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Valeur absolue de la valeur delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perte L1

La perte L1 est moins sensible aux anomalies. que la perte L2.

L'erreur absolue moyenne correspond à la moyenne perte L1 par exemple.

Régularisation L1

#fundamentals

Type de régularisation qui pénalise pondérations proportionnellement à la somme de la valeur absolue de les pondérations. La régularisation L1 permet de pondérer des données non pertinentes ou les caractéristiques peu pertinentes à exactement 0. Une fonctionnalité avec une pondération de 0 est effectivement retirée du modèle.

À comparer à la régularisation L2.

perte L2

#fundamentals

Une fonction de perte permettant de calculer le carré de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici la calcul de la perte L2 pour un lot de cinq exemples:

Valeur réelle de l'exemple Valeur prédite du modèle Carré d'un delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perte L2

En raison de la mise au carré, la perte L2 amplifie l'influence de anomalies. En d'autres termes, la perte L2 réagit plus fortement aux mauvaises prédictions Perte L1. Par exemple, la perte L1 pour le lot précédent correspondrait à 8 au lieu de 16. Notez qu'un seul les anomalies représentent 9 sur 16.

Les modèles de régression utilisent généralement la perte L2. que la fonction de perte.

L'erreur quadratique moyenne correspond à la moyenne perte L2 par exemple. La perte quadratique est un autre nom de la perte L2.

Régularisation L2

#fundamentals

Type de régularisation qui pénalise pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L2 permet de générer les pondérations des anomalies (c'est-à-dire avec des valeurs positives ou négatives élevées) plus proches de 0, mais pas tout à fait égales à 0. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle mais n'influencent pas beaucoup la prédiction du modèle.

La régularisation L2 améliore toujours la généralisation modèles linéaires.

À comparer à la régularisation L1.

étiquette

#fundamentals

En machine learning supervisé, "réponds" ou "résultat" partie d'un exemple.

Chaque exemple étiqueté se compose d'un ou de plusieurs caractéristiques et une étiquette. Par exemple, dans un dossier de spam l'ensemble de données de détection, l'étiquette serait probablement "spam" ou "non-spam". Dans un ensemble de données sur les précipitations, l'étiquette peut être la quantité qui est tombée pendant une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et une étiquette. Par exemple, le tableau suivant présente trois exemples étiquetés issus d'un modèle d'évaluation des maisons, chacun présentant trois caractéristiques et une étiquette:

Nombre de chambres Nombre de salles de bain Âge du foyer Prix maison (libellé)
3 2 15 345 000 $
2 1 72 179 000 $
4 2 34 392 000 $

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions exemples sans étiquette.

Comparer l'exemple étiqueté et les exemples sans étiquette.

lambda

#fundamentals

Synonyme de taux de régularisation.

Lambda est un terme complexe. Ici, nous nous concentrons définition dans le cadre de la régularisation.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Trois types courants de couches sont les suivantes:

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une
          couche de sortie. La couche d&#39;entrée se compose de deux caractéristiques. Le premier
          La couche cachée est composée de trois neurones et la seconde couche cachée
          est constituée de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui prennent Tensors et options de configuration en tant qu'entrées et et générer d'autres Tensors en sortie.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique la descente de gradient à quel point l'algorithme doit ajuster les pondérations et les biais itération. Par exemple, un taux d'apprentissage de 0,3 ajuster les pondérations et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez le taux d'apprentissage est trop faible, l'entraînement prendra trop de temps. Si si vous définissez un taux d'apprentissage trop élevé, la descente de gradient rencontre souvent des difficultés et atteindre la convergence.

linear

#fundamentals

Relation entre deux ou plusieurs variables qui peuvent être représentées uniquement par l'addition et la multiplication.

Le tracé d'une relation linéaire est une droite.

À comparer à l'nonlinear.

modèle linéaire

#fundamentals

Un modèle qui attribue une pondération par fonctionnalité pour effectuer des prédictions. (Les modèles linéaires intègrent également un biais.) En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds ; est généralement nonlinear.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre caractéristiques.

Régression linéaire et La régression logistique est deux types de modèles linéaires.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

  • Il s'agit d'un modèle linéaire.
  • La prédiction est une valeur à virgule flottante. Il s'agit de la régression de la régression linéaire.)

Comparer la régression linéaire à la régression logistique. Vous devez aussi comparer la régression à la classification.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

  • L'étiquette est catégorielle. Le terme logistique La régression désigne généralement la régression logistique binaire, à un modèle qui calcule les probabilités d'étiquettes avec deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule probabilités pour les étiquettes ayant plus de deux valeurs possibles.
  • La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs unités de perte logistique peuvent être placées en parallèle pour les étiquettes avec plus de deux valeurs possibles.)
  • Le modèle est doté d'une architecture linéaire et non d'un réseau de neurones profond. Cependant, le reste de cette définition s'applique également modèles profonds qui prédisent des probabilités pour les étiquettes catégorielles.

Prenons l'exemple d'un modèle de régression logistique qui calcule le la probabilité qu'un e-mail d'entrée soit un spam ou non. Pendant l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le est en train d'estimer:

  • Une probabilité que l'e-mail soit du spam est de 72 %.
  • Une probabilité de 28% que l'e-mail ne soit pas un spam

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

  1. Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire de caractéristiques d'entrée.
  2. Le modèle utilise cette prédiction brute comme entrée d'une fonction sigmoïde, qui convertit les valeurs la prédiction sur une valeur comprise entre 0 et 1 (exclus).

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Cependant, ce nombre fait généralement partie d'une classification binaire comme suit:

  • Si le nombre prédit est supérieur à la valeur seuil de classification, le le modèle de classification binaire prédit la classe positive.
  • Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

Perte logistique

#fundamentals

La fonction de perte utilisée en binaire régression logistique.

logarithme de cote

#fundamentals

Logarithme des cotes d'un événement donné.

perte

#fundamentals

Au cours de l'entraînement d'un modèle supervisé, qui mesure la prédiction du modèle provient de son étiquette.

La fonction de perte calcule la perte.

courbe de fonction de perte

#fundamentals

Tracé de la perte en tant que fonction du nombre d'entraînements itérations. Le graphique suivant montre une perte typique à la courbe:

Un graphe cartésien de la perte par rapport aux itérations d&#39;entraînement, montrant une
          baisse rapide de la perte pour les itérations initiales, suivie d&#39;une
          une baisse, puis une pente
plate lors des dernières itérations.

Les courbes de fonction de perte vous aident à déterminer convergence ou surapprentissage.

Les courbes de fonction de perte permettent de représenter tous les types de perte suivants:

Voir aussi Courbe de généralisation.

fonction de perte

#fundamentals

Pendant l'entraînement ou les tests, un fonction mathématique qui calcule sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui réalisent de bonnes prédictions de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte qu'une fonction de perte .

Il existe de nombreux types de fonctions de perte différents. Choisir la perte appropriée pour le type de modèle que vous créez. Exemple :

M

machine learning

#fundamentals

Un programme ou un système qui entraîne modèle à partir des données d'entrée. Le modèle entraîné peut faire des prédictions utiles à partir de nouvelles données (inconnues auparavant) tirées de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning désigne aussi le domaine d'étude avec ces programmes ou systèmes.

classe majoritaire

#fundamentals

L'étiquette la plus courante ensemble de données avec déséquilibre des classes. Par exemple : avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, la les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

mini-lot

#fundamentals

Petit sous-ensemble d'un lot traité en un seul sous-ensemble, sélectionné de manière aléatoire itération. La taille de lot d'un mini-lot est généralement entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement complet (le lot complet) comprend 1 000 exemples. Supposons ensuite que vous définissiez taille de lot de chaque mini-lot à 20. Par conséquent, chaque l'itération détermine la perte sur un échantillon aléatoire de 20 des 1 000 exemples, ajuste les pondérations et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte sur un mini-lot que le sur tous les exemples du lot complet.

classe minoritaire

#fundamentals

L'étiquette la moins courante ensemble de données avec déséquilibre des classes. Par exemple : avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, la les étiquettes positives constituent la classe minoritaire.

À comparer à la classe majoritaire.

modèle

#fundamentals

En général, toute construction mathématique qui traite les données d'entrée et renvoie de sortie. En d'autres termes, un modèle est l'ensemble des paramètres et une structure nécessaires pour qu'un système réalise des prédictions. En machine learning supervisé, un modèle prend un exemple en entrée et en déduit une prédiction en sortie. Dans le machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

  • Un modèle de régression linéaire est constitué d'un ensemble de pondérations. et un biais.
  • Un modèle de réseau de neurones se compose des éléments suivants: <ph type="x-smartling-placeholder">
      </ph>
    • Un ensemble de couches cachées, chacune contenant une ou un plus grand nombre de neurones.
    • Pondérations et biais associés à chaque neurone
  • Un modèle d'arbre de décision se compose des éléments suivants: <ph type="x-smartling-placeholder">
      </ph>
    • Forme de l'arbre c'est-à-dire le modèle dans lequel les conditions et les feuilles sont connectés.
    • Les conditions et les départs.

Vous pouvez enregistrer, restaurer ou copier un modèle.

Le machine learning non supervisé génère des modèles, généralement une fonction pouvant mapper un exemple d'entrée à le cluster le plus approprié.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, un problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les étiquettes de l'ensemble de données Iris doivent correspondre à l'un des trois classes:

  • Iris setosa
  • Iris vierge
  • Iris versicolor

Modèle entraîné sur l'ensemble de données Iris qui prédit le type Iris à partir de nouveaux exemples effectue une classification à classes multiples.

À l'inverse, les problèmes de classification qui font la distinction entre deux sont des modèles de classification binaire. Par exemple, un modèle de messagerie qui prédit soit le spam, soit le non-spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification à classes multiples fait référence à plus deux groupes.

N

classe négative

#fundamentals

Dans la classification binaire, une classe correspond à qu'elle est qualifiée de positif et l'autre de négatif. La classe positive est la chose ou l'événement testé par le modèle, et la classe négative est toute autre possibilité. Exemple :

  • La classe négative d'un test médical pourrait être "pas une tumeur".
  • La classe négative d'un classificateur d'e-mail pourrait être "non-spam".

À comparer à la classe positive.

neurones feedforward

#fundamentals

Un modèle contenant au moins un couche cachée. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le schéma suivant montre un réseau de neurones profond contenant deux couches cachées.

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et un
          couche de sortie.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le diagramme précédent, notez que chacun des trois neurones se connecter séparément aux deux neurones de la première couche cachée une deuxième couche cachée.

Les réseaux de neurones implémentés sur les ordinateurs sont parfois appelés réseaux de neurones artificiels afin de les différencier les réseaux de neurones présents dans le cerveau et d'autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et l'étiquette.

Voir aussi Réseau de neurones convolutif et réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, une unité distincte dans une couche cachée d'un réseau de neurones. Chaque neurone effectue les opérations suivantes : action en deux étapes:

  1. Calcule la somme pondérée des valeurs d'entrée multipliées par par les pondérations correspondantes.
  2. Transmet la somme pondérée en tant qu'entrée à fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs des caractéristiques dans la couche d'entrée. Un neurone dans n'importe quelle couche cachée au-delà la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées dans la première couche cachée.

L'illustration suivante met en évidence deux neurones et leur d'entrée.

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et un
          couche de sortie. Deux neurones sont mis en surbrillance: un dans le premier.
          couche cachée et l’autre dans la deuxième couche cachée. L&#39;icône en surbrillance
          le neurone de la première couche cachée reçoit des entrées des deux caractéristiques
          dans la couche d&#39;entrée. Le neurone mis en surbrillance dans la deuxième couche cachée
          reçoit les entrées de chacun des trois neurones du premier
          couche de données.

Un neurone d'un réseau de neurones imite le comportement des neurones dans le cerveau. d'autres parties des systèmes nerveux.

nœud (réseau de neurones)

#fundamentals

Un neurone dans une couche cachée.

nonlinear

#fundamentals

Relation entre deux variables ou plus qui ne peut pas être représentée uniquement par l'addition et la multiplication. Une relation linéaire peut être représenté par une ligne ; une relation nonlinear représentées par une ligne. Prenons l'exemple de deux modèles liés chacun une caractéristique à une seule étiquette. Le modèle de gauche est linéaire tandis que le modèle de droite est non linéaire:

Deux tracés. Un tracé est une droite, il s&#39;agit donc d&#39;une relation linéaire.
          L&#39;autre graphique est une courbe, il s&#39;agit donc d&#39;une relation non linéaire.

non stationnarité

#fundamentals

Caractéristique dont les valeurs changent selon une ou plusieurs dimensions, généralement le temps. Prenons l'exemple des exemples suivants de non-stationarité:

  • Le nombre de maillots de bain vendus dans un magasin donné varie selon la saison.
  • Quantité d'un fruit particulier récolté dans une région particulière est nulle pendant une grande partie de l'année, mais importante pendant une courte période.
  • En raison du changement climatique, les températures moyennes annuelles changent.

À comparer à la stationarité.

normalisation

#fundamentals

De manière générale, le processus de conversion de la plage réelle d'une variable de valeurs dans une plage de valeurs standard, telle que:

  • -1 à +1
  • Entre 0 et 1
  • la distribution normale

Par exemple, supposons que la plage de valeurs réelle d'une certaine caractéristique soit entre 800 et 2 400. Dans le cadre de l'ingénierie des caractéristiques, vous pouvez normaliser les valeurs réelles dans une plage standard, par exemple de -1 à +1.

La normalisation est une tâche courante l'ingénierie des caractéristiques. L'entraînement des modèles est généralement plus rapide (et produire de meilleures prédictions) lorsque chaque caractéristique numérique de Le vecteur de caractéristiques a à peu près la même plage.

données numériques

#fundamentals

Caractéristiques représentées par des entiers ou des nombres réels. Par exemple, un modèle d'évaluation de maison représenterait probablement la taille d'une maison (en pieds carrés ou en mètres carrés) sous forme de données numériques. Représenter une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique ont une relation mathématique avec l'étiquette. Autrement dit, le nombre de mètres carrés dans une maison a probablement relation mathématique avec la valeur de la maison.

Les données entières ne doivent pas toutes être représentées sous forme de données numériques. Par exemple : les codes postaux dans certaines parties du monde sont des entiers ; En revanche, les adresses IP (nombre entier) les codes ne doivent pas être représentés sous forme de données numériques dans les modèles. C'est parce qu'un Le code postal 20000 n'est pas deux fois (ou moins) plus puissant que le code postal 10000. De plus, bien que différents codes postaux soient corrélés à différentes des biens immobiliers, nous ne pouvons pas supposer que les valeurs immobilières au code postal 20000 ont deux fois plus de valeur que les biens immobiliers pour le code postal 10000. Les codes postaux doivent être représentés sous forme de données catégorielles. à la place.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

O

hors connexion

#fundamentals

Synonyme de statique.

inférence hors ligne

#fundamentals

Processus d'un modèle générant un lot de prédictions puis de les mettre en cache (et de les enregistrer). Les applications peuvent alors accéder à partir du cache au lieu de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère les prévisions météo locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météo locales. Les applis météo récupèrent les prévisions du cache.

L'inférence hors ligne est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représenter des données catégorielles sous forme de vecteur dans lequel:

  • Un élément a la valeur 1.
  • Tous les autres éléments ont la valeur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants qui un ensemble fini de valeurs possibles. Par exemple, supposons qu'une certaine caractéristique catégorielle Scandinavia a cinq valeurs possibles:

  • "Danemark"
  • "Suède"
  • "Norvège"
  • "Finlande"
  • "Islande"

L'encodage one-hot pourrait représenter chacune des cinq valeurs comme suit:

country Vecteur
"Danemark" 1 0 0 0 0
"Suède" 0 1 0 0 0
"Norvège" 0 0 1 0 0
"Finlande" 0 0 0 1 0
"Islande" 0 0 0 0 1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions pour chacun des cinq pays.

Représenter une caractéristique sous forme de données numériques correspond à comme alternative à l'encodage one-hot. Malheureusement, représenter Le nombre de pays scandinaves n'est pas un bon choix. Par exemple : Prenons la représentation numérique suivante:

  • "Danemark" est égal à 0
  • "Suède" est de 1
  • "Norvège" est de 2
  • "Finlande" est de 3
  • "Islande" est de 4

Avec l'encodage numérique, le modèle interpréterait les nombres bruts mathématiquement, et essayer de s'entraîner avec ces nombres. Toutefois, l'Islande n'est pas deux fois plus que pour la Norvège. Le modèle tirerait donc des conclusions étranges.

un contre tous

#fundamentals

Pour un problème de classification avec N classes, solution composée de N distincts Les classificateurs binaires : un classificateur binaire pour chaque résultat possible. Par exemple, pour un modèle qui classe des exemples comme animal, végétal ou minéral, une solution un contre tous fournirait les trois classificateurs binaires distincts suivants:

  • animal et non animal
  • Légume/non végétal
  • minéraux et non minéraux

online

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Génération de prédictions à la demande. Par exemple : Supposons qu'une application transmette des entrées à un modèle et envoie une requête pour obtenir la prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors ligne.

couche de sortie

#fundamentals

La "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une entrée deux couches cachées, et une couche de sortie:

Un réseau de neurones avec une couche d&#39;entrée, deux couches cachées et une
          couche de sortie. La couche d&#39;entrée se compose de deux caractéristiques. Le premier
          La couche cachée est composée de trois neurones et la seconde couche cachée
          est constituée de deux neurones. La couche de sortie se compose d&#39;un seul nœud.

surapprentissage

#fundamentals

Créez un modèle correspondant au données d'entraînement si près que le modèle ne parvient pas faire des prédictions correctes à partir de nouvelles données.

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement vaste et varié peut également réduire le surapprentissage.

P

pandas

#fundamentals

API d'analyse de données par colonne, basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, prennent en charge les structures de données Pandas en tant qu'entrées. Consultez le Documentation Pandas pour en savoir plus.

paramètre

#fundamentals

Pondérations et biais appris par un modèle au cours formation. Par exemple, dans un modèle de régression linéaire, ses paramètres sont constitués le biais (b) et toutes les pondérations (w1, w2, etc.) dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En revanche, les hyperparamètres sont les valeurs vous (ou un service de rotation des hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

classe positive

#fundamentals

Classe que vous testez.

Par exemple, la classe positive d'un modèle de cancer peut être "tumeur". La classe positive d'un classificateur d'e-mails pourrait être "spam".

À comparer à la classe négative.

post-traitement

#fairness
#fundamentals

Ajuster la sortie d'un modèle après son exécution Le post-traitement peut être utilisé pour appliquer des contraintes d'équité modifier eux-mêmes les modèles.

Par exemple, on peut appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification l'égalité des chances est maintenue. pour un attribut en vérifiant que le taux de vrais positifs est identique pour toutes les valeurs de cet attribut.

prédiction

#fundamentals

Résultat d'un modèle. Exemple :

  • La prédiction d'un modèle de classification binaire est la valeur positive ou négative.
  • La prédiction d'un modèle de classification à classes multiples correspond à une classe.
  • La prédiction d'un modèle de régression linéaire est un nombre.

étiquettes de proxy

#fundamentals

Données utilisées pour estimer les étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire les données de stress. Votre ensemble de données contient beaucoup de caractéristiques prédictives, ne contient pas d'étiquette nommée niveau de stress. Intrépide, vous choisissez "Accidents sur le lieu de travail" comme étiquette de proxy de stress. Après tout, les employés soumis à un stress élevé s’impliquent davantage des accidents que des employés calmes. Ou est-ce bien le cas ? Peut-être des accidents de travail à la hausse ou à la baisse pour plusieurs raisons.

Deuxième exemple, supposons que vous souhaitiez que la valeur is it raining? soit une étiquette booléenne, pour votre ensemble de données, mais il ne contient pas de données sur les précipitations. Si photos disponibles, vous pouvez créer des photos de personnes portant des parapluies comme étiquette de proxy pour la commande is it raining? Est-ce que une bonne étiquette de proxy ? C’est possible, mais les personnes dans certaines cultures peuvent être plus susceptibles de porter des parapluies pour se protéger du soleil que de la pluie.

Les étiquettes de proxy sont souvent imparfaites. Si possible, privilégiez les étiquettes réelles étiquettes de proxy. Cela dit, en l'absence d'une étiquette réelle, l'étiquette très soigneusement, en choisissant l'étiquette de proxy la moins horrible.

R

RAG

#fundamentals

Abréviation de génération avec récupération améliorée.

évaluateur

#fundamentals

Une personne qui fournit des étiquettes pour les exemples. "Annotateur" est un autre nom pour l'évaluateur.

Unité de rectification linéaire (ReLU)

#fundamentals

Une fonction d'activation ayant le comportement suivant:

  • Si l'entrée est négative ou égale à zéro, la sortie est 0.
  • Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

  • Si l'entrée est -3, la sortie est 0.
  • Si l'entrée est +3, la sortie est 3,0.

Voici un graphique de la fonction ReLU:

Graphique cartésien de deux droites. La première ligne a une constante
          valeur y de 0, le long de l&#39;axe des x de -infini,0 à 0,-0.
          La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, donc
          elle va de 0,0 à +infini,+infini.

ReLU est une fonction d'activation très courante. Malgré son comportement simple, La fonction ReLU permet tout de même à un réseau de neurones d'apprendre un langage nonlinear. les relations entre les caractéristiques et l'étiquette.

modèle de régression

#fundamentals

De manière informelle, un modèle qui génère une prédiction numérique. (En revanche, Un modèle de classification génère une classe prediction.) Voici quelques exemples de modèles de régression:

  • Un modèle qui prédit la valeur d'une maison spécifique, par exemple 423 000 euros.
  • Un modèle qui prédit l'espérance de vie d'un arbre spécifique (23,2 ans, par exemple).
  • Un modèle qui prédit la quantité de pluie qui va tomber dans une ville donnée au cours des six prochaines heures, par exemple 0,18 pouce.

Les deux types de modèles de régression les plus courants sont les suivants:

  • La régression linéaire, qui trouve la droite la plus adapte les valeurs de l'étiquette aux caractéristiques.
  • La régression logistique, qui génère une une probabilité comprise entre 0,0 et 1,0 qu'un système mappe ensuite à une classe la prédiction.

Tous les modèles qui produisent des prédictions numériques ne sont pas des modèles de régression. Dans certains cas, une prédiction numérique n'est qu'un modèle de classification qui ont des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme qui réduit le surapprentissage Les types de régularisation les plus courants sont les suivants:

La régularisation peut également être définie comme la pénalité appliquée à la complexité d'un modèle.

taux de régularisation

#fundamentals

Nombre qui spécifie l'importance relative de la régularisation pendant l'entraînement. Le fait de soulever le le taux de régularisation réduit le surapprentissage, mais peut les performances prédictives du modèle. À l'inverse, la réduction ou l'omission le taux de régularisation augmente le surapprentissage.

ReLU

#fundamentals

Abréviation de l'unité de rectification linéaire.

génération augmentée de récupération (RAG)

#fundamentals

Une technique pour améliorer la qualité des Sortie d'un grand modèle de langage (LLM) en les ancréant avec des sources de connaissances récupérées après l'entraînement du modèle. La RAG améliore la précision des réponses LLM en fournissant au LLM entraîné des l'accès aux informations extraites de bases de connaissances ou de documents de confiance.

Les motivations courantes de l'utilisation de la génération augmentée de récupération incluent:

  • Augmenter la justesse factuelle des réponses générées par le modèle
  • Donner au modèle accès aux connaissances sur lesquelles il n'a pas été entraîné.
  • Modifier les connaissances utilisées par le modèle
  • Permettre au modèle de citer ses sources.

Par exemple, supposons qu'une application de chimie utilise le modèle PaLM API pour générer des résumés liées aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il:

  1. Recherche ("récupère") les données en rapport avec la requête de l'utilisateur.
  2. Ajoute ("augmente") les données chimiques pertinentes à la requête de l'utilisateur.
  3. Demande au LLM de créer un résumé basé sur les données ajoutées.

Courbe ROC (Receiver Operating Characteristic)

#fundamentals

Graphique du taux de vrais positifs par rapport à taux de faux positifs pour différentes des seuils de classification en binaire la classification.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire pour séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement classes de toutes les classes positives:

Un axe gradué avec 8 exemples positifs à droite et
          7 exemples négatifs à gauche.

La courbe ROC du modèle précédent se présente comme suit:

Une courbe ROC. L&#39;axe des x correspond au taux de faux positifs, et l&#39;axe des y
          est le taux de vrais positifs. La courbe a une forme de L inversée. La courbe
          commence à (0.0,0.0) et va directement jusqu&#39;à (0.0,1.0). Ensuite, la courbe
          passe de (0.0,1.0) à (1.0,1.0).

En revanche, l'illustration suivante représente la régression logistique brute pour un très mauvais modèle qui ne peut pas séparer les classes négatives positives:

Un axe gradué avec des exemples positifs et des classes négatives
          complètement mélangés.

La courbe ROC de ce modèle se présente comme suit:

Une courbe ROC, qui est en fait une ligne droite issue de (0.0,0.0)
          à (1.0,1.0).

Dans le monde réel, la plupart des modèles de classification binaire séparent positives et négatives dans une certaine mesure, mais généralement pas parfaitement. Donc, La courbe ROC se situe entre les deux extrêmes:

Une courbe ROC. L&#39;axe des x correspond au taux de faux positifs, et l&#39;axe des y
          est le taux de vrais positifs. La courbe ROC se rapproche d&#39;un arc tremblant
          traversant les points du compas de l&#39;ouest au nord.

Le point sur une courbe ROC la plus proche de (0.0,1.0) identifie théoriquement la le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple : peut-être que les faux négatifs causent beaucoup plus de difficultés que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

S

fonction sigmoïde

#fundamentals

Fonction mathématique qui "écrase" une valeur d'entrée dans une plage limitée, généralement de 0 à 1 ou de -1 à +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, de milliards (négatif), quoi que ce soit) à une fonction sigmoïde. La sortie sera toujours dans le limitée. Voici un graphique illustrant la fonction d'activation sigmoïde:

Graphique en courbes bidimensionnelles avec des valeurs x couvrant le domaine
          -infini à +positive, tandis que les valeurs y couvrent la plage presque 0 à
          presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours
          positive, avec la pente la plus élevée à 0,0,5 et une diminution progressive
          pentes à mesure que la valeur absolue de x augmente.

La fonction sigmoïde est utilisée à plusieurs reprises en machine learning:

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans une modèle de classification à classes multiples. Les probabilités s'additionnent exactement à 1.0. Par exemple, le tableau suivant montre comment la fonction softmax répartit différentes probabilités:

L'image est... Probabilité
chien 0,85
cat 0,13
cheval 0,02

Softmax est également appelé softmax complet.

À comparer à l'échantillonnage de candidats.

caractéristique creuse

#language
#fundamentals

Caractéristique dont les valeurs sont principalement nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuses. En revanche, une caractéristique dense a des valeurs ne sont généralement pas zéro ou vides.

Dans le machine learning, un nombre surprenant de caractéristiques sont des caractéristiques creuses. Les caractéristiques catégorielles sont généralement des caractéristiques creuses. Par exemple, sur les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi des millions de personnes, de vidéos possibles dans une bibliothèque, un seul exemple peut identifier juste "Casablanca".

Dans un modèle, on représente généralement des caractéristiques creuses encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche d'intégration au-dessus de la l'encodage one-hot pour une plus grande efficacité.

représentation creuse

#language
#fundamentals

Ne stocke que la ou les positions des éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 différentes espèces d'arbres d'une forêt en particulier. Supposons également que chaque example identifie une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait une seule valeur 1 (pour représenter l'espèce d'arbre particulière de cet exemple) et 35 0s (pour représenter 35 espèces d'arbres pas dans cet exemple). La représentation one-hot de maple peut se présenter comme suit:

Vecteur dans lequel les positions 0 à 23 contiennent la valeur 0, position
          24 contient la valeur 1 et les positions 25 à 35 contiennent la valeur 0.

La représentation creuse permet quant à elle d'identifier simplement la position une espèce particulière. Si maple est en position 24, la représentation creuse de maple serait simplement:

24

Notez que la représentation creuse est beaucoup plus compacte que la représentation représentation.

vecteur creux

#fundamentals

Vecteur dont les valeurs sont principalement des zéros. Voir aussi creux caractéristique et parcimonie.

perte quadratique

#fundamentals

Synonyme de perte L2.

static

#fundamentals

Une action unique plutôt que continue. Les termes statique et hors connexion sont des synonymes. Voici quelques cas d'utilisation courants des fonctions statiques et hors connexion dans les ordinateurs apprentissage:

  • Un modèle statique (ou modèle hors connexion) est un modèle entraîné une seule fois, depuis un moment.
  • L'entraînement statique (ou entraînement hors ligne) est le processus qui consiste à entraîner statique.
  • L'inférence statique (ou inférence hors ligne) est une qui génère un lot de prédictions à la fois.

À comparer à dynamique.

inférence statique

#fundamentals

Synonyme d'inférence hors connexion.

stationnarité

#fundamentals

Caractéristique dont les valeurs ne changent pas selon une ou plusieurs dimensions, généralement le temps. Par exemple, une caractéristique dont les valeurs sont à peu près identiques en 2021 2023 montre la stationnarité.

Dans le monde réel, très peu d'éléments sont stationnaires. Les fonctionnalités synonyme de stabilité (comme le niveau de la mer) évolue au fil du temps.

À comparer à la non stationnarité.

descente de gradient stochastique (SGD) (stochastic gradient descent (SGD))

#fundamentals

Algorithme de descente de gradient dans lequel le taille de lot est de un. En d'autres termes, SGD entraîne un seul exemple choisi de manière uniforme provenant d'un ensemble d'entraînement.

machine learning supervisé

#fundamentals

Entraîner un modèle à partir de caractéristiques et de leurs les libellés correspondants. Le machine learning supervisé est comparable à l'apprentissage d'un sujet en étudiant une série de questions les réponses correspondantes. Après avoir maîtrisé la correspondance entre les questions et réponses, un élève peut ensuite fournir des réponses à de nouvelles questions sur le même sujet.

Comparer avec machine learning non supervisé.

caractéristique synthétique

#fundamentals

Une caractéristique absente des caractéristiques d'entrée, mais assemblés à partir d'un ou de plusieurs d'entre eux. Méthodes de création de caractéristiques synthétiques incluent les éléments suivants:

  • Binning d'une caractéristique continue dans des bins de plage
  • Créer un croisement de caractéristiques
  • Multiplier (ou diviser) une valeur de caractéristique par d'autres valeurs ou seul. Par exemple, si a et b sont des caractéristiques d'entrée, Voici des exemples de caractéristiques synthétiques: <ph type="x-smartling-placeholder">
      </ph>
    • ab
    • A2
  • Application d'une fonction transcendante à une valeur de caractéristique Par exemple, si c est une caractéristique d'entrée, voici des exemples de caractéristiques synthétiques: <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

Fonctionnalités créées par normalisation ou scaling ne sont pas considérés comme des caractéristiques synthétiques.

T

perte d'évaluation

#fundamentals

Une métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essaient généralement de minimiser la perte d'évaluation. En effet, une faible perte d'évaluation un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Écart important entre la perte d'évaluation et la perte d'entraînement ou de validation, parfois suggère que vous devez augmenter taux de régularisation.

entraînement

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) comprenant un modèle. Pendant l'entraînement, un système lit exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque de plusieurs fois à des milliards de fois.

perte d'entraînement

#fundamentals

Une métrique représentant la perte d'un modèle au cours d'une une itération d'entraînement particulière. Par exemple, supposons que la fonction de perte est l'erreur quadratique moyenne. La perte d'entraînement (moyenne erreur quadratique) pour la 10e itération est de 2,2, et la perte d'entraînement pour la 100e itération est 1,9.

Une courbe de perte représente la perte d'entraînement par rapport au nombre de itérations. La courbe de fonction de perte fournit les indications suivantes concernant l'entraînement:

  • Une pente descendante implique une amélioration du modèle.
  • Une pente ascendante implique que le modèle s'aggrave.
  • Une pente plate signifie que le modèle a atteint convergence :

Par exemple, la courbe de perte suivante, relativement idéalisée, affiche:

  • Une forte pente descendante lors des itérations initiales, ce qui implique une amélioration rapide des modèles.
  • Une pente qui s'aplatit progressivement (mais toujours vers le bas) jusqu'au bout de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme à un rythme plus lent que lors des itérations initiales.
  • Pente plate vers la fin de l'entraînement, qui indique une convergence.

Graphique représentant la perte d&#39;entraînement par rapport aux itérations. Cette courbe de fonction de perte commence
     avec une forte pente. La pente s&#39;aplatit progressivement jusqu&#39;à
     passe à zéro.

Bien que la perte d'entraînement soit importante, consultez également généralisation.

décalage entraînement/inférence

#fundamentals

La différence entre les performances d'un modèle l'entraînement et les performances de ce même modèle diffusion.

ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés selon les trois des sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir l'ensemble d'entraînement et l'ensemble de validation.

vrai négatif (VN)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit que un e-mail spécifique n'est pas un spam, et qu'il est vraiment non-spam.

vrai positif (VP)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit que un e-mail particulier est un spam, et cet e-mail est vraiment un spam.

taux de vrais positifs (TPR)

#fundamentals

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'axe des ordonnées d'une courbe ROC.

U

sous-apprentissage

#fundamentals

Produire un modèle avec une faible capacité de prédiction, car il la complexité des données d'entraînement n'a pas été entièrement prise en compte. Beaucoup de problèmes peut entraîner un sous-apprentissage, y compris dans les cas suivants:

exemple sans étiquette

#fundamentals

Exemple contenant des caractéristiques, mais pas de étiquette. Par exemple, le tableau suivant présente trois exemples sans étiquette provenant d'une maison d'évaluation, chacun avec trois caractéristiques, mais pas de valeur immobilière:

Nombre de chambres Nombre de salles de bain Âge du foyer
3 2 15
2 1 72
4 2 34

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions exemples sans étiquette.

Dans les environnements semi-supervisés et l'apprentissage non supervisé, les exemples sans étiquette sont utilisés pendant l'entraînement.

Comparez l'exemple sans étiquette avec l'exemple étiqueté.

machine learning non supervisé

#clustering
#fundamentals

L'entraînement d'un modèle pour détecter des tendances dans un ensemble de données, généralement sans étiquette.

L'utilisation la plus courante du machine learning non supervisé consiste à Données de cluster en groupes d'exemples similaires. Par exemple, une machine non supervisée peut regrouper les chansons en fonction de diverses propriétés de la musique. Les clusters obtenus peuvent servir d'entrée à d'autres systèmes d'apprentissage automatique (vers un service de recommandation de musique, par exemple). Le clustering peut être utile lorsque les étiquettes utiles sont rares ou absentes. Par exemple, dans des domaines tels que la lutte contre les utilisations abusives et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.

À comparer au machine learning supervisé.

V

validation

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport ensemble de validation.

Comme l'ensemble de validation est différent de l'ensemble d'entraînement, permet d'éviter le surapprentissage.

L'évaluation du modèle par rapport à l'ensemble de validation la première série de tests et l'évaluation du modèle ensemble de test comme deuxième série de tests.

perte de validation

#fundamentals

Une métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération d'entraînement.

Voir aussi Courbe de généralisation.

ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue les opérations initiales une évaluation par rapport à un modèle entraîné. En général, vous évaluez le modèle entraîné par rapport à l'ensemble de validation plusieurs fois avant d'évaluer le modèle par rapport à l'ensemble de test.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois catégories des sous-ensembles distincts:

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir l'ensemble d'entraînement et l'ensemble de validation.

W

weight

#fundamentals

Valeur multipliée par un modèle par une autre. L'entraînement est le processus qui consiste à déterminer les pondérations idéales d'un modèle. L'inférence consiste à utiliser les pondérations apprises pour faire des prédictions.

Somme pondérée

#fundamentals

La somme de toutes les valeurs d'entrée pertinentes multipliée par les valeurs les pondérations. Par exemple, supposons que les entrées pertinentes se composent des éléments suivants:

valeur d'entrée pondération d'entrée
2 -1,3
-1 0,6
3 0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée est l'argument d'entrée d'une fonction d'activation.

Z

Normalisation du score Z

#fundamentals

Technique de mise à l'échelle qui remplace une la valeur de feature avec une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique. Prenons l'exemple d'une caractéristique dont la moyenne est 800 et dont la norme est de 100. Le tableau suivant montre comment la normalisation du score Z mapperait la valeur brute à son z-score:

Valeur brute Score Z
800 0
950 +1,5
575 -2,25

Le modèle de machine learning s'entraîne ensuite sur les cotes Z pour cette caractéristique plutôt que sur les valeurs brutes.