Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning: Bases du ML

Cette page contient les termes du glossaire ML Fundamentals. Pour tous les termes du glossaire, cliquez ici.

A

accuracy

#fundamentals

Nombre de prédictions de classification correcte divisé par le nombre total de prédictions. Par exemple :

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Par exemple, un modèle ayant effectué 40 prédictions correctes et 10 prédictions incorrectes la précision des prédictions est de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classification binaire fournit des noms spécifiques pour connaître les différentes catégories de prédictions correctes prédictions incorrectes. La formule de justesse pour la classification binaire se présente comme suit:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

où :

"VP" correspond au nombre de vrais positifs (prédictions correctes).
VN correspond au nombre de vrais négatifs (prédictions correctes).
"FP" correspond au nombre de faux positifs (prédictions incorrectes).
"FN" correspond au nombre de faux négatifs (prédictions incorrectes).

Indiquer les points communs et les différences entre précision et rappel.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Même s'il s'agit d'une métrique utile dans certaines situations, la justesse prêtant à confusion. En revanche, la justesse n'est généralement pas la bonne métrique pour évaluer les modèles de classification qui traitent Ensembles de données avec déséquilibre des classes.

Par exemple, supposons que la neige ne tombe que 25 jours par siècle au cours d'une certaine subtropicale. Puisque les jours sans neige (classe négative) sont largement plus de jours avec de la neige (la classe positive), l'ensemble de données "neige" pour les classes sont déséquilibrées dans cette ville. Imaginez une classification binaire qui est censé prédire de la neige ou pas de neige chaque jour, prédit simplement "pas de neige" tous les jours. Ce modèle est très précis, mais n'offre aucun potentiel de prédiction. Le tableau suivant récapitule les résultats obtenus pour un siècle de prédictions:

Catégorie	Nombre
VP	0
TN	36500
FP	25
FN	0

La justesse de ce modèle est donc:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Même si la justesse de 99,93% semble être un pourcentage impressionnant, le modèle n'offre en fait aucune prédiction.

Précision et Le rappel est généralement une métrique plus utile que la justesse pour évaluer des modèles entraînés sur des ensembles de données avec déséquilibre des classes.

fonction d'activation

#fundamentals

Fonction qui permet aux réseaux de neurones d'apprendre Relations nonlinear (complexes) entre les caractéristiques et l'étiquette.

Les fonctions d'activation les plus courantes sont les suivantes:

ReLU
Sigmoïde

Les tracés des fonctions d'activation ne sont jamais de simples lignes droites. Par exemple, le tracé de la fonction d'activation ReLU est le suivant : deux lignes droites:

Graphique cartésien de deux droites. La première ligne a une constante
valeur y de 0, le long de l'axe des x de -infini,0 à 0,-0.
La deuxième ligne commence à 0,0. Cette ligne a une pente de +1, donc
elle va de 0,0 à +infini,+infini.

Voici un graphique illustrant la fonction d'activation sigmoïde:

Graphique en courbes bidimensionnelles avec des valeurs x couvrant le domaine
-infini à +positive, tandis que les valeurs y couvrent la plage presque 0 à
presque 1. Lorsque x est égal à 0, y est égal à 0,5. La pente de la courbe est toujours
positive, avec la pente la plus élevée à 0,0,5 et une diminution progressive
pentes à mesure que la valeur absolue de x augmente.

Cliquez sur l'icône pour voir un exemple.

Dans un réseau de neurones, les fonctions d'activation manipulent somme pondérée de toutes les entrées d'une neurone. Pour calculer une somme pondérée, le neurone s'additionne les produits des valeurs et pondérations appropriées. Par exemple, supposons que une entrée pertinente pour un neurone comprend les éléments suivants:

valeur d'entrée	pondération d'entrée
2	-1,3
-1	0,6
3	0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supposons que le concepteur de ce réseau de neurones choisisse la fonction sigmoïde est la fonction d'activation. Dans ce cas, le neurone calcule sigmoïde de -2,0, soit environ 0,12. Par conséquent, le le neurone transmet 0,12 (au lieu de -2,0) à la couche suivante du réseau de neurones. La figure suivante illustre la partie pertinente du processus:

intelligence artificielle

#fundamentals

Programme ou modèle non humain capable d'exécuter des tâches complexes. Par exemple, un programme ou un modèle qui traduit du texte, ou un programme ou un modèle identifie les maladies à partir d'images radiologiques souffrent toutes deux d'intelligence artificielle.

Officiellement, le machine learning est un sous-domaine de l'intelligence artificielle et l'intelligence artificielle. Cependant, ces dernières années, certaines entreprises ont commencé à utiliser les termes intelligence artificielle et machine learning sont interchangeables.

AUC (aire sous la courbe ROC)

#fundamentals

Un nombre compris entre 0,0 et 1,0 représentant une modèle de classification binaire possibilité de séparer les classes positives des classes négatives. Plus l'AUC est proche de 1,0, meilleure est la capacité du modèle à séparer les uns des autres.

Par exemple, l'illustration suivante montre un modèle de classificateur qui sépare les classes positives (ovales verts) des classes négatives (rectangles violets). Ce modèle irréaliste parfaitement un AUC de 1,0:

Un axe gradué avec 8 exemples positifs d'un côté et
9 exemples négatifs de l'autre côté.

À l'inverse, l'illustration suivante montre les résultats pour un classificateur. qui a généré des résultats aléatoires. Ce modèle a un AUC de 0,5:

Un axe gradué avec 6 exemples positifs et 6 exemples négatifs.
La séquence d'exemples est
positive, négative
positif, négatif, positif, négatif, positif, négatif, positif
négative, positive, négative.

Oui, l'AUC du modèle précédent est de 0,5, et non de 0,0.

La plupart des modèles se situent entre les deux extrêmes. Par exemple, le paramètre permet de séparer quelque peu les positifs et les négatifs. a un AUC compris entre 0,5 et 1,0:

Un axe gradué avec 6 exemples positifs et 6 exemples négatifs.
La séquence d'exemples est négative, négative, négative, négative
positif, négatif, positif, positif, négatif, positif, positif,
positif.

L'AUC ignore toute valeur définie pour seuil de classification. Au lieu de cela, l'AUC prend en compte tous les seuils de classification possibles.

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

L'AUC représente l'aire sous une Courbe ROC. Par exemple : la courbe ROC pour obtenir un modèle qui sépare parfaitement les positifs à exclure se présente comme suit:

L'AUC correspond à la surface de la zone grise sur l'illustration précédente. Dans ce cas inhabituel, la zone correspond simplement à la longueur de la zone grise. (1,0) multiplié par la largeur de la zone grise (1,0). Donc, le produit de 1,0 et de 1,0 donnent un AUC exactement égal à 1,0, ce qui est la valeur la plus élevée Score AUC.

À l'inverse, la courbe ROC d'un classificateur qui ne peut pas séparer les classes est le suivant. L'aire de cette zone grise est de 0,5.

Une courbe ROC plus classique ressemble à peu près à ceci:

Il serait fastidieux de calculer manuellement l'aire sous cette courbe, C'est pourquoi un programme calcule généralement la plupart des valeurs AUC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

L'AUC correspond à la probabilité qu'un classificateur soit plus sûr qu'un exemple positif choisi aléatoirement est en réalité positif par rapport à un exemple l'exemple négatif choisi aléatoirement est positif.

B

rétropropagation

#fundamentals

L'algorithme qui implémente descente de gradient dans réseaux de neurones.

L'entraînement d'un réseau de neurones implique de nombreuses itérations du cycle en deux passages suivant:

Lors de la propagation avant, le système traite un lot de exemples pour générer une ou plusieurs prédictions. Le système compare chaque à chaque valeur d'étiquette. La différence entre la prédiction et la valeur de l'étiquette correspond à la perte pour cet exemple. Le système agrège les pertes pour tous les exemples afin de calculer le total pour le lot actuel.
Lors de la rétropropagation, le système réduit la perte de ajuster les pondérations de tous les neurones de toutes les couche(s) cachée(s).

Les réseaux de neurones contiennent souvent de nombreux neurones dans de nombreuses couches cachées. Chacun de ces neurones contribue à la perte globale de différentes manières. La rétropropagation détermine s'il faut augmenter ou diminuer les pondérations appliquées à certains neurones.

Le taux d'apprentissage est un multiplicateur qui contrôle degré auquel chaque rétrogradation augmente ou diminue chaque pondération. Un taux d'apprentissage élevé augmente ou diminue chaque pondération un faible taux d'apprentissage.

En termes de calcul, la rétropropagation implémente le règle de la chaîne. du calcul. Autrement dit, la rétropropagation calcule dérivée partielle de l'erreur avec pour chaque paramètre.

Il y a quelques années, les professionnels du ML devaient écrire du code pour implémenter la rétropropagation. Les API de ML modernes comme TensorFlow implémentent désormais la rétropropagation pour vous. Ouf !

lot

#fundamentals

Ensemble des exemples utilisés dans une formation itération. La taille de lot détermine le nombre d'exemples dans un par lot.

Reportez-vous à la section epoch pour plus d'informations sur la manière dont un lot est lié à par époque.

taille de lot

#fundamentals

Nombre d'exemples dans un lot. Par exemple, si la taille de lot est de 100, le modèle traite 100 exemples par itération

Voici des stratégies couramment utilisées pour la taille de lot:

Descente de gradient stochastique (SGD), où la taille de lot est de 1.
"Lot complet", dont la taille correspond au nombre d'exemples dans l'intégralité ensemble d'entraînement. Par exemple, si l'ensemble d'entraînement contient un million d'exemples, alors la taille de lot est d'un million exemples. Le traitement par lot complet est généralement une stratégie inefficace.
mini-lot dont la taille de lot est généralement comprise entre 10 et 1 000. Le mini-lot est généralement la stratégie la plus efficace.

biais (éthique/impartialité)

#fairness

#fundamentals

1. Stéréotypage, préjugé ou favoritisme envers certaines choses, des personnes, ou des groupes plutôt que d'autres. Ces biais peuvent affecter la collecte l'interprétation des données, la conception d'un système et la façon dont les utilisateurs interagissent avec un système. Les formes de ce type de préjugé comprennent:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports. Les formes de ce type de préjugé comprennent:

À ne pas confondre avec le biais utilisé dans les modèles de machine learning ou biais de prédiction.

biais (mathématiques) ou terme de biais

#fundamentals

Interception ou décalage par rapport à une origine. Le biais est un paramètre dans de machine learning, symbolisé par l'un ou l'autre suivantes:

B
W₀

Par exemple, b représente le biais dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Dans une ligne bidimensionnelle simple, le biais signifie simplement "ordonnée". Par exemple, dans l'illustration suivante, le biais de la ligne est de 2.

Graphique d'une ligne avec une pente de 0,5 et un biais (ordonnée à l'origine) de 2.

Il existe un biais, car tous les modèles ne partent pas de l'origine (0,0). Par exemple : supposons qu'un parc d'attractions coûte 2 euros et 0,5 euro par heure de séjour. Par conséquent, un modèle mappant le coût total a un biais de 2, car le coût le plus bas est de 2 euros.

Il ne faut pas confondre les préjugés avec les biais en matière d'éthique et d'équité. ou biais de prédiction.

classification binaire

#fundamentals

Type de tâche de classification qui prédit l'une des deux classes s'excluant mutuellement:

la classe positive ;
Classe négative

Par exemple, les deux modèles de machine learning suivants effectuent chacun Classification binaire:

Un modèle qui détermine si les e-mails sont spam (classe positive) ou non spam (classe négative).
Un modèle qui évalue les symptômes médicaux pour déterminer si une personne souffre d'une maladie particulière (la classe positive) ou n'en souffre pas ; (classe négative).

À comparer à la classification à classes multiples.

Voir aussi Régression logistique et seuil de classification.

le binning

#fundamentals

Convertir une seule caractéristique en plusieurs caractéristiques binaires appelés buckets ou bins, généralement en fonction d'une plage de valeurs. La caractéristique hachée est généralement caractéristique continue.

Par exemple, au lieu de représenter la température comme une à virgule flottante continue, vous pouvez hacher des plages de températures en buckets discrets, tels que:

<= 10 degrés Celsius correspond au "froid" bucket.
Entre 11 et 24 degrés Celsius correspond à "tempéré" bucket.
Une température supérieure ou égale à 25 degrés Celsius correspond à la température "chaude". bucket.

Le modèle traitera de manière identique chaque valeur d'un même bucket. Pour Par exemple, les valeurs 13 et 22 se trouvent toutes deux dans le bucket tempéré. Par conséquent, le traite les deux valeurs de manière identique.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Si vous représentez la température comme une caractéristique continue, le modèle traite la température comme une seule caractéristique. Si vous représentez la température comme trois buckets, le modèle traite chaque bucket comme une caractéristique distincte. Autrement dit, un modèle peut apprendre les relations distinctes de chaque bucket étiquette. Par exemple, un modèle de régression linéaire peut apprendre des pondérations distinctes pour chaque bucket.

Augmenter le nombre de buckets rend votre modèle plus complexe ce qui augmente le nombre de relations que le modèle doit apprendre. Par exemple, les buckets froids, tempérés et tièdes sont essentiellement trois caractéristiques distinctes pour l'entraînement de votre modèle. Si vous décidez d'ajouter deux autres buckets (par exemple, "gel" et "à chaud") nous devons maintenant entraîner le modèle sur cinq caractéristiques distinctes.

Comment savoir combien de buckets créer ou quelles plages doit être ? Les réponses nécessitent généralement un certain nombre et l'expérimentation.

C

données catégorielles

#fundamentals

Caractéristiques ayant un ensemble spécifique de valeurs possibles. Par exemple : considérez une caractéristique catégorielle nommée traffic-light-state, qui ne peut ont l'une des trois valeurs suivantes:

red
yellow
green

En représentant traffic-light-state comme une caractéristique catégorielle, un modèle peut apprendre impacts différents de red, green et yellow sur le comportement des conducteurs.

Les caractéristiques catégorielles sont parfois appelées caractéristiques discrètes.

À comparer aux données numériques.

classe

#fundamentals

Catégorie à laquelle un libellé peut appartenir. Exemple :

Dans un modèle de classification binaire qui détecte comme spam, les deux classes peuvent être spam et non spam.
Dans un modèle de classification à classes multiples identifiant la race des chiens, les classes peuvent être caniche, beagle, carlin, et ainsi de suite.

Un modèle de classification prédit une classe. En revanche, un modèle de régression prédit un nombre et non une classe.

modèle de classification

#fundamentals

Un modèle dont la prédiction est une classe. Voici des exemples de tous les modèles de classification:

Un modèle qui prédit la langue d'une phrase d'entrée (le français ? Espagnol ? italien ?).
Un modèle qui prédit les espèces d'arbres Chêne ? Baobab?).
Un modèle qui prédit la classe positive ou négative d'une valeur donnée ou d'une maladie.

En revanche, les modèles de régression prédisent des nombres plutôt que des classes.

Voici deux types courants de modèles de classification:

classification binaire
classification à classes multiples

seuil de classification

#fundamentals

Dans une classification binaire, entre 0 et 1, qui convertit la sortie brute d'une modèle de régression logistique ; en une prédiction de la classe positive ou la classe négative. Notez que le seuil de classification est une valeur choisie par un humain, et non une valeur choisie par l'entraînement du modèle.

Un modèle de régression logistique génère une valeur brute comprise entre 0 et 1. Ensuite :

Si cette valeur brute est supérieure au seuil de classification, alors la classe positive est prédite.
Si cette valeur brute est inférieure au seuil de classification, alors la classe négative est prédite.

Par exemple, supposons que le seuil de classification soit de 0,8. Si la valeur brute égale à 0,9, le modèle prédit la classe positive. Si la valeur brute est 0,7, le modèle prédit alors la classe négative.

Le choix du seuil de classification a une forte influence sur le nombre faux positifs et faux négatifs.

Cliquez sur l'icône pour afficher des notes supplémentaires.

À mesure que les modèles ou les ensembles de données évoluent, les ingénieurs modifient parfois un seuil de classification. Lorsque le seuil de classification change, les prédictions de classe positive peuvent devenir soudainement des classes négatives et inversement.

Prenons l'exemple d'un modèle de prédiction des maladies par classification binaire. Supposons que lorsque le système s'exécute au cours de la première année:

La valeur brute pour un patient particulier est de 0,95.
Le seuil de classification est de 0,94.

Par conséquent, le système diagnostique la classe positive. (Le patient halète, "Oh non ! Je suis malade !")

Un an plus tard, peut-être que les valeurs se présentent maintenant comme suit:

La valeur brute pour le même patient reste à 0,95.
Le seuil de classification passe à 0,97.

Par conséquent, le système reclassifie à présent ce patient dans la classe négative. ("Bonne journée ! Je ne suis pas malade.") Même patient. Autre diagnostic.

ensemble de données avec déséquilibre des classes

#fundamentals

Jeu de données pour un problème de classification dans lequel le nombre total des étiquettes de chaque classe diffère considérablement. Prenons l'exemple d'un ensemble de données de classification binaire dont deux étiquettes sont divisés comme suit:

1 000 000 étiquettes négatives
10 étiquettes positives

Le ratio entre les étiquettes négatives et positives est de 100 000 pour 1. est un ensemble de données avec déséquilibre des classes.

En revanche, l'ensemble de données suivant n'est pas avec un déséquilibre des classes, car le le rapport entre les étiquettes négatives et les étiquettes positives est relativement proche de 1:

517 étiquettes à exclure
483 étiquettes positives

Les ensembles de données à classes multiples peuvent également présenter un déséquilibre entre les classes. Par exemple : un ensemble de données de classification à classes multiples présente également un déséquilibre entre classes, car une étiquette contient beaucoup plus d'exemples que les deux autres:

1 000 000 étiquettes avec la classe "green"
200 étiquettes avec la classe "violet"
350 libellés avec la classe "orange"

Voir aussi entropie, classe de majorité, et la classe minoritaire.

rognage

#fundamentals

Une technique de gestion des valeurs aberrantes : l'un des éléments suivants, ou les deux:

Réduire les valeurs de caractéristiques supérieures à une valeur maximale jusqu'à ce seuil maximal.
Augmenter les valeurs des caractéristiques inférieures à un seuil minimal jusqu'à cette seuil minimal.

Par exemple, supposons que moins de 0,5% des valeurs d'une caractéristique particulière tombent en dehors de la plage 40-60. Dans ce cas, vous pouvez procéder comme suit:

Rogner toutes les valeurs supérieures à 60 (seuil maximal) pour qu'elles soient exactement égales à 60.
Rogner toutes les valeurs inférieures à 40 (seuil minimal) pour obtenir exactement 40.

Les anomalies peuvent endommager les modèles et entraîner parfois des pondérations pendant l'entraînement. Certaines valeurs aberrantes peuvent aussi considérablement gâcher des métriques telles que la précision. Le rognage est une technique courante pour limiter les dommages.

Force le bornement de gradient des valeurs de gradient dans une plage désignée pendant l'entraînement.

matrice de confusion

#fundamentals

Table NxN qui résume le nombre de prédictions correctes et incorrectes généré par un modèle de classification. Prenons l'exemple de la matrice de confusion suivante, modèle de classification binaire:

	Tumeur (prédiction)	Pas de tumeur (prédiction)
Tumeur (vérité terrain)	18 (VP)	1 (FN)
Non-tumeur (vérité terrain)	6 (FP)	452 (VN)

La matrice de confusion précédente montre les éléments suivants:

Sur les 19 prédictions pour lesquelles la vérité terrain était "Tumor", le modèle a classé 18 correctement et 1 de manière incorrecte.
Sur les 458 prédictions pour lesquelles la vérité terrain ne correspondait pas à une tumeur, le modèle les catégories 452 et 6 sont incorrectes.

Matrice de confusion pour une classification à classes multiples peut vous aider à identifier des modèles d'erreurs. Prenons l'exemple de la matrice de confusion suivante pour un modèle à 3 classes modèle de classification à classes multiples qui classe trois types d'iris différents (Virginica, Versicolor et Setosa). Lorsque la vérité terrain était Virginica, la matrice de confusion montre que le modèle était beaucoup plus susceptible de se tromper pour prédire des couleurs Versicolor plutôt que Setosa:

	Setosa (prédiction)	Versicolor (prédiction)	Virginie (prédiction)
Setosa (vérité terrain)	88	12	0
Versicolor (vérité terrain)	6	141	7
Virginie (vérité terrain)	2	27	109

Autre exemple, une matrice de confusion peut révéler qu'un modèle entraîné à reconnaître les chiffres manuscrits tend à prédire à tort 9 au lieu de 4, ou prédit à tort 1 au lieu de 7.

Les matrices de confusion contiennent suffisamment d'informations pour calculer diverses métriques de performances, y compris la précision ; et le rappel.

fonctionnalité continue

#fundamentals

Caractéristique à virgule flottante avec une plage infinie de possibilités comme la température ou le poids.

À comparer à la caractéristique discrète.

convergence

#fundamentals

État atteint lorsque les valeurs de perte changent très peu ou pas du tout à chaque itération. Par exemple : La courbe de perte suggère une convergence à environ 700 itérations:

Graphique cartésien. L'axe des abscisses correspond à la perte. L'axe Y correspond au nombre d'entraînements
itérations. La perte est très élevée
lors des premières itérations, mais
diminue fortement. Après environ 100 itérations, la perte est toujours
décroissant mais beaucoup
plus progressivement. Après environ 700 itérations,
reste stable.

Un modèle converge lorsqu'un entraînement supplémentaire n'est pas pour améliorer le modèle.

Dans le deep learning, les valeurs de perte restent parfois constantes ou presque pendant de nombreuses itérations avant finalement redescendre. Sur une longue période de valeurs de perte constantes, vous pouvez temporairement avoir une fausse impression de convergence.

Voir aussi arrêt prématuré.

D

DataFrame

#fundamentals

Type de données pandas populaire, qui permet de représenter ensembles de données en mémoire.

Un DataFrame est analogue à un tableau ou à une feuille de calcul. Chaque colonne de un DataFrame a un nom (un en-tête), et chaque ligne est identifiée par un numéro unique.

Chaque colonne d'un DataFrame est structurée comme un tableau 2D, sauf que chaque colonne peut se voir attribuer son propre type de données.

Voir aussi la version officielle Documentation de référence sur pandas.DataFrame .

ensemble de données

#fundamentals

Ensemble de données brutes, généralement (mais pas exclusivement) organisées de façon à des formats suivants:

une feuille de calcul
Un fichier au format CSV (valeurs séparées par des virgules)

modèle deep learning

#fundamentals

Un réseau de neurones contenant plusieurs couche cachée.

Un modèle profond est également appelé réseau de neurones profond.

À comparer au modèle large.

caractéristique dense

#fundamentals

caractéristique dans laquelle la plupart ou la totalité des valeurs sont différentes de zéro, généralement un Tensor de valeurs à virgule flottante. Par exemple : Le Tensor à 10 éléments est dense, car neuf de ses valeurs sont différentes de zéro:

À comparer à la caractéristique creuse.

profondeur

#fundamentals

Somme des éléments suivants dans un réseau de neurones:

le nombre de couches cachées ;
le nombre de couches de sortie, qui est généralement de 1
le nombre de couches d'intégration ;

Par exemple, un réseau de neurones avec cinq couches cachées et une couche de sortie a une profondeur de 6.

Notez que la couche d'entrée ne influencer la profondeur.

caractéristique discrète

#fundamentals

Caractéristique avec un ensemble limité de valeurs possibles. Par exemple : une caractéristique dont les valeurs peuvent uniquement être animal, légume ou minéral est une caractéristique discrète (ou catégorielle).

À comparer à la caractéristique continue.

dynamic

#fundamentals

Quelque chose fait fréquemment ou continuellement. Les termes dynamique et en ligne sont des synonymes en machine learning. Voici des utilisations courantes de dynamique et en ligne dans apprentissage:

Un modèle dynamique (ou modèle en ligne) est un modèle qui sont réentraînés fréquemment ou en continu.
L'entraînement dynamique (ou l'entraînement en ligne) est le processus d'entraînement. fréquemment ou en continu.
L'inférence dynamique (ou inférence en ligne) est le processus générer des prédictions à la demande.

modèle dynamique

#fundamentals

Un modèle fréquemment (peut-être continu) réentraîné. Un modèle dynamique apprend tout au long de sa vie que s'adapte constamment à l'évolution des données. Un modèle dynamique est également appelé modèle en ligne.

À comparer au modèle statique.

E

arrêt prématuré

#fundamentals

Méthode de régularisation impliquant de terminer entraînement avant la fin de la perte d'entraînement diminue. Lors de l'arrêt prématuré, vous arrêtez volontairement l'entraînement du modèle Lorsque la perte d'un ensemble de données de validation commence à increase; c'est-à-dire, quand les performances en généralisation se dégradent.

Cliquez sur l'icône pour afficher des notes supplémentaires.

L'arrêt prématuré peut sembler paradoxal. Après tout, demander au modèle de s'arrêter entraînement alors que la perte continue de baisser peut donner l’impression à un cuisinier de arrêter de cuire avant que le dessert ne soit complètement fourré. Toutefois, l'entraînement d'un modèle trop long peut entraîner un surapprentissage. Autrement dit, si vous entraîner un modèle trop longtemps, il risque de s'adapter aux données d'entraînement le modèle n'émet pas de bonnes prédictions avec les nouveaux exemples.

couche de représentation vectorielle continue

#language

#fundamentals

Une couche cachée spéciale qui s'entraîne sur une une caractéristique catégorielle de grande dimension pour nous apprendrons progressivement un vecteur de représentation vectorielle continue de dimension inférieure. Une la couche de représentation vectorielle continue permet à un réseau de neurones d'entraîner plus efficace que l'entraînement sur la caractéristique catégorielle de grande dimension.

Par exemple, Google Earth accueille actuellement environ 73 000 espèces d'arbres. Supposons espèce d'arbre est une caractéristique de votre modèle. Par conséquent, la couche d'entrée inclut un vecteur one-hot 73 000 les éléments de long. Par exemple, baobab serait peut-être représenté comme ceci:

Tableau de 73 000 éléments. Les 6 232 premiers éléments contiennent la valeur
0. L'élément suivant contient la valeur 1. Les 66 767 éléments finaux
la valeur zéro.

Un tableau de 73 000 éléments est très long. Si vous n'ajoutez pas de couche de représentation vectorielle continue au modèle, l'entraînement prend beaucoup de temps, car en multipliant 72 999 zéros. Vous choisissez peut-être la couche de représentation vectorielle continue 12 dimensions. La couche de représentation vectorielle continue va donc apprendre progressivement un nouveau vecteur de représentation vectorielle continue pour chaque espèce d'arbre.

Dans certains cas, le hachage constitue une alternative raisonnable. à une couche de représentation vectorielle continue.

epoch

#fundamentals

Un passage d'entraînement complet sur l'intégralité de l'ensemble d'entraînement de sorte que chaque exemple ait été traité une fois.

Une époque représente N/taille de lot itérations d'entraînement, où N est le le nombre total d'exemples.

Par exemple, supposons les éléments suivants:

L'ensemble de données comprend 1 000 exemples.
La taille de lot est de 50 exemples.

Par conséquent, une seule époque nécessite 20 itérations:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

exemple

#fundamentals

Les valeurs d'une ligne de features et éventuellement un libellé. Exemples dans l'apprentissage supervisé se divise en deux catégories générales:

Un exemple étiqueté comprend une ou plusieurs caractéristiques et un libellé. Les exemples étiquetés sont utilisés pendant l'entraînement.
Un exemple sans étiquette comprend un ou plusieurs plus de caractéristiques, mais pas d'étiquette. Les exemples sans étiquette sont utilisés pendant l'inférence.

Par exemple, supposons que vous entraînez un modèle pour déterminer l'influence sur les conditions météorologiques sur les résultats des élèves. Voici trois exemples étiquetés:

Fonctionnalités			Libellé
Température	Humidité	Pression	Résultat du test
15	47	998	Bonne
19	34	1020	Excellente
18	92	1012	Médiocre

Voici trois exemples sans étiquette:

Température	Humidité	Pression
12	62	1014
21	47	1017
19	41	1021

La ligne d'un ensemble de données est généralement la source brute d'un exemple. C'est-à-dire qu'un exemple se compose généralement d'un sous-ensemble des colonnes dans le jeu de données. De plus, les caractéristiques d'un exemple peuvent aussi inclure : caractéristiques synthétiques telles que croisements de caractéristiques.

F

faux négatif (FN)

#fundamentals

Exemple dans lequel le modèle prédit à tort le classe négative. Par exemple, le modèle prédit qu'un e-mail donné n'est pas du spam. (la classe négative), alors que cet e-mail est en réalité du spam.

faux positif (FP) (false positive (FP))

#fundamentals

Exemple dans lequel le modèle prédit à tort le classe positive. Par exemple, le modèle prédit qu'un e-mail donné est considéré comme du spam (classe positive), mais que l'e-mail n'est en réalité pas un spam.

taux de faux positifs (TFP)

#fundamentals

Proportion d'exemples négatifs réels pour lesquels le modèle se trompe a prédit la classe positive. La formule suivante calcule la valeur taux de positifs:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Le taux de faux positifs correspond à l'axe des abscisses d'une courbe ROC.

fonctionnalité

#fundamentals

Variable d'entrée d'un modèle de machine learning. Exemple comprend une ou plusieurs caractéristiques. Par exemple, supposons que vous entraîniez un pour déterminer l'influence des conditions météorologiques sur les résultats des élèves aux tests. Le tableau suivant présente trois exemples, chacun contenant trois caractéristiques et une étiquette:

Fonctionnalités			Libellé
Température	Humidité	Pression	Résultat du test
15	47	998	92
19	34	1020	84
18	92	1012	87

À comparer au libellé.

croisement de caractéristiques

#fundamentals

Caractéristique synthétique formée par un "croisement" catégorielles ou divisées.

Prenons l'exemple d'une "prévision de l'humeur" qui représente température dans l'un des quatre buckets suivants:

freezing
chilly
temperate
warm

Elle représente la vitesse du vent dans l'un des trois segments suivants:

still
light
windy

Sans croisements de caractéristiques, le modèle linéaire est entraîné indépendamment sur chacune des qui précède sept buckets différents. Le modèle est entraîné, par exemple, freezing indépendamment de l'entraînement windy

Vous pouvez aussi créer un croisement de caractéristiques de température la vitesse du vent. Cette caractéristique synthétique aurait les 12 possibilités suivantes : :

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grâce aux croisements de caractéristiques, le modèle peut apprendre les différences d'humeur entre un jour de freezing-windy et un jour de freezing-still.

Si vous créez une caractéristique synthétique à partir de deux caractéristiques ayant chacune de nombreuses d'ensembles différents, le croisement de caractéristiques résultant de combinaisons possibles. Par exemple, si une caractéristique comporte 1 000 buckets l'autre comporte 2 000 buckets, le croisement de caractéristiques obtenu comporte 2 000 000 Cloud Storage.

Officiellement, une croix est une Produit cartésien.

Les croisements de caractéristiques sont principalement utilisés avec les modèles linéaires et sont rarement utilisés avec les réseaux de neurones.

l'ingénierie des caractéristiques.

#fundamentals

#TensorFlow

Un processus qui comprend les étapes suivantes:

Déterminer les fonctionnalités qui pourraient être utiles lors de l'entraînement d'un modèle.
Conversion des données brutes de l'ensemble de données en versions efficaces ces caractéristiques.

Par exemple, vous pouvez déterminer que temperature peut être utile . Vous pouvez ensuite tester le binning afin d'optimiser ce que le modèle peut apprendre à partir des différentes plages temperature.

L'ingénierie des caractéristiques est parfois appelée extraction de caractéristiques ou featurization.

Cliquez sur l'icône pour obtenir des notes supplémentaires sur TensorFlow.

Dans TensorFlow, l'ingénierie des caractéristiques implique souvent de convertir un fichier journal brut les entrées des tampons de protocole tf.Example. Voir aussi tf.Transform.

ensemble de caractéristiques

#fundamentals

Groupe des caractéristiques que votre modèle de machine learning pour l'entraînement du modèle. Par exemple, le code postal, la taille et l'état du bien peuvent comprend un ensemble de caractéristiques simple pour un modèle qui prédit le prix des logements.

vecteur de caractéristiques

#fundamentals

Tableau de valeurs de caractéristiques comprenant un exemple. L'entrée du vecteur de caractéristiques entraînement et pendant l'inférence. Par exemple, le vecteur de caractéristiques d'un modèle comportant deux caractéristiques distinctes pourrait être:

[0.92, 0.56]

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.
La couche d'entrée contient deux nœuds, l'un contenant la valeur
0,92 et l'autre contenant la valeur 0,56.

Chaque exemple fournit des valeurs différentes pour le vecteur de caractéristiques. pour l'exemple suivant, le vecteur de caractéristiques pourrait ressembler à ceci:

[0.73, 0.49]

L'ingénierie des caractéristiques détermine comment représenter dans le vecteur de caractéristiques. Par exemple, une caractéristique catégorielle binaire avec cinq valeurs possibles peuvent être représentées par encodage one-hot. Dans ce cas, la partie le vecteur de caractéristiques pour un exemple particulier se compose de quatre zéros et un seul 1.0 en troisième position, comme suit:

[0.0, 0.0, 1.0, 0.0, 0.0]

Autre exemple : supposons que votre modèle se compose de trois caractéristiques :

une caractéristique catégorielle binaire avec cinq valeurs possibles représentées par encodage one-hot Exemple: [0.0, 1.0, 0.0, 0.0, 0.0]
une autre caractéristique catégorielle binaire avec trois valeurs possibles représentées avec encodage one-hot, Exemple: [0.0, 0.0, 1.0]
une caractéristique à virgule flottante, Exemple: 8.3.

Dans ce cas, le vecteur de caractéristiques de chaque exemple serait représenté par neuf valeurs. Compte tenu des exemples de valeurs de la liste précédente, le vecteur de caractéristiques serait:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

boucle de rétroaction

#fundamentals

En machine learning, une situation dans laquelle les prédictions d'un modèle influencent pour le même modèle ou un autre modèle. Par exemple, un modèle recommande des films influencer les films que les gens regardent, qui ensuite influencent les modèles de recommandation de films suivants.

G

généralisation

#fundamentals

La capacité d'un modèle à effectuer des prédictions correctes sur de nouvelles des données inconnues. Un modèle qui peut généraliser est l'inverse d'un modèle en surapprentissage.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Vous entraînez un modèle avec les exemples de l'ensemble d'entraînement. Par conséquent, apprend les particularités des données dans l'ensemble d'entraînement. Généralisation demande essentiellement si votre modèle peut faire de bonnes prédictions à partir d'exemples qui ne figurent pas dans l'ensemble d'entraînement.

Pour encourager la généralisation, La régularisation permet d'entraîner un modèle moins exactement aux particularités des données de l'ensemble d'entraînement.

courbe de généralisation

#fundamentals

Graphique représentant la perte d'entraînement et perte de validation en tant que fonction du nombre de itérations.

Une courbe de généralisation peut vous aider à détecter surapprentissage. Par exemple : la courbe de généralisation suggère un surapprentissage, car la perte de validation devient finalement significativement plus élevée que la perte d'entraînement.

Un graphe cartésien dans lequel l'axe des y est étiqueté "perte" et l'axe des x
sont étiquetées "itérations". Deux tracés apparaissent. Un tracé montre le
la perte d'entraînement, et l'autre
indique la perte de validation.
Les deux tracés commencent de la même manière, mais la perte d'entraînement finit par
baisse bien en dessous
de la perte de validation.

descente de gradient

#fundamentals

Technique mathématique permettant de minimiser la perte. La descente de gradient s'ajuste de façon itérative. les pondérations et les biais, trouver progressivement la meilleure combinaison pour minimiser la perte.

La descente de gradient est beaucoup plus ancienne que le machine learning.

vérité terrain

#fundamentals

La réalité.

Ce qui s'est passé réellement.

Prenons l'exemple d'une classification binaire. qui prédit si un étudiant en première année d'université obtiendra son diplôme dans les six ans. Pour ce modèle, la vérité terrain est de savoir si pas qu’un étudiant ait réellement obtenu son diplôme dans les six ans.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Nous évaluons la qualité du modèle par rapport à la vérité terrain. Cependant, la vérité terrain n'est pas toujours complète, bien, véridique. Prenons l'exemple du Voici quelques exemples d'imperfections potentielles dans la vérité terrain:

Dans l'exemple de la remise de diplôme, sommes-nous certain que l'obtention du diplôme les enregistrements de chaque élève sont-ils toujours corrects ? L'université une tenue de dossiers parfaite ?
Supposons que l'étiquette soit une valeur à virgule flottante mesurée par des instruments (par exemple, les baromètres). Comment pouvons-nous être sûrs que chaque instrument est calibrée de manière identique ou que chaque mesure a été effectuée dans le même cadre les circonstances ?
Si l'étiquette est une question d'opinion humaine, comment être sûr que chaque évaluateur humain évalue les événements de la de la même manière ? Pour améliorer la cohérence, des évaluateurs manuels experts peuvent parfois interviennent.

H

couche cachée

#fundamentals

Couche d'un réseau de neurones entre les couche d'entrée (les caractéristiques) et couche de sortie (la prédiction). Chaque couche cachée se compose d'un ou de plusieurs neurones. Par exemple, le réseau de neurones suivant contient deux couches cachées : le premier avec trois neurones et le second avec deux.

Un réseau de neurones profond contient plusieurs couche cachée. Par exemple, l'illustration précédente montre un schéma neuronal profond car il contient deux couches cachées.

hyperparamètre

#fundamentals

Les variables que vous ou un service de réglage lors des exécutions successives de l'entraînement d'un modèle. Par exemple : Le taux d'apprentissage est un hyperparamètre. Vous pourriez définir le taux d'apprentissage sur 0,01 avant une session d'entraînement. Si vous et que 0,01 est trop élevé, vous pouvez définir la valeur d'apprentissage à 0,003 pour la prochaine session de formation.

En revanche, les paramètres sont les différents pondérations et biais que le modèle apprend pendant l'entraînement.

I

variables indépendantes et identiquement distribuées (i.i.d)

#fundamentals

Données tirées d'une distribution qui ne change pas, et où chaque valeur ne dépend pas des valeurs qui ont été dessinées précédemment. Une variable iid. est le gaz idéal de machine learning d'apprentissage : il s'agit d'une construction mathématique utile qui n'a quasiment jamais été trouvée dans le monde réel. Par exemple, la répartition des visiteurs d'une page Web peuvent être des variables iid. sur une courte période de temps ; c'est-à-dire que la distribution pendant cette courte période, alors que la visite d'une personne indépendamment de la visite d'un autre utilisateur. Cependant, si vous étendez cette période, des différences saisonnières au niveau des visiteurs de la page Web peuvent apparaître.

Voir aussi nonstationarité.

inférence

#fundamentals

Dans le machine learning, le processus de réalisation de prédictions Application d'un modèle entraîné à des exemples sans étiquette

En statistique, l'inférence a une signification légèrement différente. Consultez le <ph type="x-smartling-placeholder"></ph> Article Wikipédia sur l'inférence statistique.

couche d'entrée

#fundamentals

La couche d'un réseau de neurones contient le vecteur de caractéristiques. Autrement dit, la couche d'entrée fournit des exemples pour l'entraînement ou inférence. Par exemple, la couche d'entrée dans l'exemple Le réseau de neurones présente deux caractéristiques:

Quatre couches: une couche d'entrée, deux couches cachées et une couche de sortie.

interprétabilité

#fundamentals

Capacité à expliquer ou à présenter le raisonnement d'un modèle de ML des termes compréhensibles pour un humain.

La plupart des modèles de régression linéaire, par exemple, sont fortement et interprétables. Il vous suffit d'examiner les pondérations entraînées pour chaque feature.) Les forêts de décision sont également hautement interprétables. Cependant, certains modèles nécessitent une visualisation sophistiquée pour devenir interprétable.

Vous pouvez utiliser Learning Interpretability Tool (LIT) pour interpréter des modèles de ML.

itération

#fundamentals

Mise à jour unique des paramètres d'un modèle : ses pondérations et biais, formation. La taille de lot détermine le nombre d'exemples traités par le modèle au cours d'une seule itération. Par exemple, si la taille de lot est de 20, le modèle traite alors 20 exemples avant ajuster les paramètres.

Lors de l'entraînement d'un réseau de neurones, une seule itération implique les deux passes suivantes:

Une propagation avant pour évaluer la perte d'un seul lot.
Une rétropropagation (rétropropagation) pour ajuster le paramètre les paramètres du modèle en fonction de la perte et du taux d'apprentissage.

L

Régularisation L₀

#fundamentals

Type de régularisation qui pénalise le nombre total de pondérations non nulles ; dans un modèle. Par exemple, un modèle avec 11 pondérations non nulles serait pénalisé plus cher qu'un modèle similaire ayant 10 paires de pondérations non nulles.

La régularisation L₀ est parfois appelée régularisation L0.

Cliquez sur l'icône pour afficher des notes supplémentaires.

La régularisation L₀ est généralement peu pratique pour les grands modèles, car La régularisation L₀ transforme l'entraînement en convexe problème d'optimisation.

perte L₁

#fundamentals

Une fonction de perte qui calcule la valeur absolue de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici la calcul de la perte L₁ pour un lot de cinq exemples:

Valeur réelle de l'exemple	Valeur prédite du modèle	Valeur absolue de la valeur delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perte L₁

La perte L₁ est moins sensible aux anomalies. que la perte L₂.

L'erreur absolue moyenne correspond à la moyenne perte L₁ par exemple.

Cliquez sur l'icône pour afficher les calculs mathématiques.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Régularisation L₁

#fundamentals

Type de régularisation qui pénalise pondérations proportionnellement à la somme de la valeur absolue de les pondérations. La régularisation L₁ permet de pondérer des données non pertinentes ou les caractéristiques peu pertinentes à exactement 0. Une fonctionnalité avec une pondération de 0 est effectivement retirée du modèle.

À comparer à la régularisation L₂.

perte L₂

#fundamentals

Une fonction de perte permettant de calculer le carré de la différence entre les valeurs d'étiquette réelles et les valeurs prédites par un modèle. Par exemple, voici la calcul de la perte L₂ pour un lot de cinq exemples:

Valeur réelle de l'exemple	Valeur prédite du modèle	Carré d'un delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perte L₂

En raison de la mise au carré, la perte L₂ amplifie l'influence de anomalies. En d'autres termes, la perte L₂ réagit plus fortement aux mauvaises prédictions Perte L₁. Par exemple, la perte L₁ pour le lot précédent correspondrait à 8 au lieu de 16. Notez qu'un seul les anomalies représentent 9 sur 16.

Les modèles de régression utilisent généralement la perte L₂. que la fonction de perte.

L'erreur quadratique moyenne correspond à la moyenne perte L₂ par exemple. La perte quadratique est un autre nom de la perte L₂.

Cliquez sur l'icône pour afficher les calculs mathématiques.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

où :

$n$ est le nombre d'exemples.
$y$ est la valeur réelle de l'étiquette.
$\hat{y}$ est la valeur que le modèle prédit pour $y$.

Régularisation L₂

#fundamentals

Type de régularisation qui pénalise pondérations proportionnellement à la somme des carrés des pondérations. La régularisation L₂ permet de générer les pondérations des anomalies (c'est-à-dire avec des valeurs positives ou négatives élevées) plus proches de 0, mais pas tout à fait égales à 0. Les caractéristiques dont les valeurs sont très proches de 0 restent dans le modèle mais n'influencent pas beaucoup la prédiction du modèle.

La régularisation L₂ améliore toujours la généralisation modèles linéaires.

À comparer à la régularisation L₁.

étiquette

#fundamentals

En machine learning supervisé, "réponds" ou "résultat" partie d'un exemple.

Chaque exemple étiqueté se compose d'un ou de plusieurs caractéristiques et une étiquette. Par exemple, dans un dossier de spam l'ensemble de données de détection, l'étiquette serait probablement "spam" ou "non-spam". Dans un ensemble de données sur les précipitations, l'étiquette peut être la quantité qui est tombée pendant une certaine période.

exemple étiqueté

#fundamentals

Exemple contenant une ou plusieurs caractéristiques et une étiquette. Par exemple, le tableau suivant présente trois exemples étiquetés issus d'un modèle d'évaluation des maisons, chacun présentant trois caractéristiques et une étiquette:

Nombre de chambres	Nombre de salles de bain	Âge du foyer	Prix maison (libellé)
3	2	15	345 000 $
2	1	72	179 000 $
4	2	34	392 000 $

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions exemples sans étiquette.

Comparer l'exemple étiqueté et les exemples sans étiquette.

lambda

#fundamentals

Synonyme de taux de régularisation.

Lambda est un terme complexe. Ici, nous nous concentrons définition dans le cadre de la régularisation.

cachée)

#fundamentals

Ensemble de neurones dans un réseau de neurones. Trois types courants de couches sont les suivantes:

La couche d'entrée, qui fournit les valeurs de toutes les fonctionnalités.
Une ou plusieurs couches cachées, qui permettent de retrouver des relations non linéaires entre les caractéristiques et l'étiquette.
La couche de sortie, qui fournit la prédiction.

Par exemple, l'illustration suivante montre un réseau de neurones avec une couche d'entrée, deux couches cachées et une couche de sortie:

Un réseau de neurones avec une couche d'entrée, deux couches cachées et une
couche de sortie. La couche d'entrée se compose de deux caractéristiques. Le premier
La couche cachée est composée de trois neurones et la seconde couche cachée
est constituée de deux neurones. La couche de sortie se compose d'un seul nœud.

Dans TensorFlow, les couches sont également des fonctions Python qui prennent Tensors et options de configuration en tant qu'entrées et et générer d'autres Tensors en sortie.

taux d'apprentissage

#fundamentals

Nombre à virgule flottante qui indique la descente de gradient à quel point l'algorithme doit ajuster les pondérations et les biais itération. Par exemple, un taux d'apprentissage de 0,3 ajuster les pondérations et les biais trois fois plus efficacement qu'un taux d'apprentissage de 0,1.

Le taux d'apprentissage est un hyperparamètre clé. Si vous définissez le taux d'apprentissage est trop faible, l'entraînement prendra trop de temps. Si si vous définissez un taux d'apprentissage trop élevé, la descente de gradient rencontre souvent des difficultés et atteindre la convergence.

Cliquez sur l'icône pour obtenir une explication mathématique.

À chaque itération, descente de gradient multiplie par l'algorithme du taux d'apprentissage par le gradient. Le produit résultant est appelé pas de dégradé.

linear

#fundamentals

Relation entre deux ou plusieurs variables qui peuvent être représentées uniquement par l'addition et la multiplication.

Le tracé d'une relation linéaire est une droite.

À comparer à l'nonlinear.

modèle linéaire

#fundamentals

Un modèle qui attribue une pondération par fonctionnalité pour effectuer des prédictions. (Les modèles linéaires intègrent également un biais.) En revanche, la relation entre les caractéristiques et les prédictions dans les modèles profonds ; est généralement nonlinear.

Les modèles linéaires sont généralement plus faciles à entraîner et plus interprétables que les modèles profonds. Toutefois, les modèles profonds peuvent apprendre des relations complexes entre caractéristiques.

Régression linéaire et La régression logistique est deux types de modèles linéaires.

Cliquez sur l'icône pour afficher le calcul.

Un modèle linéaire suit la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

où: <ph type="x-smartling-placeholder">

y est la prédiction brute. (Dans certains types de modèles linéaires, la prédiction brute sera modifiée davantage. Par exemple, consultez régression logistique).
"b" représente le biais.
w est une pondération, donc w₁ est la pondération de la première caractéristique, w₂ est la pondération de la la deuxième caractéristique, etc.
x est une caractéristique. x₁ est donc valeur de la première caractéristique, x₂ est la valeur de la deuxième caractéristique, et ainsi de suite.

Par exemple, supposons qu'un modèle linéaire de trois caractéristiques apprenne ce qui suit : biais et pondérations: <ph type="x-smartling-placeholder">

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Ainsi, pour trois caractéristiques (x₁, x₂, et x₃), le modèle linéaire utilise l'équation suivante : pour générer chaque prédiction:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supposons qu'un exemple particulier contienne les valeurs suivantes:

x₁ = 4
x₂ = -10
x₃ = 5

En intégrant ces valeurs dans la formule, vous obtenez une prédiction pour l'exemple suivant:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Les modèles linéaires incluent non seulement des modèles qui n'utilisent qu'une équation linéaire pour faire des prédictions, mais aussi obtenir un ensemble plus large de modèles s'appuyant sur une équation linéaire comme un composant de la formule qui fait des prédictions. Par exemple, la régression logistique post-traite les valeurs prédiction (y') pour produire une valeur de prédiction finale comprise entre 0 et 1, exclusivement.

régression linéaire

#fundamentals

Type de modèle de machine learning dans lequel les deux conditions suivantes sont remplies:

Il s'agit d'un modèle linéaire.
La prédiction est une valeur à virgule flottante. Il s'agit de la régression de la régression linéaire.)

Comparer la régression linéaire à la régression logistique. Vous devez aussi comparer la régression à la classification.

régression logistique

#fundamentals

Type de modèle de régression qui prédit une probabilité. Les modèles de régression logistique présentent les caractéristiques suivantes:

L'étiquette est catégorielle. Le terme logistique La régression désigne généralement la régression logistique binaire, à un modèle qui calcule les probabilités d'étiquettes avec deux valeurs possibles. Une variante moins courante, la régression logistique multinomiale, calcule probabilités pour les étiquettes ayant plus de deux valeurs possibles.
La fonction de perte pendant l'entraînement est la perte logistique. (Plusieurs unités de perte logistique peuvent être placées en parallèle pour les étiquettes avec plus de deux valeurs possibles.)
Le modèle est doté d'une architecture linéaire et non d'un réseau de neurones profond. Cependant, le reste de cette définition s'applique également modèles profonds qui prédisent des probabilités pour les étiquettes catégorielles.

Prenons l'exemple d'un modèle de régression logistique qui calcule le la probabilité qu'un e-mail d'entrée soit un spam ou non. Pendant l'inférence, supposons que le modèle prédit 0,72. Par conséquent, le est en train d'estimer:

Une probabilité que l'e-mail soit du spam est de 72 %.
Une probabilité de 28% que l'e-mail ne soit pas un spam

Un modèle de régression logistique utilise l'architecture en deux étapes suivante:

Le modèle génère une prédiction brute (y') en appliquant une fonction linéaire de caractéristiques d'entrée.
Le modèle utilise cette prédiction brute comme entrée d'une fonction sigmoïde, qui convertit les valeurs la prédiction sur une valeur comprise entre 0 et 1 (exclus).

Comme tout modèle de régression, un modèle de régression logistique prédit un nombre. Cependant, ce nombre fait généralement partie d'une classification binaire comme suit:

Si le nombre prédit est supérieur à la valeur seuil de classification, le le modèle de classification binaire prédit la classe positive.
Si le nombre prédit est inférieur au seuil de classification, le modèle de classification binaire prédit la classe négative.

Perte logistique

#fundamentals

La fonction de perte utilisée en binaire régression logistique.

Cliquez sur l'icône pour afficher le calcul.

La formule suivante calcule la perte logistique:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

où :

$(x,y)\in D$ est l'ensemble de données contenant de nombreuses étiquettes exemples, qui sont $(x,y)$ des paires.
$y$ est l'étiquette dans un exemple étiqueté. Puisqu'il s'agit de régression logistique, chaque valeur de $y$ doit être 0 ou 1.
$y'$ est la valeur prédite (comprise entre 0 et 1, exclus) ; compte tenu de l'ensemble de caractéristiques de $x$.

logarithme de cote

#fundamentals

Logarithme des cotes d'un événement donné.

Cliquez sur l'icône pour afficher le calcul.

Si l'événement est une probabilité binaire, alors la cote fait référence à le rapport entre la probabilité de réussite (p) et la probabilité de d'échec (1-p). Par exemple, supposons qu'un événement donné présente un taux de conversion de 90% une probabilité de réussite et une probabilité d'échec de 10 %. Dans ce cas, la probabilité est calculée comme suit:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Le logarithme de cote est tout simplement le logarithme des cotes. Par convention, "logarithme" fait référence à logarithme naturel, mais le logarithme peut être n'importe quelle base supérieure à 1. En s'en tenant à la convention, le logarithme de cote de notre exemple est donc:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La fonction log-cote est l'inverse de la fonction Fonction sigmoïde.

perte

#fundamentals

Au cours de l'entraînement d'un modèle supervisé, qui mesure la prédiction du modèle provient de son étiquette.

La fonction de perte calcule la perte.

courbe de fonction de perte

#fundamentals

Tracé de la perte en tant que fonction du nombre d'entraînements itérations. Le graphique suivant montre une perte typique à la courbe:

Un graphe cartésien de la perte par rapport aux itérations d'entraînement, montrant une
baisse rapide de la perte pour les itérations initiales, suivie d'une
une baisse, puis une pente
plate lors des dernières itérations.

Les courbes de fonction de perte vous aident à déterminer convergence ou surapprentissage.

Les courbes de fonction de perte permettent de représenter tous les types de perte suivants:

perte d'entraînement
perte de validation
perte d'évaluation

Voir aussi Courbe de généralisation.

fonction de perte

#fundamentals

Pendant l'entraînement ou les tests, un fonction mathématique qui calcule sur un lot d'exemples. Une fonction de perte renvoie une perte plus faible pour les modèles qui réalisent de bonnes prédictions de mauvaises prédictions.

L'objectif de l'entraînement est généralement de minimiser la perte qu'une fonction de perte .

Il existe de nombreux types de fonctions de perte différents. Choisir la perte appropriée pour le type de modèle que vous créez. Exemple :

perte L₂ (ou erreur quadratique moyenne) est la fonction de perte pour la régression linéaire.

Perte logistique est la fonction de perte pour régression logistique.

M

machine learning

#fundamentals

Un programme ou un système qui entraîne modèle à partir des données d'entrée. Le modèle entraîné peut faire des prédictions utiles à partir de nouvelles données (inconnues auparavant) tirées de la même distribution que celle utilisée pour entraîner le modèle.

Le machine learning désigne aussi le domaine d'étude avec ces programmes ou systèmes.

classe majoritaire

#fundamentals

L'étiquette la plus courante ensemble de données avec déséquilibre des classes. Par exemple : avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, la les étiquettes négatives constituent la classe majoritaire.

À comparer à la classe minoritaire.

mini-lot

#fundamentals

Petit sous-ensemble d'un lot traité en un seul sous-ensemble, sélectionné de manière aléatoire itération. La taille de lot d'un mini-lot est généralement entre 10 et 1 000 exemples.

Par exemple, supposons que l'ensemble d'entraînement complet (le lot complet) comprend 1 000 exemples. Supposons ensuite que vous définissiez taille de lot de chaque mini-lot à 20. Par conséquent, chaque l'itération détermine la perte sur un échantillon aléatoire de 20 des 1 000 exemples, ajuste les pondérations et les biais en conséquence.

Il est beaucoup plus efficace de calculer la perte sur un mini-lot que le sur tous les exemples du lot complet.

classe minoritaire

#fundamentals

L'étiquette la moins courante ensemble de données avec déséquilibre des classes. Par exemple : avec un ensemble de données contenant 99% d'étiquettes négatives et 1% d'étiquettes positives, la les étiquettes positives constituent la classe minoritaire.

À comparer à la classe majoritaire.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Un ensemble d'entraînement avec plus d'un million d'exemples de sons impressionnant. En revanche, si la classe minoritaire est mal représentée, alors même un très grand ensemble d'entraînement peut s'avérer insuffisant. Moins de concentration sur le nombre total d'exemples dans l'ensemble de données et plus encore sur le nombre d'exemples dans la classe minoritaire.

Si votre ensemble de données ne contient pas suffisamment d'exemples de classes minoritaires, envisagez à l'aide du sous-échantillonnage (définition dans le deuxième point) pour compléter la classe minoritaire.

modèle

#fundamentals

En général, toute construction mathématique qui traite les données d'entrée et renvoie de sortie. En d'autres termes, un modèle est l'ensemble des paramètres et une structure nécessaires pour qu'un système réalise des prédictions. En machine learning supervisé, un modèle prend un exemple en entrée et en déduit une prédiction en sortie. Dans le machine learning supervisé, les modèles diffèrent quelque peu. Exemple :

Un modèle de régression linéaire est constitué d'un ensemble de pondérations. et un biais.

Un modèle de réseau de neurones se compose des éléments suivants: <ph type="x-smartling-placeholder">
</ph>
Un ensemble de couches cachées, chacune contenant une ou un plus grand nombre de neurones.

Pondérations et biais associés à chaque neurone

Un modèle d'arbre de décision se compose des éléments suivants: <ph type="x-smartling-placeholder">
</ph>
Forme de l'arbre c'est-à-dire le modèle dans lequel les conditions et les feuilles sont connectés.

Les conditions et les départs.

Vous pouvez enregistrer, restaurer ou copier un modèle.

Le machine learning non supervisé génère des modèles, généralement une fonction pouvant mapper un exemple d'entrée à le cluster le plus approprié.

Cliquez sur l'icône pour comparer les fonctions algébriques et de programmation aux modèles de ML.

Une fonction algébrique telle que la suivante est un modèle:

f(x, y) = 3x -5xy + y² + 17

La fonction précédente mappe les valeurs d'entrée (x et y) aux de sortie.

De même, une fonction de programmation telle que la suivante est également un modèle:

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

Un appelant transmet des arguments à la fonction Python précédente, et la fonction La fonction Python génère un résultat (via l'instruction return).

Bien qu'un réseau de neurones profond possède une structure mathématique très différente de celle d'une propriété algébrique ou un réseau de neurones profond reçoit une entrée (exemple) de sortie (une prédiction).

Un programmeur humain code manuellement une fonction de programmation. En revanche, un modèle de machine learning apprend progressivement les paramètres optimaux pendant l'entraînement automatisé.

classification à classes multiples

#fundamentals

Dans l'apprentissage supervisé, un problème de classification dans lequel l'ensemble de données contient plus de deux classes d'étiquettes. Par exemple, les étiquettes de l'ensemble de données Iris doivent correspondre à l'un des trois classes:

Iris setosa

Iris vierge

Iris versicolor

Modèle entraîné sur l'ensemble de données Iris qui prédit le type Iris à partir de nouveaux exemples effectue une classification à classes multiples.

À l'inverse, les problèmes de classification qui font la distinction entre deux sont des modèles de classification binaire. Par exemple, un modèle de messagerie qui prédit soit le spam, soit le non-spam est un modèle de classification binaire.

Dans les problèmes de clustering, la classification à classes multiples fait référence à plus deux groupes.

N

classe négative

#fundamentals

Dans la classification binaire, une classe correspond à qu'elle est qualifiée de positif et l'autre de négatif. La classe positive est la chose ou l'événement testé par le modèle, et la classe négative est toute autre possibilité. Exemple :

La classe négative d'un test médical pourrait être "pas une tumeur".

La classe négative d'un classificateur d'e-mail pourrait être "non-spam".

À comparer à la classe positive.

neurones feedforward

#fundamentals

Un modèle contenant au moins un couche cachée. Un réseau de neurones profond est un type de réseau de neurones contenant plusieurs couches cachées. Par exemple, le schéma suivant montre un réseau de neurones profond contenant deux couches cachées.

Chaque neurone d'un réseau de neurones se connecte à tous les nœuds de la couche suivante. Par exemple, dans le diagramme précédent, notez que chacun des trois neurones se connecter séparément aux deux neurones de la première couche cachée une deuxième couche cachée.

Les réseaux de neurones implémentés sur les ordinateurs sont parfois appelés réseaux de neurones artificiels afin de les différencier les réseaux de neurones présents dans le cerveau et d'autres systèmes nerveux.

Certains réseaux de neurones peuvent imiter des relations non linéaires extrêmement complexes entre différentes caractéristiques et l'étiquette.

Voir aussi Réseau de neurones convolutif et réseau de neurones récurrent.

neurone

#fundamentals

En machine learning, une unité distincte dans une couche cachée d'un réseau de neurones. Chaque neurone effectue les opérations suivantes : action en deux étapes:

Calcule la somme pondérée des valeurs d'entrée multipliées par par les pondérations correspondantes.

Transmet la somme pondérée en tant qu'entrée à fonction d'activation.

Un neurone de la première couche cachée accepte les entrées des valeurs des caractéristiques dans la couche d'entrée. Un neurone dans n'importe quelle couche cachée au-delà la première accepte les entrées des neurones de la couche cachée précédente. Par exemple, un neurone de la deuxième couche cachée accepte les entrées dans la première couche cachée.

L'illustration suivante met en évidence deux neurones et leur d'entrée.

Un neurone d'un réseau de neurones imite le comportement des neurones dans le cerveau. d'autres parties des systèmes nerveux.

nœud (réseau de neurones)

#fundamentals

Un neurone dans une couche cachée.

nonlinear

#fundamentals

Relation entre deux variables ou plus qui ne peut pas être représentée uniquement par l'addition et la multiplication. Une relation linéaire peut être représenté par une ligne ; une relation nonlinear représentées par une ligne. Prenons l'exemple de deux modèles liés chacun une caractéristique à une seule étiquette. Le modèle de gauche est linéaire tandis que le modèle de droite est non linéaire:

non stationnarité

#fundamentals

Caractéristique dont les valeurs changent selon une ou plusieurs dimensions, généralement le temps. Prenons l'exemple des exemples suivants de non-stationarité:

Le nombre de maillots de bain vendus dans un magasin donné varie selon la saison.

Quantité d'un fruit particulier récolté dans une région particulière est nulle pendant une grande partie de l'année, mais importante pendant une courte période.

En raison du changement climatique, les températures moyennes annuelles changent.

À comparer à la stationarité.

normalisation

#fundamentals

De manière générale, le processus de conversion de la plage réelle d'une variable de valeurs dans une plage de valeurs standard, telle que:

-1 à +1

Entre 0 et 1

la distribution normale

Par exemple, supposons que la plage de valeurs réelle d'une certaine caractéristique soit entre 800 et 2 400. Dans le cadre de l'ingénierie des caractéristiques, vous pouvez normaliser les valeurs réelles dans une plage standard, par exemple de -1 à +1.

La normalisation est une tâche courante l'ingénierie des caractéristiques. L'entraînement des modèles est généralement plus rapide (et produire de meilleures prédictions) lorsque chaque caractéristique numérique de Le vecteur de caractéristiques a à peu près la même plage.

données numériques

#fundamentals

Caractéristiques représentées par des entiers ou des nombres réels. Par exemple, un modèle d'évaluation de maison représenterait probablement la taille d'une maison (en pieds carrés ou en mètres carrés) sous forme de données numériques. Représenter une caractéristique sous forme de données numériques indique que les valeurs de la caractéristique ont une relation mathématique avec l'étiquette. Autrement dit, le nombre de mètres carrés dans une maison a probablement relation mathématique avec la valeur de la maison.

Les données entières ne doivent pas toutes être représentées sous forme de données numériques. Par exemple : les codes postaux dans certaines parties du monde sont des entiers ; En revanche, les adresses IP (nombre entier) les codes ne doivent pas être représentés sous forme de données numériques dans les modèles. C'est parce qu'un Le code postal 20000 n'est pas deux fois (ou moins) plus puissant que le code postal 10000. De plus, bien que différents codes postaux soient corrélés à différentes des biens immobiliers, nous ne pouvons pas supposer que les valeurs immobilières au code postal 20000 ont deux fois plus de valeur que les biens immobiliers pour le code postal 10000. Les codes postaux doivent être représentés sous forme de données catégorielles. à la place.

Les caractéristiques numériques sont parfois appelées caractéristiques continues.

O

hors connexion

#fundamentals

Synonyme de statique.

inférence hors ligne

#fundamentals

Processus d'un modèle générant un lot de prédictions puis de les mettre en cache (et de les enregistrer). Les applications peuvent alors accéder à partir du cache au lieu de réexécuter le modèle.

Prenons l'exemple d'un modèle qui génère les prévisions météo locales (prédictions) toutes les quatre heures. Après chaque exécution du modèle, le système met en cache toutes les prévisions météo locales. Les applis météo récupèrent les prévisions du cache.

L'inférence hors ligne est également appelée inférence statique.

À comparer à l'inférence en ligne.

Encodage one-hot

#fundamentals

Représenter des données catégorielles sous forme de vecteur dans lequel:

Un élément a la valeur 1.

Tous les autres éléments ont la valeur 0.

L'encodage one-hot est couramment utilisé pour représenter des chaînes ou des identifiants qui un ensemble fini de valeurs possibles. Par exemple, supposons qu'une certaine caractéristique catégorielle Scandinavia a cinq valeurs possibles:

"Danemark"

"Suède"

"Norvège"

"Finlande"

"Islande"

L'encodage one-hot pourrait représenter chacune des cinq valeurs comme suit:

country Vecteur

"Danemark" 1 0 0 0 0

"Suède" 0 1 0 0 0

"Norvège" 0 0 1 0 0

"Finlande" 0 0 0 1 0

"Islande" 0 0 0 0 1

Grâce à l'encodage one-hot, un modèle peut apprendre différentes connexions pour chacun des cinq pays.

Représenter une caractéristique sous forme de données numériques correspond à comme alternative à l'encodage one-hot. Malheureusement, représenter Le nombre de pays scandinaves n'est pas un bon choix. Par exemple : Prenons la représentation numérique suivante:

"Danemark" est égal à 0

"Suède" est de 1

"Norvège" est de 2

"Finlande" est de 3

"Islande" est de 4

Avec l'encodage numérique, le modèle interpréterait les nombres bruts mathématiquement, et essayer de s'entraîner avec ces nombres. Toutefois, l'Islande n'est pas deux fois plus que pour la Norvège. Le modèle tirerait donc des conclusions étranges.

un contre tous

#fundamentals

Pour un problème de classification avec N classes, solution composée de N distincts Les classificateurs binaires : un classificateur binaire pour chaque résultat possible. Par exemple, pour un modèle qui classe des exemples comme animal, végétal ou minéral, une solution un contre tous fournirait les trois classificateurs binaires distincts suivants:

animal et non animal

Légume/non végétal

minéraux et non minéraux

online

#fundamentals

Synonyme de dynamique.

inférence en ligne

#fundamentals

Génération de prédictions à la demande. Par exemple : Supposons qu'une application transmette des entrées à un modèle et envoie une requête pour obtenir la prédiction. Un système utilisant l'inférence en ligne répond à la requête en exécutant le modèle (et en renvoyant la prédiction à l'application).

À comparer à l'inférence hors ligne.

couche de sortie

#fundamentals

La "finale" d'un réseau de neurones. La couche de sortie contient la prédiction.

L'illustration suivante montre un petit réseau de neurones profond avec une entrée deux couches cachées, et une couche de sortie:

surapprentissage

#fundamentals

Créez un modèle correspondant au données d'entraînement si près que le modèle ne parvient pas faire des prédictions correctes à partir de nouvelles données.

La régularisation peut réduire le surapprentissage. L'entraînement sur un ensemble d'entraînement vaste et varié peut également réduire le surapprentissage.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Le surapprentissage, c'est comme suivre les conseils de vos interlocuteurs préférés un enseignant. Vous réussirez probablement dans le cours de cet enseignant, mais vous pourrait être un « surapprentissage » aux idées de cet enseignant et de ne pas réussir dans d'autres classes. En suivant les conseils d'enseignants, vous pourrez : mieux s'adapter à de nouvelles situations.

P

pandas

#fundamentals

API d'analyse de données par colonne, basée sur numpy. De nombreux frameworks de machine learning, y compris TensorFlow, prennent en charge les structures de données Pandas en tant qu'entrées. Consultez le Documentation Pandas pour en savoir plus.

paramètre

#fundamentals

Pondérations et biais appris par un modèle au cours formation. Par exemple, dans un modèle de régression linéaire, ses paramètres sont constitués le biais (b) et toutes les pondérations (w₁, w₂, etc.) dans la formule suivante:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En revanche, les hyperparamètres sont les valeurs vous (ou un service de rotation des hyperparamètres) fournissez au modèle. Par exemple, le taux d'apprentissage est un hyperparamètre.

classe positive

#fundamentals

Classe que vous testez.

Par exemple, la classe positive d'un modèle de cancer peut être "tumeur". La classe positive d'un classificateur d'e-mails pourrait être "spam".

À comparer à la classe négative.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Le terme classe positive peut prêter à confusion, car le terme "positif" résultat des tests est souvent indésirable. Par exemple, la classe positive dans de nombreux tests médicaux correspondent à des tumeurs ou des maladies. En général, vous voulez qu'un médecin pour vous dire : « Félicitations ! Vos résultats de test ont été négatifs." Quoi qu'il en soit, la classe positive est l'événement que le test cherche à identifier.

Il faut reconnaître que vous testez simultanément les valeurs positives et négatives classes.

post-traitement

#fairness

#fundamentals

Ajuster la sortie d'un modèle après son exécution Le post-traitement peut être utilisé pour appliquer des contraintes d'équité modifier eux-mêmes les modèles.

Par exemple, on peut appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification l'égalité des chances est maintenue. pour un attribut en vérifiant que le taux de vrais positifs est identique pour toutes les valeurs de cet attribut.

prédiction

#fundamentals

Résultat d'un modèle. Exemple :

La prédiction d'un modèle de classification binaire est la valeur positive ou négative.

La prédiction d'un modèle de classification à classes multiples correspond à une classe.

La prédiction d'un modèle de régression linéaire est un nombre.

étiquettes de proxy

#fundamentals

Données utilisées pour estimer les étiquettes qui ne sont pas directement disponibles dans un ensemble de données.

Par exemple, supposons que vous deviez entraîner un modèle pour prédire les données de stress. Votre ensemble de données contient beaucoup de caractéristiques prédictives, ne contient pas d'étiquette nommée niveau de stress. Intrépide, vous choisissez "Accidents sur le lieu de travail" comme étiquette de proxy de stress. Après tout, les employés soumis à un stress élevé s’impliquent davantage des accidents que des employés calmes. Ou est-ce bien le cas ? Peut-être des accidents de travail à la hausse ou à la baisse pour plusieurs raisons.

Deuxième exemple, supposons que vous souhaitiez que la valeur is it raining? soit une étiquette booléenne, pour votre ensemble de données, mais il ne contient pas de données sur les précipitations. Si photos disponibles, vous pouvez créer des photos de personnes portant des parapluies comme étiquette de proxy pour la commande is it raining? Est-ce que une bonne étiquette de proxy ? C’est possible, mais les personnes dans certaines cultures peuvent être plus susceptibles de porter des parapluies pour se protéger du soleil que de la pluie.

Les étiquettes de proxy sont souvent imparfaites. Si possible, privilégiez les étiquettes réelles étiquettes de proxy. Cela dit, en l'absence d'une étiquette réelle, l'étiquette très soigneusement, en choisissant l'étiquette de proxy la moins horrible.

R

RAG

#fundamentals

Abréviation de génération avec récupération améliorée.

évaluateur

#fundamentals

Une personne qui fournit des étiquettes pour les exemples. "Annotateur" est un autre nom pour l'évaluateur.

Unité de rectification linéaire (ReLU)

#fundamentals

Une fonction d'activation ayant le comportement suivant:

Si l'entrée est négative ou égale à zéro, la sortie est 0.

Si l'entrée est positive, la sortie est égale à l'entrée.

Exemple :

Si l'entrée est -3, la sortie est 0.

Si l'entrée est +3, la sortie est 3,0.

Voici un graphique de la fonction ReLU:

ReLU est une fonction d'activation très courante. Malgré son comportement simple, La fonction ReLU permet tout de même à un réseau de neurones d'apprendre un langage nonlinear. les relations entre les caractéristiques et l'étiquette.

modèle de régression

#fundamentals

De manière informelle, un modèle qui génère une prédiction numérique. (En revanche, Un modèle de classification génère une classe prediction.) Voici quelques exemples de modèles de régression:

Un modèle qui prédit la valeur d'une maison spécifique, par exemple 423 000 euros.

Un modèle qui prédit l'espérance de vie d'un arbre spécifique (23,2 ans, par exemple).

Un modèle qui prédit la quantité de pluie qui va tomber dans une ville donnée au cours des six prochaines heures, par exemple 0,18 pouce.

Les deux types de modèles de régression les plus courants sont les suivants:

La régression linéaire, qui trouve la droite la plus adapte les valeurs de l'étiquette aux caractéristiques.

La régression logistique, qui génère une une probabilité comprise entre 0,0 et 1,0 qu'un système mappe ensuite à une classe la prédiction.

Tous les modèles qui produisent des prédictions numériques ne sont pas des modèles de régression. Dans certains cas, une prédiction numérique n'est qu'un modèle de classification qui ont des noms de classe numériques. Par exemple, un modèle qui prédit un code postal numérique est un modèle de classification et non un modèle de régression.

régularisation

#fundamentals

Tout mécanisme qui réduit le surapprentissage Les types de régularisation les plus courants sont les suivants:

Régularisation L₁

Régularisation L₂

régularisation par abandon

arrêt prématuré (il ne s'agit pas d'un arrêt méthode de régularisation, mais elle permet de limiter efficacement le surapprentissage)

La régularisation peut également être définie comme la pénalité appliquée à la complexité d'un modèle.

Cliquez sur l'icône pour afficher des notes supplémentaires.

La régularisation est paradoxale. L'augmentation de la régularisation augmente la perte d'entraînement, ce qui prête à confusion. l'objectif de minimiser la perte d'entraînement ?

En fait, non. L'objectif n'est pas de minimiser la perte d'entraînement. L'objectif est de faire d'excellentes prédictions sur des exemples concrets. Étonnamment, même si augmenter la régularisation augmente la perte d'entraînement, mais cela permet généralement aux modèles de meilleures prédictions à partir d'exemples concrets.

taux de régularisation

#fundamentals

Nombre qui spécifie l'importance relative de la régularisation pendant l'entraînement. Le fait de soulever le le taux de régularisation réduit le surapprentissage, mais peut les performances prédictives du modèle. À l'inverse, la réduction ou l'omission le taux de régularisation augmente le surapprentissage.

Cliquez sur l'icône pour afficher le calcul.

Le taux de régularisation est généralement représenté par la lettre grecque lambda. L'équation de perte simplifiée suivante montre l'influence de lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

où la régularisation correspond à un mécanisme de régularisation, y compris :

Régularisation L₁

Régularisation L₂

ReLU

#fundamentals

Abréviation de l'unité de rectification linéaire.

génération augmentée de récupération (RAG)

#fundamentals

Une technique pour améliorer la qualité des Sortie d'un grand modèle de langage (LLM) en les ancréant avec des sources de connaissances récupérées après l'entraînement du modèle. La RAG améliore la précision des réponses LLM en fournissant au LLM entraîné des l'accès aux informations extraites de bases de connaissances ou de documents de confiance.

Les motivations courantes de l'utilisation de la génération augmentée de récupération incluent:

Augmenter la justesse factuelle des réponses générées par le modèle

Donner au modèle accès aux connaissances sur lesquelles il n'a pas été entraîné.

Modifier les connaissances utilisées par le modèle

Permettre au modèle de citer ses sources.

Par exemple, supposons qu'une application de chimie utilise le modèle PaLM API pour générer des résumés liées aux requêtes des utilisateurs. Lorsque le backend de l'application reçoit une requête, il:

Recherche ("récupère") les données en rapport avec la requête de l'utilisateur.

Ajoute ("augmente") les données chimiques pertinentes à la requête de l'utilisateur.

Demande au LLM de créer un résumé basé sur les données ajoutées.

Courbe ROC (Receiver Operating Characteristic)

#fundamentals

Graphique du taux de vrais positifs par rapport à taux de faux positifs pour différentes des seuils de classification en binaire la classification.

La forme d'une courbe ROC suggère la capacité d'un modèle de classification binaire pour séparer les classes positives des classes négatives. Supposons, par exemple, qu'un modèle de classification binaire sépare parfaitement classes de toutes les classes positives:

La courbe ROC du modèle précédent se présente comme suit:

En revanche, l'illustration suivante représente la régression logistique brute pour un très mauvais modèle qui ne peut pas séparer les classes négatives positives:

La courbe ROC de ce modèle se présente comme suit:

Dans le monde réel, la plupart des modèles de classification binaire séparent positives et négatives dans une certaine mesure, mais généralement pas parfaitement. Donc, La courbe ROC se situe entre les deux extrêmes:

Le point sur une courbe ROC la plus proche de (0.0,1.0) identifie théoriquement la le seuil de classification idéal. Cependant, plusieurs autres problèmes concrets influencent la sélection du seuil de classification idéal. Par exemple : peut-être que les faux négatifs causent beaucoup plus de difficultés que les faux positifs.

Une métrique numérique appelée AUC résume la courbe ROC en une seule valeur à virgule flottante.

la racine carrée de l'erreur quadratique moyenne (RMSE, Root Mean Squared Error)

#fundamentals

Racine carrée de l'erreur quadratique moyenne.

S

fonction sigmoïde

#fundamentals

Fonction mathématique qui "écrase" une valeur d'entrée dans une plage limitée, généralement de 0 à 1 ou de -1 à +1. Autrement dit, vous pouvez transmettre n'importe quel nombre (deux, un million, de milliards (négatif), quoi que ce soit) à une fonction sigmoïde. La sortie sera toujours dans le limitée. Voici un graphique illustrant la fonction d'activation sigmoïde:

La fonction sigmoïde est utilisée à plusieurs reprises en machine learning:

La conversion de la sortie brute d'une régression logistique ou de régression multinomiale pour une probabilité.

Agir en tant que fonction d'activation dans certaines les réseaux de neurones.

Cliquez sur l'icône pour afficher le calcul.

La fonction sigmoïde sur un nombre d'entrée x a la formule suivante:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

En machine learning, x correspond généralement somme pondérée.

softmax

#fundamentals

Fonction qui détermine les probabilités pour chaque classe possible dans une modèle de classification à classes multiples. Les probabilités s'additionnent exactement à 1.0. Par exemple, le tableau suivant montre comment la fonction softmax répartit différentes probabilités:

L'image est... Probabilité

chien 0,85

cat 0,13

cheval 0,02

Softmax est également appelé softmax complet.

À comparer à l'échantillonnage de candidats.

Cliquez sur l'icône pour afficher le calcul.

L'équation softmax est la suivante:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
où: <ph type="x-smartling-placeholder">
</ph>
$\sigma_i$ est le vecteur de sortie. Chaque élément du vecteur de sortie spécifie la probabilité de cet élément. La somme de tous les éléments dans le vecteur de sortie est 1,0. Le vecteur de sortie contient le même nombre d'éléments comme vecteur d'entrée, $z$.

$z$ est le vecteur d'entrée. Chaque élément du vecteur d'entrée contient une valeur à virgule flottante.

$K$ est le nombre d'éléments dans le vecteur d'entrée (et la sortie vecteur).

Par exemple, supposons que le vecteur d'entrée soit:

[1.2, 2.5, 1.8]

Par conséquent, softmax calcule le dénominateur comme suit:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilité softmax de chaque élément est donc:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Ainsi, le vecteur de sortie est donc:

$$\sigma = [0.154, 0.565, 0.281]$$

La somme des trois éléments de $\sigma$ est de 1,0. Ouf !

caractéristique creuse

#language

#fundamentals

Caractéristique dont les valeurs sont principalement nulles ou vides. Par exemple, une caractéristique contenant une seule valeur 1 et un million de valeurs 0 est creuses. En revanche, une caractéristique dense a des valeurs ne sont généralement pas zéro ou vides.

Dans le machine learning, un nombre surprenant de caractéristiques sont des caractéristiques creuses. Les caractéristiques catégorielles sont généralement des caractéristiques creuses. Par exemple, sur les 300 espèces d'arbres possibles dans une forêt, un seul exemple peut n'identifier qu'un érable. Ou, parmi des millions de personnes, de vidéos possibles dans une bibliothèque, un seul exemple peut identifier juste "Casablanca".

Dans un modèle, on représente généralement des caractéristiques creuses encodage one-hot. Si l'encodage one-hot est volumineux, vous pouvez placer une couche d'intégration au-dessus de la l'encodage one-hot pour une plus grande efficacité.

représentation creuse

#language

#fundamentals

Ne stocke que la ou les positions des éléments non nuls dans une caractéristique creuse.

Par exemple, supposons qu'une caractéristique catégorielle nommée species identifie les 36 différentes espèces d'arbres d'une forêt en particulier. Supposons également que chaque example identifie une seule espèce.

Vous pouvez utiliser un vecteur one-hot pour représenter les espèces d'arbres dans chaque exemple. Un vecteur one-hot contiendrait une seule valeur 1 (pour représenter l'espèce d'arbre particulière de cet exemple) et 35 0s (pour représenter 35 espèces d'arbres pas dans cet exemple). La représentation one-hot de maple peut se présenter comme suit:

La représentation creuse permet quant à elle d'identifier simplement la position une espèce particulière. Si maple est en position 24, la représentation creuse de maple serait simplement:

24

Notez que la représentation creuse est beaucoup plus compacte que la représentation représentation.

Remarque :Vous ne devez pas transmettre une représentation creuse en tant qu'entrée de caractéristiques directe. à un modèle. À la place, vous devez convertir la représentation creuse en représentation one-hot avant l'entraînement.

Cliquez sur l'icône pour voir un exemple un peu plus complexe.

Supposons que chaque exemple de votre modèle doive représenter les mots suivants, mais pas l'ordre de ces mots, dans une phrase française. L'anglais comprend environ 170 000 mots, ce qui signifie que l'anglais est une catégorie avec environ 170 000 éléments. La plupart des phrases en anglais utilisent un une très petite fraction de ces 170 000 mots. L'ensemble de mots Il s'agit très certainement de données creuses.

Considérez la phrase suivante:

My dog is a great dog

Vous pouvez utiliser une variante de vecteur one-hot pour représenter les mots de cette dans la phrase. Dans cette variante, plusieurs cellules du vecteur peuvent contenir une valeur non nulle. De plus, dans cette variante, une cellule peut contenir un nombre entier autre qu'une. Bien que les mots « mon », « est », « un » et « super » ne s'affichent que une fois dans la phrase, le mot "chien" apparaît deux fois. L'utilisation de cette variante de des vecteurs one-hot pour représenter les mots de cette phrase produit le résultat suivant : Vecteur de 170 000 éléments:

Une représentation creuse de la même phrase serait simplement:

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

Cliquez sur l'icône si vous n'êtes pas sûr.

Le terme "représentation creuse" perturbe beaucoup de gens parce que le stockage la représentation en elle-même n'est pas un vecteur creux. C'est plutôt creux est en réalité une représentation dense d'un vecteur creux. La représentation de l'index des synonymes est un peu plus claire que « représentation creuse ».

vecteur creux

#fundamentals

Vecteur dont les valeurs sont principalement des zéros. Voir aussi creux caractéristique et parcimonie.

perte quadratique

#fundamentals

Synonyme de perte L₂.

static

#fundamentals

Une action unique plutôt que continue. Les termes statique et hors connexion sont des synonymes. Voici quelques cas d'utilisation courants des fonctions statiques et hors connexion dans les ordinateurs apprentissage:

Un modèle statique (ou modèle hors connexion) est un modèle entraîné une seule fois, depuis un moment.

L'entraînement statique (ou entraînement hors ligne) est le processus qui consiste à entraîner statique.

L'inférence statique (ou inférence hors ligne) est une qui génère un lot de prédictions à la fois.

À comparer à dynamique.

inférence statique

#fundamentals

Synonyme d'inférence hors connexion.

stationnarité

#fundamentals

Caractéristique dont les valeurs ne changent pas selon une ou plusieurs dimensions, généralement le temps. Par exemple, une caractéristique dont les valeurs sont à peu près identiques en 2021 2023 montre la stationnarité.

Dans le monde réel, très peu d'éléments sont stationnaires. Les fonctionnalités synonyme de stabilité (comme le niveau de la mer) évolue au fil du temps.

À comparer à la non stationnarité.

descente de gradient stochastique (SGD) (stochastic gradient descent (SGD))

#fundamentals

Algorithme de descente de gradient dans lequel le taille de lot est de un. En d'autres termes, SGD entraîne un seul exemple choisi de manière uniforme provenant d'un ensemble d'entraînement.

machine learning supervisé

#fundamentals

Entraîner un modèle à partir de caractéristiques et de leurs les libellés correspondants. Le machine learning supervisé est comparable à l'apprentissage d'un sujet en étudiant une série de questions les réponses correspondantes. Après avoir maîtrisé la correspondance entre les questions et réponses, un élève peut ensuite fournir des réponses à de nouvelles questions sur le même sujet.

Comparer avec machine learning non supervisé.

caractéristique synthétique

#fundamentals

Une caractéristique absente des caractéristiques d'entrée, mais assemblés à partir d'un ou de plusieurs d'entre eux. Méthodes de création de caractéristiques synthétiques incluent les éléments suivants:

Binning d'une caractéristique continue dans des bins de plage

Créer un croisement de caractéristiques

Multiplier (ou diviser) une valeur de caractéristique par d'autres valeurs ou seul. Par exemple, si a et b sont des caractéristiques d'entrée, Voici des exemples de caractéristiques synthétiques: <ph type="x-smartling-placeholder">
</ph>
ab

A²

Application d'une fonction transcendante à une valeur de caractéristique Par exemple, si c est une caractéristique d'entrée, voici des exemples de caractéristiques synthétiques: <ph type="x-smartling-placeholder">
</ph>
sin(c)

ln(c)

Fonctionnalités créées par normalisation ou scaling ne sont pas considérés comme des caractéristiques synthétiques.

T

perte d'évaluation

#fundamentals

Une métrique représentant la perte d'un modèle par rapport à l'ensemble de test. Lorsque vous créez un modèle, vous essaient généralement de minimiser la perte d'évaluation. En effet, une faible perte d'évaluation un signal de qualité plus fort qu'une faible perte d'entraînement ou une faible perte de validation.

Écart important entre la perte d'évaluation et la perte d'entraînement ou de validation, parfois suggère que vous devez augmenter taux de régularisation.

entraînement

#fundamentals

Processus consistant à déterminer les paramètres idéaux (pondérations et biais) comprenant un modèle. Pendant l'entraînement, un système lit exemples et ajuste progressivement les paramètres. L'entraînement utilise chaque de plusieurs fois à des milliards de fois.

perte d'entraînement

#fundamentals

Une métrique représentant la perte d'un modèle au cours d'une une itération d'entraînement particulière. Par exemple, supposons que la fonction de perte est l'erreur quadratique moyenne. La perte d'entraînement (moyenne erreur quadratique) pour la 10e itération est de 2,2, et la perte d'entraînement pour la 100e itération est 1,9.

Une courbe de perte représente la perte d'entraînement par rapport au nombre de itérations. La courbe de fonction de perte fournit les indications suivantes concernant l'entraînement:

Une pente descendante implique une amélioration du modèle.

Une pente ascendante implique que le modèle s'aggrave.

Une pente plate signifie que le modèle a atteint convergence :

Par exemple, la courbe de perte suivante, relativement idéalisée, affiche:

Une forte pente descendante lors des itérations initiales, ce qui implique une amélioration rapide des modèles.

Une pente qui s'aplatit progressivement (mais toujours vers le bas) jusqu'au bout de l'entraînement, ce qui implique une amélioration continue du modèle à un rythme à un rythme plus lent que lors des itérations initiales.

Pente plate vers la fin de l'entraînement, qui indique une convergence.

Bien que la perte d'entraînement soit importante, consultez également généralisation.

décalage entraînement/inférence

#fundamentals

La différence entre les performances d'un modèle l'entraînement et les performances de ce même modèle diffusion.

ensemble d'entraînement

#fundamentals

Sous-ensemble de l'ensemble de données utilisé pour entraîner un modèle.

Traditionnellement, les exemples de l'ensemble de données sont divisés selon les trois des sous-ensembles distincts:

un ensemble d'entraînement

Un ensemble de validation

Un ensemble de test

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir l'ensemble d'entraînement et l'ensemble de validation.

vrai négatif (VN)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe négative. Par exemple, le modèle déduit que un e-mail spécifique n'est pas un spam, et qu'il est vraiment non-spam.

vrai positif (VP)

#fundamentals

Exemple dans lequel le modèle prédit correctement la classe positive. Par exemple, le modèle déduit que un e-mail particulier est un spam, et cet e-mail est vraiment un spam.

taux de vrais positifs (TPR)

#fundamentals

Synonyme de rappel. Par exemple :

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Le taux de vrais positifs correspond à l'axe des ordonnées d'une courbe ROC.

U

sous-apprentissage

#fundamentals

Produire un modèle avec une faible capacité de prédiction, car il la complexité des données d'entraînement n'a pas été entièrement prise en compte. Beaucoup de problèmes peut entraîner un sous-apprentissage, y compris dans les cas suivants:

Entraînement sur le mauvais ensemble de fonctionnalités.

Entraînement sur un nombre insuffisant d'époques ou sur une fréquence trop faible un taux d'apprentissage.

Entraînement avec un taux de régularisation trop élevé.

Fournir trop peu de couches cachées dans une réseau de neurones profond.

exemple sans étiquette

#fundamentals

Exemple contenant des caractéristiques, mais pas de étiquette. Par exemple, le tableau suivant présente trois exemples sans étiquette provenant d'une maison d'évaluation, chacun avec trois caractéristiques, mais pas de valeur immobilière:

Nombre de chambres Nombre de salles de bain Âge du foyer

3 2 15

2 1 72

4 2 34

En machine learning supervisé, les modèles sont entraînés à partir d'exemples étiquetés et effectuent des prédictions exemples sans étiquette.

Dans les environnements semi-supervisés et l'apprentissage non supervisé, les exemples sans étiquette sont utilisés pendant l'entraînement.

Comparez l'exemple sans étiquette avec l'exemple étiqueté.

machine learning non supervisé

#clustering

#fundamentals

L'entraînement d'un modèle pour détecter des tendances dans un ensemble de données, généralement sans étiquette.

L'utilisation la plus courante du machine learning non supervisé consiste à Données de cluster en groupes d'exemples similaires. Par exemple, une machine non supervisée peut regrouper les chansons en fonction de diverses propriétés de la musique. Les clusters obtenus peuvent servir d'entrée à d'autres systèmes d'apprentissage automatique (vers un service de recommandation de musique, par exemple). Le clustering peut être utile lorsque les étiquettes utiles sont rares ou absentes. Par exemple, dans des domaines tels que la lutte contre les utilisations abusives et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.

À comparer au machine learning supervisé.

Cliquez sur l'icône pour afficher des notes supplémentaires.

Autre exemple de machine learning non supervisé : principal composant Analysis (PCA). Par exemple, appliquer l'APC sur une contenant le contenu de millions de paniers d'achat pourrait révéler que les paniers contenant des citrons contiennent aussi souvent des antiacides.

V

validation

#fundamentals

Évaluation initiale de la qualité d'un modèle. La validation vérifie la qualité des prédictions d'un modèle par rapport ensemble de validation.

Comme l'ensemble de validation est différent de l'ensemble d'entraînement, permet d'éviter le surapprentissage.

L'évaluation du modèle par rapport à l'ensemble de validation la première série de tests et l'évaluation du modèle ensemble de test comme deuxième série de tests.

perte de validation

#fundamentals

Une métrique représentant la perte d'un modèle sur l'ensemble de validation lors d'une itération d'entraînement.

Voir aussi Courbe de généralisation.

ensemble de validation

#fundamentals

Sous-ensemble de l'ensemble de données qui effectue les opérations initiales une évaluation par rapport à un modèle entraîné. En général, vous évaluez le modèle entraîné par rapport à l'ensemble de validation plusieurs fois avant d'évaluer le modèle par rapport à l'ensemble de test.

Traditionnellement, vous divisez les exemples de l'ensemble de données en trois catégories des sous-ensembles distincts:

Un ensemble d'entraînement

un ensemble de validation

Un ensemble de test

Idéalement, chaque exemple de l'ensemble de données ne doit appartenir qu'à l'un des sous-ensembles précédents. Par exemple, un seul exemple ne doit pas appartenir l'ensemble d'entraînement et l'ensemble de validation.

W

weight

#fundamentals

Valeur multipliée par un modèle par une autre. L'entraînement est le processus qui consiste à déterminer les pondérations idéales d'un modèle. L'inférence consiste à utiliser les pondérations apprises pour faire des prédictions.

Cliquez sur l'icône pour voir un exemple de pondérations dans un modèle linéaire.

Imaginez un modèle linéaire comportant deux caractéristiques. Supposons que l'entraînement détermine les pondérations suivantes (et biais):

Le biais, b, a une valeur de 2,2

La pondération, w₁ associée à une caractéristique, est de 1,5.

La pondération (w₂) associée à l'autre caractéristique est de 0, 4.

Prenons maintenant un exemple avec la caractéristique suivante : :

La valeur d'une caractéristique, x₁, est 6.

La valeur de l'autre caractéristique, x₂, est 10.

Ce modèle linéaire utilise la formule suivante pour générer une prédiction : y' :

$$y' = b + w_1x_1 + w_2x_2$$

Par conséquent, la prédiction est la suivante:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Si une pondération est égale à 0, la caractéristique correspondante ne contribue pas le modèle. Par exemple, si w₁ est égal à 0, la valeur de x₁ n'a pas d'importance.

Somme pondérée

#fundamentals

La somme de toutes les valeurs d'entrée pertinentes multipliée par les valeurs les pondérations. Par exemple, supposons que les entrées pertinentes se composent des éléments suivants:

valeur d'entrée pondération d'entrée

2 -1,3

-1 0,6

3 0,4

La somme pondérée est donc:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Une somme pondérée est l'argument d'entrée d'une fonction d'activation.

Z

Normalisation du score Z

#fundamentals

Technique de mise à l'échelle qui remplace une la valeur de feature avec une valeur à virgule flottante représentant le nombre d'écarts types par rapport à la moyenne de cette caractéristique. Prenons l'exemple d'une caractéristique dont la moyenne est 800 et dont la norme est de 100. Le tableau suivant montre comment la normalisation du score Z mapperait la valeur brute à son z-score:

Valeur brute Score Z

800 0

950 +1,5

575 -2,25

Le modèle de machine learning s'entraîne ensuite sur les cotes Z pour cette caractéristique plutôt que sur les valeurs brutes.

country	Vecteur
"Danemark"	1	0	0	0	0
"Suède"	0	1	0	0	0
"Norvège"	0	0	1	0	0
"Finlande"	0	0	0	1	0
"Islande"	0	0	0	0	1

Glossaire du machine learning: Bases du ML

A

accuracy

Cliquez sur l'icône pour afficher des notes supplémentaires.

fonction d'activation

Cliquez sur l'icône pour voir un exemple.

intelligence artificielle

AUC (aire sous la courbe ROC)

Cliquez sur l'icône pour en savoir plus sur la relation entre les courbes AUC et ROC.

Cliquez sur l'icône pour obtenir une définition plus formelle de l'AUC.

B

rétropropagation

lot

taille de lot

biais (éthique/impartialité)

biais (mathématiques) ou terme de biais

classification binaire

le binning

Cliquez sur l'icône pour afficher des notes supplémentaires.

C

données catégorielles

classe

modèle de classification

seuil de classification

Cliquez sur l'icône pour afficher des notes supplémentaires.

ensemble de données avec déséquilibre des classes

rognage

matrice de confusion

fonctionnalité continue

convergence

D

DataFrame

ensemble de données

modèle deep learning

caractéristique dense

profondeur

caractéristique discrète

dynamic

modèle dynamique

E

arrêt prématuré

Cliquez sur l'icône pour afficher des notes supplémentaires.

couche de représentation vectorielle continue

epoch

exemple

F

faux négatif (FN)

faux positif (FP) (false positive (FP))

taux de faux positifs (TFP)

fonctionnalité

croisement de caractéristiques

l'ingénierie des caractéristiques.

Cliquez sur l'icône pour obtenir des notes supplémentaires sur TensorFlow.

ensemble de caractéristiques

vecteur de caractéristiques

boucle de rétroaction

G

généralisation

Cliquez sur l'icône pour afficher des notes supplémentaires.

courbe de généralisation

descente de gradient

vérité terrain

Cliquez sur l'icône pour afficher des notes supplémentaires.

H

couche cachée

hyperparamètre

I

variables indépendantes et identiquement distribuées (i.i.d)

inférence

couche d'entrée

interprétabilité

itération

L

Régularisation L0

Cliquez sur l'icône pour afficher des notes supplémentaires.

perte L1

Cliquez sur l'icône pour afficher les calculs mathématiques.

Régularisation L1

perte L2

Cliquez sur l'icône pour afficher les calculs mathématiques.

Régularisation L₀

perte L₁

Régularisation L₁

perte L₂

Régularisation L₂