Glossário de machine learning: fundamentos de ML

Esta página contém os termos do glossário do glossário de ML Fundamentals. Para todos os termos do glossário, clique aqui.

A

precisão

#fundamentals

O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas previsões teriam uma acurácia de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

A classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e previsões incorretas: Portanto, a fórmula de acurácia para classificação binária é o seguinte:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

em que:

Comparar e contrastar a acurácia precisão e recall.

função de ativação

#fundamentals

Uma função que permite que as redes neurais aprendam Relações nonlinear (complexas) entre atributos e o rótulo.

Funções de ativação conhecidas incluem:

Os gráficos das funções de ativação nunca são linhas retas únicas. Por exemplo, o gráfico da função de ativação ReLU consiste em duas linhas retas:

Um gráfico cartesiano de duas linhas. A primeira linha tem uma constante
          valor y de 0, ao longo do eixo x de -infinito,0 a 0,-0.
          A segunda linha começa em 0,0. Essa linha tem uma inclinação de +1, então
          ela vai de 0,0 a +infinito,+infinito.

Um gráfico da função de ativação sigmoide é semelhante a este:

Um gráfico curvo bidimensional com valores de X abrangendo o domínio
          -infinito a +positivo, enquanto os valores y abrangem o intervalo de quase 0 a
          quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre
          positivo, com a maior inclinação em 0,0,5 e diminuindo gradualmente
          se inclina à medida que o valor absoluto de x aumenta.

inteligência artificial

#fundamentals

Um programa ou modelo não humano que pode resolver tarefas sofisticadas. Por exemplo, um programa ou modelo que traduz texto ou um programa ou modelo que identifica doenças usando imagens radiológicas que exibem inteligência artificial.

Formalmente, machine learning é um subcampo da inteligência artificial. No entanto, nos últimos anos, algumas organizações começaram a usar o Os termos inteligência artificial e machine learning são intercambiáveis.

AUC (área sob a curva ROC)

#fundamentals

Um número entre 0,0 e 1,0 que representa um Modelo de classificação binária a capacidade de separar classes positivas das classes negativas. Quanto mais próximo a AUC estiver de 1, melhor será a capacidade do modelo de separar as classes umas das outras.

Por exemplo, a ilustração a seguir mostra um modelo de classificador que separa as classes positivas (ovais verdes) das classes negativas (retângulos roxos) perfeitamente. Esse modelo irrealistamente perfeito uma AUC de 1,0:

Uma reta numérica com oito exemplos positivos de um lado e
          Nove exemplos negativos do outro lado.

Por outro lado, a ilustração a seguir mostra os resultados de um classificador modelo que gerou resultados aleatórios. Este modelo tem uma AUC de 0,5:

Uma reta numérica com seis exemplos positivos e seis exemplos negativos.
          A sequência de exemplos é positivo, negativo,
          positivo, negativo, positivo, negativo, positivo, negativo, positivo
          negativo, positivo, negativo.

Sim, o modelo anterior tem uma AUC de 0,5, não 0,0.

A maioria dos modelos está entre os dois extremos. Por exemplo, o modelo a seguir separa um pouco positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:

Uma reta numérica com seis exemplos positivos e seis exemplos negativos.
          A sequência de exemplos é negativo, negativo, negativo, negativo,
          positivo, negativo, positivo, positivo, negativo, positivo, positivo,
          positiva.

A AUC ignora qualquer valor definido para limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.

B

retropropagação

#fundamentals

O algoritmo que implementa gradiente descendente na redes neurais.

O treinamento de uma rede neural envolve muitas iterações do seguinte ciclo de duas etapas:

  1. Durante a passagem para frente, o sistema processa um lote de exemplos para gerar previsões. O sistema compara cada previsão a cada valor de rótulo. A diferença entre a previsão e o valor do rótulo é a perda desse exemplo. O sistema agrega as perdas de todos os exemplos para calcular o total perda de dados do lote atual.
  2. Durante o passe para trás (backpropagação), o sistema reduz a perda em ajustando os pesos de todos os neurônios em todas as camadas escondidas.

As redes neurais costumam conter muitos neurônios em muitas camadas escondidas. Cada um desses neurônios contribui para a perda geral de maneiras diferentes. A retropropagação determina se é preciso aumentar ou diminuir os pesos aplicadas a determinados neurônios.

A taxa de aprendizado é um multiplicador que controla a grau em que cada passe para trás aumenta ou diminui cada peso. Uma taxa de aprendizado grande aumentará ou diminuirá cada peso mais do que uma taxa de aprendizado baixa.

Em termos de cálculo, a retropropagação implementa o regra de cadeia. do cálculo. Ou seja, a retropropagação calcula a derivada parcial do erro com em relação a cada parâmetro.

Anos atrás, profissionais de ML precisavam escrever código para implementar a retropropagação. APIs modernas de ML, como o TensorFlow, agora implementam a retropropagação para você. Ufa.

lote

#fundamentals

O conjunto de exemplos usado em um treinamento iteration. O tamanho do lote determina o número de exemplos em uma em lote.

Consulte época para uma explicação de como um lote se relaciona um período.

tamanho do lote

#fundamentals

O número de exemplos em um lote. Por exemplo, se o tamanho do lote for 100, então o modelo processa Cem exemplos por iteração.

Confira a seguir estratégias conhecidas de tamanho de lote:

  • Gradiente descendente estocástico (SGD, na sigla em inglês), em que o tamanho do lote é 1.
  • Lote completo, em que o tamanho do lote é o número de exemplos na conjunto de treinamento. Por exemplo, se o conjunto de treinamento contiver um milhão de exemplos, o tamanho do lote será de um milhão exemplos. Em geral, o lote completo é uma estratégia ineficiente.
  • minilote em que o tamanho do lote geralmente fica entre 10 e 1.000. Em geral, o minilote é a estratégia mais eficiente.

viés (ética/imparcialidade)

#fairness
#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos em detrimento de outras. Esses vieses podem afetar a coleta e a interpretação dos dados, o design de um sistema e como os usuários interagem com um sistema. Formas desse tipo de viés incluem:

2. Erro sistemático introduzido por um procedimento de amostragem ou relatório. Formas desse tipo de viés incluem:

Não confunda com o termo de viés em modelos de machine learning. ou viés de previsão.

viés (matemática) ou termo de viés

#fundamentals

Uma interceptação ou deslocamento de uma origem. O viés é um parâmetro modelos de machine learning, que é simbolizado por um dos seguinte:

  • b
  • w0

Por exemplo, viés é o valor b na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Em uma linha bidimensional simples, viés significa apenas "interceptação em y". Por exemplo, a tendência da linha na ilustração a seguir é 2.

O gráfico de uma linha com inclinação de 0,5 e viés (interceptação y) de 2.

O viés existe porque nem todos os modelos começam na origem (0,0). Por exemplo: suponha que um parque de diversões custa 2 euros para entrar e € 0,50 por cada hora de estadia de um cliente. Portanto, um modelo que mapeia O custo total tem um viés de 2 porque o menor custo é de 2 euros.

Viés não deve ser confundido com viés na ética e imparcialidade. ou viés de previsão.

classificação binária

#fundamentals

Um tipo de tarefa de classificação que prevê uma de duas classes mutuamente exclusivas:

Por exemplo, cada um dos dois modelos de machine learning a seguir executa classificação binária:

  • um modelo que determina se as mensagens de e-mail são spam (a classe positiva) ou não é spam (a classe negativa).
  • Modelo que avalia sintomas médicos para determinar se uma pessoa tem uma doença específica (a classe positiva) ou não tem doenças (a classe negativa).

Diferente da classificação multiclasse,

Consulte também regressão logística e limite de classificação.

agrupamento por classes

#fundamentals

Converter um único atributo em vários atributos binários chamados buckets ou bins, normalmente com base em um intervalo de valores. A característica cortada normalmente é uma atributo contínuo.

Por exemplo, em vez de representar a temperatura recurso de ponto flutuante contínuo, é possível cortar faixas de temperatura em buckets discretos, como:

  • <= 10 graus Celsius seria o "frio" do Google Cloud.
  • 11 a 24 graus Celsius seria a "temperação" do Google Cloud.
  • >= 25 graus Celsius seria o valor "morno" do Google Cloud.

O modelo vai tratar todos os valores no mesmo bucket de forma idêntica. Para exemplo, os valores 13 e 22 estão no bucket temperado, então o trata os dois valores de maneira idêntica.

C

dados categóricos

#fundamentals

Atributos com um conjunto específico de valores possíveis. Por exemplo: use um atributo categórico chamado traffic-light-state, que só pode ter um dos três valores possíveis a seguir:

  • red
  • yellow
  • green

Ao representar traffic-light-state como um atributo categórico, um modelo pode aprender impactos diferentes de red, green e yellow no comportamento do motorista.

Às vezes, os atributos categóricos são chamados recursos discretos.

Contraste com dados numéricos.

classe

#fundamentals

Uma categoria à qual um rótulo pode pertencer. Exemplo:

Um modelo de classificação prevê uma classe. Por outro lado, um modelo de regressão prevê um número em vez de uma classe.

modelo de classificação

#fundamentals

Um modelo cuja previsão é uma classe. Por exemplo, estes são todos modelos de classificação:

  • Um modelo que prevê o idioma de uma frase de entrada (francês? Espanhol? italiano?).
  • Um modelo que prevê espécies de árvores (Maple? Carvalho? Baobá?).
  • um modelo que prevê a classe positiva ou negativa de um determinado condição médica.

Por outro lado, os modelos de regressão preveem números em vez de classes.

Dois tipos comuns de modelos de classificação são:

limiar de classificação

#fundamentals

Em uma classificação binária, uma número entre 0 e 1 que converte a saída bruta de um Modelo de regressão logística em uma previsão da classe positiva ou a classe negativa. O limiar de classificação é um valor escolhido por um usuário, e não um valor escolhido pelo treinamento de modelo.

Um modelo de regressão logística gera um valor bruto entre 0 e 1. Em seguida:

  • Se esse valor bruto for maior que o limiar de classificação, a classe positiva é prevista.
  • Se esse valor bruto for menor que o limiar de classificação, a classe negativa é prevista.

Por exemplo, suponha que o limiar de classificação seja 0,8. Se o valor bruto for 0,9, o modelo vai prever a classe positiva. Se o valor bruto for 0,7, o modelo prevê a classe negativa.

A escolha do limiar de classificação influencia muito o número de falsos positivos e falsos negativos.

conjunto de dados com desequilíbrio de classes

#fundamentals

Conjunto de dados para um problema de classificação em que o número total de rótulos de cada classe é significativamente diferente. Por exemplo, considere um conjunto de dados de classificação binária com dois rótulos são divididos da seguinte forma:

  • 1.000.000 de rótulos negativos
  • 10 rótulos positivos

A proporção entre rótulos negativos e positivos é de 100.000 para 1. Portanto, é um conjunto de dados sem equilíbrio de classes.

Em contraste, o conjunto de dados a seguir não tem equilíbrio de classes porque o a proporção entre rótulos negativos e positivos é relativamente próxima de 1:

  • 517 rótulos negativos
  • 483 rótulos positivos

Conjuntos de dados multiclasse também podem apresentar desequilíbrio de classes. Por exemplo, os seguintes o conjunto de dados de classificação multiclasse também apresenta desequilíbrio entre as classes porque um rótulo tem muito mais exemplos do que os outros dois:

  • 1.000.000 de rótulos com a classe "green"
  • 200 marcadores com a classe "roxo"
  • 350 marcadores com a classe "laranja"

Consulte também entropia, classe principal, e classe minoritária.

recorte

#fundamentals

Uma técnica para lidar com outliers fazendo de uma ou mais das seguintes opções:

  • Reduzir valores de feature que são maiores que o máximo até o limite máximo.
  • Aumentar valores de atributos menores que o limite mínimo até esse um limite mínimo.

Por exemplo, suponha que <0,5% dos valores de um atributo específico estejam fora do intervalo de 40 a 60. Nesse caso, faça o seguinte:

  • Recorte todos os valores acima de 60 (o limite máximo) para que fiquem exatamente 60.
  • Recorte todos os valores abaixo de 40 (o limite mínimo) para que fiquem exatamente 40.

Outliers podem danificar os modelos, às vezes causando pesos transbordar durante o treinamento. Alguns outliers também podem prejudicar métricas como acurácia. O recorte é uma técnica comum para limitar os danos.

Forças de corte de gradiente Valores de gradiente em um intervalo designado durante o treinamento.

matriz de confusão

#fundamentals

Tabela NxN que resume o número de previsões corretas e incorretas. feita por um modelo de classificação. Por exemplo, considere a seguinte matriz de confusão para um Modelo de classificação binária:

Tumor (previsto) Não tumor (previsto)
Tumor (informações empíricas) 18 (VP) 1 (FN)
Não tumor (informações empíricas) 6 (QPS) 452 (VN)

A matriz de confusão anterior mostra o seguinte:

  • Das 19 previsões em que as informações empíricas foram Tumor, o modelo classificou corretamente 18 e incorretamente 1.
  • Das 458 previsões em que as informações empíricas não eram Tumor, o modelo classificado corretamente como 452 e classificado incorretamente 6.

A matriz de confusão para uma classificação multiclasse problema pode ajudar a identificar padrões de erros. Por exemplo, considere a seguinte matriz de confusão para uma classe com 3 classes modelo de classificação multiclasse que categoriza três tipos diferentes de íris (Virgínica, Versicolor e Setosa). Quando as informações empíricas eram a Virgínia, matriz de confusão mostra que o modelo tem muito mais probabilidade de prever Versicolor do que Setosa:

  Setosa (previsto) Versicolor (previsão) Virgínia (previsto)
Setosa (informações empíricas) 88 12 0
Versicolor (informações empíricas) 6 141 7
Virginia (informações empíricas) 2 27 109

Outro exemplo: uma matriz de confusão pode revelar que um modelo treinado reconhecer dígitos escritos à mão tende a prever incorretamente 9 em vez de 4, ou equivocadamente 1 em vez de 7.

As matrizes de confusão contêm informações suficientes para calcular uma Várias métricas de performance, incluindo precisão e recall.

atributo contínuo

#fundamentals

Um recurso de ponto flutuante com um intervalo infinito de possíveis como temperatura ou peso.

Não use recursos discretos.

convergência

#fundamentals

Um estado alcançado quando os valores de perda mudam muito pouco ou de forma alguma em cada iteração. Por exemplo, os seguintes A curva de perda sugere a convergência em cerca de 700 iterações:

Gráfico cartesiano. o eixo X é uma perda. O eixo Y é o número de etapas
          iterações. A perda é muito alta durante as primeiras iterações, mas
          uma queda brusca. Depois de cerca de 100 iterações, a perda ainda é
          em ordem decrescente, mas de maneira muito mais gradual. Após cerca de 700 iterações,
          a perda permanece estável.

Um modelo convergente quando o treinamento adicional não para melhorar o modelo.

No aprendizado profundo, os valores de perda às vezes permanecem constantes ou quase isso em muitas iterações antes de finalmente descer. Durante um longo período de valores de perda constantes, talvez você tenha temporariamente uma falsa sensação de convergência.

Consulte também parada antecipada.

D

DataFrame

#fundamentals

Um tipo de dados pandas popular para representar conjuntos de dados na memória.

O DataFrame é análogo a uma tabela ou planilha. Cada coluna de um DataFrame tem um nome (um cabeçalho), e cada linha é identificada por um um número exclusivo.

Cada coluna em um DataFrame é estruturada como uma matriz 2D, mas cada coluna pode receber um tipo de dados próprio.

Consulte também a versão oficial Referência do pandas.DataFrame página.

conjunto de dados ou conjunto de dados

#fundamentals

Coleção de dados brutos, geralmente (mas não exclusivamente) organizados em uma um dos seguintes formatos:

  • uma planilha
  • um arquivo em formato CSV (valores separados por vírgula)

modelo profundo

#fundamentals

Uma rede neural que contém mais de uma camada escondida.

Um modelo profunda também é chamado de rede neural profunda.

Contraste com o modelo amplo.

atributo denso

#fundamentals

Um atributo em que a maioria ou todos os valores são diferentes de zero, normalmente um Tensor de valores de ponto flutuante. Por exemplo, os seguintes O tensor de 10 elementos é denso porque 9 dos valores dele são diferentes de zero:

8 3 7 5 2 4 0 4 9 6

Diferente do recurso esparso.

profundidade

#fundamentals

A soma dos itens a seguir em uma rede neural:

Por exemplo, uma rede neural com cinco camadas escondidas e uma camada final tem uma profundidade de 6.

Observe que a camada de entrada não profundidade de influência.

atributo discreto

#fundamentals

Um recurso com um conjunto finito de valores possíveis. Por exemplo: um atributo com valores que só podem ser animal, vegetable ou mineral é um atributos discretos (ou categóricos).

Contraste com o recurso contínuo.

dinâmico

#fundamentals

Algo feito com frequência ou continuamente. Os termos dinâmico e on-line são sinônimos em machine learning. Confira a seguir usos comuns de modelos dinâmicos e on-line em máquinas aprendizado:

  • Um modelo dinâmico (ou modelo on-line) é um modelo que são treinados novamente com frequência ou continuamente.
  • O treinamento dinâmico (ou treinamento on-line) é o processo de treinamento com frequência ou de forma contínua.
  • A inferência dinâmica (ou inferência on-line) é o processo de e a geração de previsões sob demanda.

modelo dinâmico

#fundamentals

Um modelo que é frequente (talvez até continuamente) retreinado. Um modelo dinâmico é um "aprendizado para toda a vida" que se adapta constantemente à evolução dos dados. Um modelo dinâmico também é conhecido como uma modelo on-line.

Contraste com o modelo estático.

E

parada antecipada

#fundamentals

Um método de regularização que envolve o encerramento treinamento antes do término da perda do treinamento diminuindo. Na parada antecipada, você para intencionalmente o treinamento do modelo. quando a perda em um conjunto de dados de validação começa increase; ou seja, quando O desempenho da generalização piora.

camada de embedding

#language
#fundamentals

Uma camada escondida especial que é treinada em uma atributo categórico de alta dimensão para aprender gradualmente um vetor de embedding de dimensão menor. Um a camada de embedding permite que uma rede neural treine muito mais mais eficiente do que treinar apenas com o atributo categórico de alta dimensão.

Por exemplo, a Terra atualmente suporta cerca de 73.000 espécies de árvores. Suponha espécie de árvore é um atributo no seu modelo, portanto, a camada de entrada inclui um vetor one-hot 73.000 de comprimento de elementos. Por exemplo, talvez baobab fosse representado algo assim:

Uma matriz de 73.000 elementos. Os primeiros 6.232 elementos contêm o valor
     0. O elemento seguinte contém o valor 1. Os 66.767 elementos finais
     o valor zero.

Uma matriz de 73.000 elementos é muito longa. Se você não adicionar uma camada de embedding ao modelo, o treinamento vai levar muito tempo, porque multiplicando 72.999 zeros. Talvez você escolha a camada de embedding para consistir de 12 dimensões. Consequentemente, a camada de embedding aprenderá gradualmente um novo vetor de embedding para cada espécie de árvore.

Em determinadas situações, gerar hash é uma alternativa razoável para uma camada de embedding.

época

#fundamentals

Uma passagem de treinamento completa para todo o conjunto de treinamento. de modo que cada exemplo seja processado uma vez.

Um período representa N/tamanho do lote iterações de treinamento, em que N é o número total de exemplos.

Por exemplo, suponha que:

  • O conjunto de dados é composto por 1.000 exemplos.
  • O tamanho do lote é de 50 exemplos.

Portanto, um único período requer 20 iterações:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

exemplo

#fundamentals

Os valores de uma linha de features e possivelmente um rótulo. Exemplos em O aprendizado supervisionado se divide em dois categorias gerais:

  • Um exemplo rotulado consiste em um ou mais atributos e um rótulo. Os exemplos rotulados são usados durante o treinamento.
  • Um exemplo não rotulado consiste em um ou mais atributos, mas sem rótulo. Exemplos não rotulados são usados durante a inferência.

Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nos resultados das avaliações dos alunos. Aqui estão três exemplos rotulados:

Recursos Rótulo
Temperatura Umidade Pressão Pontuação do teste
15 47 998 Boa
19 34 1020 Excelente
18 92 1012 Ruim

Aqui estão três exemplos sem rótulos:

Temperatura Umidade Pressão  
12 62 1014  
21 47 1017  
19 41 1021  

A linha de um conjunto de dados é normalmente a origem bruta de um exemplo. Isto é, um exemplo geralmente consiste em um subconjunto das colunas em conjunto de dados. Além disso, os atributos em um exemplo também podem incluir recursos sintéticos, como cruzamentos de atributos.

F

falso negativo (FN)

#fundamentals

Exemplo em que o modelo prevê incorretamente o classe negativa. Por exemplo, o modelo prevê que uma mensagem de e-mail específica não é spam (a classe negativa), mas a mensagem de e-mail na verdade é spam.

falso positivo (FP)

#fundamentals

Exemplo em que o modelo prevê incorretamente o classe positiva. Por exemplo, o modelo prevê que determinada mensagem de e-mail é spam (a classe positiva), mas que mensagem de e-mail não é spam.

taxa de falsos positivos (FPR)

#fundamentals

A proporção de exemplos negativos reais para os quais o modelo errou a classe positiva. A fórmula a seguir calcula o falso taxa positiva:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

A taxa de falsos positivos é o eixo X em uma curva ROC.

recurso

#fundamentals

Uma variável de entrada para um modelo de machine learning. Um exemplo consiste em um ou mais atributos. Por exemplo, suponha que você esteja treinando um para determinar a influência das condições climáticas nos resultados das avaliações dos alunos. A tabela a seguir mostra três exemplos, cada um contendo três atributos e um rótulo:

Recursos Rótulo
Temperatura Umidade Pressão Pontuação do teste
15 47 998 92
19 34 1020 84
18 92 1012 87

Contraste com rótulo.

cruzamento de atributos

#fundamentals

Um atributo sintético formado pelo "cruzamento". atributos categóricos ou agrupados.

Por exemplo, considere uma "previsão de humor" que representa temperatura em um dos quatro buckets a seguir:

  • freezing
  • chilly
  • temperate
  • warm

E representa a velocidade do vento em um dos três buckets a seguir:

  • still
  • light
  • windy

Sem cruzamentos de atributos, o modelo linear é treinado de forma independente em cada que precedem sete grupos. Assim, o modelo é treinado em, por exemplo, freezing independentemente do treinamento em, por exemplo, windy.

Como alternativa, é possível criar um cruzamento de atributos de temperatura e velocidade do vento. Esse atributo sintético teria os 12 possíveis valores:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Graças aos cruzamentos de atributos, o modelo pode aprender diferenças de humor entre freezing-windy e freezing-still dia.

Se você criar um atributo sintético a partir de dois atributos, cada um com muitos buckets diferentes, o cruzamento de atributos resultante terá um número enorme de combinações possíveis. Por exemplo, se um atributo tem 1.000 buckets e o outro atributo tem 2.000 buckets, o cruzamento de atributos tem 2.000.000 buckets de armazenamento.

Formalmente, uma cruz é uma Produto cartesiano.

Os cruzamentos de atributos são usados principalmente com modelos lineares e raramente são usados com redes neurais.

engenharia de atributos

#fundamentals
#TensorFlow

Um processo que envolve as seguintes etapas:

  1. Determinar quais recursos podem ser úteis ao treinar um modelo.
  2. Converter dados brutos do conjunto de dados em versões eficientes do esses recursos.

Por exemplo, você pode determinar que temperature pode ser . Em seguida, teste o agrupamento por classes para otimizar o que o modelo pode aprender com diferentes intervalos de temperature.

Às vezes, a engenharia de atributos é chamada extração de atributos ou recursos.

conjunto de atributos

#fundamentals

O grupo de atributos que seu machine learning model é treinado. Por exemplo, o CEP, o tamanho e a condição da propriedade podem compõe um conjunto simples de atributos para um modelo que prevê preços de imóveis.

vetor de recurso

#fundamentals

A matriz de valores de feature que compreende um exemplo. O vetor de atributo é inserido durante no treinamento e durante a inferência. Por exemplo, o vetor de atributo de um modelo com dois atributos discretos pode ser:

[0.92, 0.56]

Quatro camadas: uma de entrada, duas escondidas e uma final.
          A camada de entrada contém dois nós, um com o valor
          0,92 e o outro contendo o valor 0,56.

Cada exemplo fornece valores diferentes para o vetor do atributo, de modo que de atributo para o próximo exemplo pode ser algo como:

[0.73, 0.49]

A engenharia de atributos determina como representar atributos no vetor de atributos. Por exemplo, um atributo categórico binário cinco valores possíveis podem ser representados codificação one-hot: Nesse caso, a parte do vetor de atributo de um exemplo específico consistiria em quatro zeros e um único 1,0 na terceira posição, da seguinte maneira:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como outro exemplo, suponha que seu modelo tenha três atributos:

  • um atributo categórico binário com cinco valores possíveis representados codificação one-hot; Por exemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
  • outro atributo categórico binário com três valores possíveis representados com codificação one-hot; Por exemplo: [0.0, 0.0, 1.0]
  • um recurso de ponto flutuante; Por exemplo: 8.3.

Nesse caso, o vetor de recurso de cada exemplo seria representado por 9 valores. Considerando os valores de exemplo na lista anterior, os vetor de recurso seria:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ciclo de feedback

#fundamentals

Em machine learning, uma situação em que as previsões de um modelo influenciam o dados de treinamento para o mesmo modelo ou outro modelo. Por exemplo, um modelo que recomenda filmes influenciará os filmes que as pessoas assistem, o que, influenciar os modelos subsequentes de recomendação de filmes.

G

generalização

#fundamentals

A capacidade de um modelo de fazer previsões corretas sobre dados inéditos. Um modelo que pode generalizar é o oposto de um modelo com overfitting.

curva de generalização

#fundamentals

Um gráfico de perda do treinamento e perda de validação como uma função do número de iterations.

Uma curva de generalização pode ajudar a detectar possíveis overfitting: Por exemplo, os seguintes curva de generalização sugere overfitting porque a perda de validação em última instância, é muito maior do que a perda do treinamento.

Gráfico cartesiano em que o eixo y é rotulado como perda, e o eixo x
          é chamada iterações. Dois gráficos aparecem. Um gráfico mostra
          perda de treinamento, e o outro
mostra a perda de validação.
          Os dois gráficos começam de maneira semelhante, mas a perda do treinamento,
          diminui muito abaixo da perda de validação.

gradiente descendente

#fundamentals

É uma técnica matemática para minimizar a perda. O gradiente descendente se ajusta iterativamente pesos e vieses, encontrando gradualmente a melhor combinação para minimizar a perda.

O gradiente descendente é muito mais antigo do que o aprendizado de máquina.

informações empíricas

#fundamentals

Realidade.

O que realmente aconteceu.

Por exemplo, considere uma classificação binária que prevê se um estudante está no primeiro ano de universidade se formará em seis anos. As informações empíricas desse modelo são: e não aquele estudante que se formou em seis anos.

H

camada escondida

#fundamentals

Uma camada em uma rede neural entre as camada de entrada (os atributos) e a camada de saída (a previsão). Cada camada escondida consiste em um ou mais neurônios. Por exemplo, a rede neural a seguir contém duas camadas ocultas, o primeiro com três neurônios e o segundo com dois:

Quatro camadas. A primeira camada é de entrada contendo duas
          atributos de machine learning. A segunda camada é escondida contendo três
          neurônios. A terceira camada é uma camada escondida que contém duas
          neurônios. A quarta camada é a final. Cada recurso
          contém três bordas, cada uma apontando para um neurônio diferente
          na segunda camada. cada um dos neurônios da segunda camada.
          contém duas bordas, cada uma apontando para um neurônio diferente
          na terceira camada. Cada um dos neurônios da terceira camada contém
          uma borda, cada uma apontando para a camada final.

Uma rede neural profunda contém mais de uma camada escondida. Por exemplo, a ilustração anterior é um modelo de porque o modelo tem duas camadas escondidas.

hiperparâmetro

#fundamentals

As variáveis que você ou um serviço de ajuste de hiperparâmetros se ajustar durante execuções sucessivas de treinamento de um modelo. Por exemplo: A taxa de aprendizado é um hiperparâmetro. Você pode definir a taxa de aprendizado como 0,01 antes de uma sessão de treinamento. Se você determinar que 0,01 é muito alto, você poderia definir o valor como 0,003 para a próxima sessão de treinamento.

Por outro lado, parâmetros são os vários pesos e viés que o modelo aprende durante o treinamento.

I

distribuídos de modo independente e idêntico

#fundamentals

Dados extraídos de uma distribuição que não muda e em que cada valor desenhada não depende de valores que foram desenhados anteriormente. Um i.i.d. é o gás ideal de máquina do modelo: uma construção matemática útil, mas quase nunca encontrada com precisão no mundo real. Por exemplo, a distribuição de visitantes de uma página da Web pode ser i.i.d. em um curto período de tempo, ou seja, a distribuição mudar durante esse breve período e a visita de uma pessoa geralmente independentemente da visita de outra pessoa. No entanto, se você expandir essa janela de tempo, diferenças sazonais nos visitantes da página da Web podem aparecer.

Consulte também não estacionário.

inferência

#fundamentals

Em machine learning, o processo de fazer previsões aplicação de um modelo treinado a exemplos não rotulados.

A inferência tem um significado um pouco diferente nas estatísticas. Consulte a Artigo da Wikipédia sobre inferência estatística para mais detalhes.

camada de entrada

#fundamentals

A camada de uma rede neural que contém o vetor de recurso. Ou seja, a camada de entrada fornece exemplos de treinamento ou inferência. Por exemplo, a camada de entrada na seguinte rede neural consiste em dois recursos:

Quatro camadas: uma de entrada, duas escondidas e uma final.

interpretabilidade

#fundamentals

A capacidade de explicar ou apresentar o raciocínio de um modelo de ML termos compreensíveis para um ser humano.

A maioria dos modelos de regressão linear, por exemplo, são altamente interpretáveis. (basta observar os pesos treinados para cada feature.) Florestas de decisão também são altamente interpretáveis. No entanto, alguns modelos exigem uma visualização sofisticada para se tornarem interpretáveis.

Você pode usar o Ferramenta de aprendizado de interpretabilidade (LIT) para interpretar modelos de ML.

iteração

#fundamentals

Uma única atualização dos parâmetros de um modelo, o atributo pesos e vieses, durante treinamento. O tamanho do lote determina de quantos exemplos o modelo processa em uma única iteração. Por exemplo: Se o tamanho do lote for 20, o modelo processará 20 exemplos antes ajustando os parâmetros.

Ao treinar uma rede neural, uma única iteração envolve as duas passagens a seguir:

  1. Uma passagem direta para avaliar a perda em um único lote.
  2. Um passe para trás (backpropagação) para ajustar o parâmetros do modelo com base na perda e na taxa de aprendizado.

L

Regularização L0

#fundamentals

Um tipo de regularização que penaliza o número total de ponderações diferentes de zero em um modelo. Por exemplo, um modelo com 11 pesos diferentes de zero seria penalizado mais do que um modelo semelhante com 10 pesos diferentes de zero.

A regularização L0 às vezes é chamada de regularização L0-norm.

Perda de L1

#fundamentals

Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de label e os valores que um modelo prevê. Por exemplo, este é o cálculo da perda de L1 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Valor absoluto do delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = perda de L1

A perda de L1 é menos sensível a outliers do que a perda de L2.

O erro médio absoluto é a média Perda de L1 por exemplo.

Regularização L1

#fundamentals

Um tipo de regularização que penaliza pesos em proporção à soma do valor absoluto de dos pesos. A regularização L1 ajuda a aumentar o peso dos elementos irrelevantes ou atributos pouco relevantes para exatamente 0. Um recurso com um peso 0 é efetivamente removido do modelo.

Contraste com a regularização L2.

Perda L2

#fundamentals

Uma função de perda que calcula o quadrado da diferença entre os valores reais de label e os valores que um modelo prevê. Por exemplo, este é o cálculo da perda de L2 para um lote de cinco exemplos:

Valor real do exemplo Valor previsto do modelo Quadrado do delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = perda L2

Devido ao quadrado, a perda de L2 amplifica a influência outliers. Ou seja, a perda de L2 reage mais fortemente a previsões ruins do que Perda de L1. Por exemplo, a perda L1 para o lote anterior seria 8 em vez de 16. Observe que um único o outlier representa 9 dos 16.

Modelos de regressão normalmente usam perda L2 como a função de perda.

O Erro quadrático médio é a média Perda de L2 por exemplo. Perda ao quadrado é outro nome para a perda L2.

Regularização L2

#fundamentals

Um tipo de regularização que penaliza pesos em proporção à soma dos quadrados dos pesos. A regularização L2 ajuda a gerar pesos outlier (aqueles com valores altos positivos ou negativos baixos) mais próximos de 0, mas não exatamente de 0. Atributos com valores muito próximos de 0 permanecem no modelo mas não influenciam muito a previsão dele.

A regularização de L2 sempre melhora a generalização modelos lineares.

Contraste com a regularização L1.

o rótulo.

#fundamentals

No machine learning supervisionado, a "atender" ou "resultado" de um exemplo.

Cada exemplo rotulado consiste em um ou mais recursos e um rótulo. Por exemplo, em um spam de detecção, o rótulo provavelmente seria "spam" ou "não é spam". Em um conjunto de dados de chuva, o rótulo pode ser a quantidade de chuva que caiu durante certo período.

exemplo rotulado

#fundamentals

Um exemplo que contém um ou mais recursos e um rótulo. Por exemplo, a tabela a seguir mostra três exemplos rotulados de um modelo de avaliação de casas, cada um com três atributos e um rótulo:

Número de quartos Número de banheiros Idade da casa Preço da casa (rótulo)
3 2 15 US$ 345.000
2 1 72 US$ 179.000
4 2 34 US$ 392.000

No machine learning supervisionado, os modelos são treinados com exemplos rotulados e fazem previsões exemplos sem rótulos.

Comparar exemplos rotulados com exemplos sem rótulos.

Lambda

#fundamentals

Sinônimo de taxa de regularização.

Lambda é um termo sobrecarregado. Aqui, vamos nos concentrar a definição na regularização.

layer

#fundamentals

Um conjunto de neurônios em um rede neural. Três tipos comuns de camadas são os seguintes:

Por exemplo, a ilustração a seguir mostra uma rede neural com uma camada de entrada, duas camadas escondidas e uma camada final:

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma
          camada final. A camada de entrada consiste em dois atributos. A primeira
          camada escondida consiste em três neurônios, e a segunda camada escondida
          consiste em dois neurônios. A camada final consiste em um único nó.

No TensorFlow, as camadas também são funções do Python que usam Tensores e opções de configuração como entrada e e produzir outros tensores como saída.

taxa de aprendizado

#fundamentals

Um número de ponto flutuante que informa o gradiente descendente algoritmo com que intensidade ajustar os pesos e as tendências em cada iteration. Por exemplo, uma taxa de aprendizado de 0,3 ajustam pesos e vieses três vezes mais poderosamente do que uma taxa de aprendizado de 0,1.

A taxa de aprendizado é um hiperparâmetro fundamental. Se você definir a taxa de aprendizado for muito baixa, o treinamento vai demorar muito tempo. Se se a taxa de aprendizado for muito alta, o gradiente descendente geralmente terá problemas para alcançar a convergência.

linear

#fundamentals

Relação entre duas ou mais variáveis que podem ser representadas exclusivamente. com adição e multiplicação.

O gráfico de uma relação linear é uma linha.

Contraste com nonlinear.

modelo linear

#fundamentals

Um modelo que atribui um peso por recurso para fazer previsões. Os modelos lineares também incorporam um viés. Por outro lado, a relação dos atributos com as previsões em modelos profundos geralmente é nonlinear.

Modelos lineares costumam ser mais fáceis de treinar e mais interpretáveis do que os modelos profundos. No entanto, os modelos profundos podem aprender relações complexas entre atributos.

Regressão linear e A regressão logística é dois tipos de modelos lineares.

regressão linear

#fundamentals

Um tipo de modelo de machine learning em que as duas condições a seguir são verdadeiras:

  • O modelo é linear.
  • A previsão é um valor de ponto flutuante. Esta é a regressão, que faz parte da regressão linear.

Comparar a regressão linear com a regressão logística. Além disso, compare a regressão com a classificação.

regressão logística

#fundamentals

Um tipo de modelo de regressão que prevê uma probabilidade. Os modelos de regressão logística têm as seguintes características:

  • O rótulo é categórico. O termo logística regressão geralmente se refere à regressão logística binária, ou seja, até um modelo que calcula probabilidades de rótulos com dois valores possíveis. Uma variante menos comum, a regressão logística multinomial, calcula probabilidades para rótulos com mais de dois valores possíveis.
  • A função de perda durante o treinamento é Log Perda. É possível colocar várias unidades de perda de registro em paralelo para rótulos com mais de dois valores possíveis.)
  • O modelo tem uma arquitetura linear, e não uma rede neural profunda. No entanto, o restante dessa definição também se aplica a modelos profundos que preveem probabilidades para rótulos categóricos.

Por exemplo, considere um modelo de regressão logística que calcula a probabilidade de um e-mail de entrada ser spam ou não spam. Durante a inferência, suponha que o modelo prevê 0,72. Portanto, a modelo está estimando:

  • 72% de chance do e-mail ser spam.
  • 28% de chance de o e-mail não ser spam.

Um modelo de regressão logística usa a seguinte arquitetura de duas etapas:

  1. O modelo gera uma previsão bruta (y') aplicando uma função linear de atributos de entrada.
  2. O modelo usa essa previsão bruta como entrada para um função sigmoide, que converte os dados brutos previsão para um valor entre 0 e 1, excluindo estes dois valores.

Como qualquer modelo de regressão, um modelo de regressão logística prevê um número. No entanto, esse número normalmente se torna parte de uma classificação binária da seguinte forma:

  • Se o número previsto for maior que o limite de classificação, o o modelo de classificação binária prevê a classe positiva.
  • Se o número previsto for menor que o limiar de classificação, o modelo de classificação binária prevê a classe negativa.

Log Perda

#fundamentals

A função de perda usada em binário regressão logística.

log-chance

#fundamentals

O logaritmo das probabilidades de algum evento.

perda

#fundamentals

Durante o treinamento de um modelo supervisionado, uma medida de até onde um a previsão do modelo é do rótulo.

Uma função de perda calcula a perda.

curva de perda

#fundamentals

Um gráfico de perda como uma função do número de treinamento iterações. O gráfico a seguir mostra uma perda típica curva:

Um gráfico cartesiano de iterações de perda versus treinamento, mostrando
          queda rápida na perda nas iterações iniciais, seguida por uma queda gradual
          e uma inclinação plana durante as iterações finais.

As curvas de perda ajudam a determinar quando o modelo convergência ou overfitting.

As curvas de perda podem plotar todos os tipos de perda a seguir:

Consulte também a curva de generalização.

função de perda

#fundamentals

Durante treinamento ou testes, um função matemática que calcula o perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para os que fazem ou previsões ruins.

Normalmente, o objetivo do treinamento é minimizar a perda de uma função de perda retorna.

Existem muitos tipos diferentes de funções de perda. Escolha a perda adequada para o tipo de modelo que você está criando. Exemplo:

M

machine learning

#fundamentals

Um programa ou sistema que treina um modelo a partir de dados de entrada. O modelo treinado pode fazer previsões úteis a partir de dados novos (nunca vistos) extraídos de é a mesma que foi usada para treinar o modelo.

Machine learning também se refere à área de estudo em questão com esses programas ou sistemas.

classe majoritária

#fundamentals

O rótulo mais comum conjunto de dados desequilibrado de classes. Por exemplo: dado um conjunto de dados que contenha 99% de rótulos negativos e 1% de rótulos positivos, o e rótulos negativos são a classe majoritária.

Compare com a classe minoritária.

minilote

#fundamentals

Pequeno subconjunto de um lote selecionado aleatoriamente e processado em um iteration. O tamanho do lote de um minilote é geralmente entre 10 e 1.000 exemplos.

Por exemplo, suponha que todo o conjunto de treinamento (o lote completo) é composto por 1.000 exemplos. Suponha ainda que você defina tamanho do lote de cada minilote como 20. Portanto, cada iteração determina a perda em 20 aleatórias dos 1.000 exemplos e, em seguida, ajusta os pesos e os vieses de acordo.

É muito mais eficiente calcular a perda em um minilote do que perda em todos os exemplos de todo o lote.

classe minoritária

#fundamentals

O rótulo menos comum conjunto de dados desequilibrado de classe. Por exemplo: dado um conjunto de dados que contenha 99% de rótulos negativos e 1% de rótulos positivos, o rótulos positivos são a classe minoritária.

Compare com a classe principal.

modelo

#fundamentals

Em geral, qualquer construção matemática que processe dados de entrada e retorne saída. Em outras palavras, um modelo é o conjunto de parâmetros e estrutura necessárias para um sistema fazer previsões. No machine learning supervisionado, um modelo usa um exemplo como entrada e infere uma prediction será exibida. Com o machine learning supervisionado, os modelos são um pouco diferentes. Exemplo:

  • Um modelo de regressão linear consiste em um conjunto de pesos e um viés.
  • Um modelo de rede neural consiste em:
  • Um modelo de árvore de decisão consiste em:
    • A forma da árvore; ou seja, o padrão em que as condições e as folhas estão conectadas.
    • As condições e as saídas.

É possível salvar, restaurar ou fazer cópias de um modelo.

O machine learning não supervisionado também gera modelos, normalmente uma função que pode mapear um exemplo de entrada para no cluster mais apropriado.

classificação multiclasse

#fundamentals

No aprendizado supervisionado, um problema de classificação em que o conjunto de dados contém mais de duas classes de rótulos. Por exemplo, os rótulos no conjunto de dados Iris precisam ser um dos seguintes três classes:

  • Íris setosa
  • Iris virginica
  • Íris versicolor

Um modelo treinado com o conjunto de dados Iris que prevê o tipo Íris em novos exemplos é a classificação multiclasse.

Em contrapartida, os problemas de classificação que distinguem entre exatamente dois são modelos de classificação binária. Por exemplo, um modelo de e-mail que prevê spam ou não spam é um modelo de classificação binária.

Em problemas de clustering, a classificação multiclasse se refere a mais de dois clusters.

N

classe negativa

#fundamentals

Na classificação binária, uma classe é denominada positiva e a outra negativa. A classe positiva é a coisa ou o evento que o modelo está testando e a classe negativa é a outra possibilidade. Exemplo:

  • A classe negativa em um exame médico pode ser "não tumor".
  • A classe negativa em um classificador de e-mails pode ser "não é spam".

Compare com a classe positiva.

do feedforward

#fundamentals

Um modelo que contém pelo menos um camada escondida. Uma rede neural profunda é um tipo de rede neural que contém mais de uma camada escondida. Por exemplo, o diagrama a seguir mostra uma rede neural profunda com duas camadas escondidas.

Uma rede neural com uma camada de entrada, duas camadas escondidas e um
          camada final.

Cada neurônio de uma rede neural se conecta a todos os nós da próxima camada. Por exemplo, no diagrama anterior, observe que cada um dos três neurônios na primeira camada escondida se conectam separadamente aos dois neurônios na uma segunda camada escondida.

As redes neurais implementadas em computadores às vezes são chamadas redes neurais artificiais para diferenciá-las das redes neurais encontradas em cérebros e outros sistemas nervosos.

Algumas redes neurais podem imitar relações não lineares extremamente complexas entre diferentes atributos e o rótulo.

Consulte também rede neural convolucional e rede neural recorrente.

neurônio

#fundamentals

Em machine learning, uma unidade distinta em uma camada escondida de uma rede neural. Cada neurônio desempenha as seguintes funções: ação em duas etapas:

  1. Calcula a soma ponderada dos valores de entrada multiplicada pelos pesos correspondentes.
  2. Transmite a soma ponderada como entrada para um função de ativação.

Um neurônio na primeira camada escondida aceita entradas dos valores de atributo na camada de entrada. Um neurônio em qualquer camada escondida além O primeiro aceita entradas dos neurônios da camada escondida anterior. Por exemplo, um neurônio na segunda camada escondida aceita entradas da na primeira camada escondida.

A ilustração a seguir destaca dois neurônios e os respectivos de entrada.

Uma rede neural com uma camada de entrada, duas camadas escondidas e um
          camada final. Dois neurônios estão destacados: um no primeiro
          camada escondida e outra na segunda. Os itens em destaque
          neurônio na primeira camada escondida recebe entradas dos dois atributos
          na camada de entrada. O neurônio destacado na segunda camada escondida
          recebe entradas de cada um dos três neurônios na primeira
          camada

Um neurônio de uma rede neural imita o comportamento dos neurônios no cérebro e outras partes do sistema nervoso.

nó (rede neural)

#fundamentals

Um neurônio em uma camada escondida.

nonlinear

#fundamentals

uma relação entre duas ou mais variáveis que não podem ser representadas exclusivamente. com adição e multiplicação. Uma relação linear pode ser representado como uma linha, uma relação nonlinear não pode ser representada como uma linha. Por exemplo, considere dois modelos que estão relacionados um único atributo a um único rótulo. O modelo à esquerda é linear e o modelo à direita é não linear:

Dois gráficos. Um gráfico é uma linha, portanto, trata-se de uma relação linear.
          O outro gráfico é uma curva, portanto, esta é uma relação não linear.

não estacionário

#fundamentals

Um recurso cujos valores mudam em uma ou mais dimensões, normalmente tempo. Por exemplo, considere os seguintes exemplos de não estacionário:

  • O número de trajes de banho vendidos em uma loja específica varia de acordo com a estação.
  • Quantidade de uma determinada fruta colhida em uma determinada região. é zero durante grande parte do ano, mas grande por um breve período.
  • Devido às mudanças climáticas, as temperaturas médias anuais estão mudando.

Compare com a estacionidade.

normalização

#fundamentals

De modo geral, o processo de conversão do intervalo real de uma variável em um intervalo padrão de valores, como:

  • -1 a +1
  • 0 a 1
  • a distribuição normal

Por exemplo, suponha que o intervalo real de valores de um determinado atributo seja de 800 a 2.400. Como parte da engenharia de atributos, é possível normalizar os valores reais para um intervalo padrão, como como -1 a +1.

A normalização é uma tarefa comum engenharia de atributos. Os modelos costumam ser treinados mais rapidamente (e produzir melhores previsões) quando todos os atributos numéricos na vetor de atributo tem aproximadamente o mesmo intervalo.

dados numéricos

#fundamentals

Atributos representados como inteiros ou números com valor real Por exemplo, um modelo de avaliação de casas provavelmente representa o tamanho de uma casa (em pés quadrados ou metros quadrados) como dados numéricos. Representação atributo como dados numéricos indica que os valores do atributo têm uma relação matemática com o rótulo Ou seja, o número de metros quadrados em uma casa provavelmente tem algum relação matemática com o valor da casa.

Nem todos os dados inteiros devem ser representados como dados numéricos. Por exemplo: em algumas partes do mundo, os códigos postais são números inteiros; No entanto, os valores-chave e códigos não devem ser representados como dados numéricos nos modelos. Isso ocorre porque um o CEP de 20000 não é duas vezes (ou metade) tão potente que um CEP de 10.000. Além disso, embora diferentes códigos postais corrijam a diferentes valores imobiliários, não podemos presumir que valores imobiliários no código postal 20.000 é duas vezes mais valioso do que valores imobiliários no código postal 10000. Os códigos postais precisam ser representados como dados categóricos como alternativa.

Às vezes, os atributos numéricos são chamados atributos contínuos.

O

off-line

#fundamentals

Sinônimo de estática.

inferência off-line

#fundamentals

O processo de um modelo que gera um lote de previsões e, em seguida, armazenar em cache (salvar) essas previsões. Assim, os apps podem acessar previsão do cache em vez de executar novamente o modelo.

Por exemplo, imagine um modelo que gera previsões meteorológicas locais (previsões) uma vez a cada quatro horas. Após a execução de cada modelo, armazena em cache todas as previsões meteorológicas locais. Os apps de clima recuperam a previsão do tempo do cache.

A inferência off-line também é chamada de inferência estática.

Isso é diferente da inferência on-line.

codificação one-hot

#fundamentals

Representação de dados categóricos como um vetor em que:

  • Um elemento é definido como 1.
  • Todos os outros elementos são definidos como 0.

A codificação one-hot é muito usada para representar strings ou identificadores que ter um conjunto finito de valores possíveis. Por exemplo, suponha que um determinado atributo categórico chamado Scandinavia tem cinco valores possíveis:

  • "Dinamarca"
  • "Suécia"
  • "Noruega"
  • "Finlândia"
  • "Islândia"

A codificação one-hot pode representar cada um dos cinco valores da seguinte maneira:

país Vetor
"Dinamarca" 1 0 0 0 0
"Suécia" 0 1 0 0 0
"Noruega" 0 0 1 0 0
"Finlândia" 0 0 0 1 0
"Islândia" 0 0 0 0 1

Graças à codificação one-hot, um modelo pode aprender conexões diferentes com base em cada um dos cinco países.

A representação de um atributo como dados numéricos é uma alternativa à codificação one-hot. Infelizmente, representar o número de países escandinavos não é uma boa escolha. Por exemplo: considere a seguinte representação numérica:

  • "Dinamarca" é 0
  • "Suécia" é 1
  • "Noruega" é 2
  • "Finlândia" é 3
  • "Islândia" é 4

Com a codificação numérica, um modelo interpretaria os números brutos matematicamente e tentar treinar com esses números. No entanto, a Islândia não é o dobro (ou metade disso) algo como a Noruega, então o modelo chegaria a algumas conclusões estranhas.

um-contra-todos

#fundamentals

Dado um problema de classificação com N classes, que consiste em N classificadores binários: um classificador binário para cada resultado possível. Por exemplo, considerando um modelo que classifica exemplos como animal, vegetal ou mineral, uma solução única forneceria três classificadores binários separados:

  • animal versus não animal
  • vegetal versus não vegetal
  • mineral versus não mineral

on-line

#fundamentals

Sinônimo de dynamic.

inferência on-line

#fundamentals

Gerar previsões sob demanda. Por exemplo: suponha que um aplicativo transmita uma entrada para um modelo e emita uma solicitação para um previsão. Um sistema que usa inferência on-line responde à solicitação executando o modelo (e retornar a previsão ao aplicativo).

Isso é diferente da inferência off-line.

camada final

#fundamentals

A "final" de uma rede neural. A camada final contém a previsão.

A ilustração a seguir mostra uma pequena rede neural profunda com uma entrada duas camadas escondidas e uma camada final:

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma
          camada final. A camada de entrada consiste em dois atributos. A primeira
          camada escondida consiste em três neurônios, e a segunda camada escondida
          consiste em dois neurônios. A camada final consiste em um único nó.

overfitting

#fundamentals

Criar um modelo que corresponda ao dados de treinamento tão próximos que o modelo não consegue fazer previsões corretas sobre novos dados.

A regularização pode reduzir o overfitting. Treinar em um conjunto de treinamento grande e diversificado também pode reduzir o overfitting.

P

pandas

#fundamentals

Uma API de análise de dados orientada por colunas, criada com base em numpy. Em vários frameworks de machine learning, incluindo TensorFlow, oferecem suporte a estruturas de dados pandas como entradas. Consulte a Documentação do pandas para mais detalhes.

parâmetro

#fundamentals

Os pesos e vieses que um modelo aprende durante treinamento. Por exemplo, em um modelo de regressão linear, os parâmetros consistem no o viés (b) e todos os pesos (w1, w2, e assim por diante) na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por outro lado, hiperparâmetros são os valores que você (ou um serviço de transformação de hiperparâmetros) fornece ao modelo. Por exemplo, a taxa de aprendizado é um hiperparâmetro.

classe positiva

#fundamentals

A turma em que você está testando.

Por exemplo, a classe positiva em um modelo de câncer pode ser “tumor”. A classe positiva em um classificador de e-mail pode ser "spam".

Compare com a classe negativa.

pós-processamento

#fairness
#fundamentals

Ajustar a saída de um modelo após a execução dele. O pós-processamento pode ser usado para impor restrições de imparcialidade sem modificar os próprios modelos.

Por exemplo, é possível aplicar o pós-processamento a um classificador binário definindo um limiar de classificação de forma que a igualdade de oportunidade é mantida. para alguns atributos verificando se a taxa de verdadeiro positivo é o mesmo para todos os valores desse atributo.

previsão

#fundamentals

A saída de um modelo. Exemplo:

  • A previsão de um modelo de classificação binária é o resultado positivo ou a classe negativa.
  • A previsão de um modelo de classificação multiclasse é uma classe.
  • A previsão de um modelo de regressão linear é um número.

rótulos de proxy

#fundamentals

Dados usados para aproximar rótulos não disponíveis diretamente em um conjunto de dados.

Por exemplo, suponha que você precise treinar um modelo para prever funcionários nível de estresse. Seu conjunto de dados contém muitos atributos preditivos, mas não contém um rótulo chamado nível de estresse. Desencorajado, você escolhe "acidentes no local de trabalho" como um rótulo de proxy para nível de estresse. Afinal, os funcionários sob alto estresse acidentes do que calmos funcionários. Ou eles têm? Talvez acidentes de trabalho de fato subir e descer por vários motivos.

Como segundo exemplo, suponha que você queira que está chovendo? seja um rótulo booleano. para seu conjunto de dados, mas ele não contém dados de chuva. Se fotos estão disponíveis, você pode estabelecer fotos de pessoas levar guarda-chuvas como um rótulo substituto de está chovendo? Isso um bom rótulo de proxy? Possivelmente, mas as pessoas em algumas culturas podem ser têm mais chances de carregar guarda-chuvas para se proteger do sol do que da chuva.

Os rótulos de proxy geralmente são imperfeitos. Quando possível, escolha rótulos reais. marcadores de proxy. Dito isso, quando um rótulo real estiver ausente, escolha o proxy rótulo com muito cuidado, escolhendo o menos horrível candidato a rótulo de proxy.

R

RAG

#fundamentals

Abreviação para geração aumentada de recuperação.

avaliador

#fundamentals

Uma pessoa que fornece rótulos para exemplos. "Anotador" é outro nome para avaliador.

Unidade Linear Retificada (ReLU)

#fundamentals

Uma função de ativação com o seguinte comportamento:

  • Se a entrada for negativa ou zero, a saída será 0.
  • Se a entrada for positiva, a saída será igual à entrada.

Exemplo:

  • Se a entrada for -3, a saída será 0.
  • Se a entrada for +3, a saída será 3,0.

Veja um gráfico de ReLU:

Um gráfico cartesiano de duas linhas. A primeira linha tem uma constante
          valor y de 0, ao longo do eixo x de -infinito,0 a 0,-0.
          A segunda linha começa em 0,0. Essa linha tem uma inclinação de +1, então
          ela vai de 0,0 a +infinito,+infinito.

ReLU é uma função de ativação muito conhecida. Apesar do comportamento simples, A ReLU ainda permite que uma rede neural aprenda nonlinear relações entre atributos e o rótulo.

modelo de regressão

#fundamentals

informalmente, um modelo que gera uma previsão numérica. (Por outro lado, Um modelo de classificação gera uma classe prediction.) Por exemplo, estes são todos modelos de regressão:

  • Um modelo que prevê o valor de uma determinada casa, como 423.000 euros.
  • Um modelo que prevê a expectativa de vida de uma determinada árvore, como 23,2 anos.
  • Um modelo que prevê a quantidade de chuva que vai cair em uma determinada cidade nas próximas seis horas, como 0,18 polegadas.

Dois tipos comuns de modelos de regressão são:

  • Regressão linear, que encontra a linha que melhor ajusta valores de rótulo aos atributos.
  • Regressão logística, que gera uma probabilidade entre 0,0 e 1,0 que um sistema normalmente mapeia para uma classe previsão.

Nem todo modelo que gera previsões numéricas é um modelo de regressão. Em alguns casos, uma previsão numérica é na verdade apenas um modelo de classificação que tem nomes de classes numéricos. Por exemplo, um modelo que prevê um código postal numérico é um modelo de classificação, não um modelo de regressão.

regularização

#fundamentals

Qualquer mecanismo que reduza o overfitting. Os tipos conhecidos de regularização incluem:

A regularização também pode ser definida como a penalidade na complexidade de um modelo.

taxa de regularização

#fundamentals

Um número que especifica a importância relativa de regularização (em inglês) durante o treinamento. Elevar a taxa de regularização reduz o overfitting, mas pode reduzir a capacidade preditiva dos modelos. Por outro lado, reduzir ou omitir a taxa de regularização aumenta o overfitting.

ReLU

#fundamentals

Abreviação de Retified Linear Unit.

geração aumentada de recuperação (RAG, na sigla em inglês)

#fundamentals

Uma técnica para melhorar a qualidade Saída de modelo de linguagem grande (LLM) ao fundamentá-lo com fontes de conhecimento recuperadas após o treinamento do modelo. A RAG melhora a precisão das respostas do LLM fornecendo ao LLM treinado a informações recuperadas de bases de conhecimento ou documentos confiáveis.

Motivações comuns para usar a geração aumentada de recuperação incluem:

  • Aumentar a acurácia factual das respostas geradas de um modelo.
  • Dar ao modelo acesso ao conhecimento em que não foi treinado.
  • Alterar o conhecimento que o modelo usa.
  • Permitir que o modelo cite fontes.

Por exemplo, suponha que um aplicativo de química usa o PaLM API para gerar resumos relacionadas às consultas dos usuários. Quando o back-end do app recebe uma consulta, ele:

  1. Procura ("recupera") dados relevantes para a consulta do usuário.
  2. Anexa ("aumenta") os dados de química relevantes à consulta do usuário.
  3. Instrui o LLM a criar um resumo com base nos dados anexados.

Curva ROC (característica de operação do receptor)

#fundamentals

Um gráfico da taxa de verdadeiro positivo em comparação com a taxa de falso positivo para diferentes limites de classificação em binário classificação.

O formato de uma curva ROC sugere a capacidade de um modelo de classificação binária para separar classes positivas de classes negativas. Suponha, por exemplo, que um modelo de classificação binária separa perfeitamente todas as de todas as classes positivas:

Uma reta numérica com 8 exemplos positivos do lado direito e
          Sete exemplos negativos à esquerda.

A curva ROC do modelo anterior fica assim:

Uma curva ROC. O eixo x é a taxa de falso positivo, e o eixo y
          é a taxa de verdadeiro positivo. A curva tem um formato de L invertido. A curva
          começa em (0,0,0,0) e vai direto para (0,0,1,0). Depois, a curva
          vai de (0.0,1.0) a (1.0,1.0).

Em contraste, a ilustração abaixo mostra o gráfico de regressão logística bruta um modelo péssimo que não consegue separar classes negativas classes positivas:

Uma reta numérica com exemplos positivos e classes negativas
          completamente misturadas.

A curva ROC desse modelo tem a seguinte aparência:

Uma curva ROC, que é, na verdade, uma linha reta de (0,0,0,0)
          como (1,0, 1,0).

Já no mundo real, a maioria dos modelos de classificação binária se separa classes positivas e negativas até certo ponto, mas geralmente não perfeitamente. Então, uma curva ROC típica está em algum lugar entre os dois extremos:

Uma curva ROC. O eixo x é a taxa de falso positivo, e o eixo y
          é a taxa de verdadeiro positivo. A curva ROC se aproxima de um arco instável
          que atravessa os pontos da bússola de oeste ao norte.

O ponto em uma curva ROC mais próximo de (0,0,1,0) identifica teoricamente o limiar de classificação ideal. No entanto, vários outros problemas do mundo real influenciam a seleção do limiar de classificação ideal. Por exemplo: talvez os falsos negativos causem muito mais dor do que os falsos positivos.

Uma métrica numérica chamada AUC resume a curva ROC em um único valor de ponto flutuante.

Raiz do erro quadrático médio (RMSE)

#fundamentals

A raiz quadrada do Erro quadrático médio.

S

função sigmoide

#fundamentals

Função matemática que "comprimir" um valor de entrada em um intervalo restrito, normalmente entre 0 e 1 ou -1 a +1. Ou seja, você pode passar qualquer número (dois, um milhão, bilhões negativo) a um sigmoide e a saída ainda estará no em um intervalo restrito. Um gráfico da função de ativação sigmoide é semelhante a este:

Um gráfico curvo bidimensional com valores de X abrangendo o domínio
          -infinito a +positivo, enquanto os valores y abrangem o intervalo de quase 0 a
          quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre
          positivo, com a maior inclinação em 0,0,5 e diminuindo gradualmente
          se inclina à medida que o valor absoluto de x aumenta.

A função sigmoide tem vários usos no machine learning, incluindo:

softmax

#fundamentals

Uma função que determina as probabilidades para cada classe possível em uma modelo de classificação multiclasse. As probabilidades somam para exatamente 1,0. Por exemplo, a tabela a seguir mostra como a softmax distribui várias probabilidades:

A imagem é um... Probabilidade
cachorro 0,85
gato 0,13
cavalo 0,02

A softmax também é chamada de softmax completa.

Compare com a amostragem de candidatos.

atributo esparso

#language
#fundamentals

Um atributo com valores predominantemente zero ou vazio. Por exemplo, um atributo que contém um único valor 1 e um milhão de valores é esparsas. Por outro lado, um atributo denso tem valores que predominantemente não são zero nem valores vazios.

Em machine learning, um número surpreendente de atributos são atributos esparsos. Os atributos categóricos geralmente são esparsos. Por exemplo, das 300 espécies de árvores possíveis em uma floresta, pode identificar apenas uma árvore de bordo. Ou dos milhões de possíveis vídeos em uma biblioteca de vídeos, um único exemplo pode identificar apenas "Casablanca".

Em um modelo, você normalmente representa atributos esparsos codificação one-hot: Se a codificação one-hot for grande, é possível colocar uma camada de incorporação sobre com codificação one-hot para aumentar a eficiência.

representação esparsa

#language
#fundamentals

Armazenamento de apenas as posições de elementos diferentes de zero em um atributo esparso.

Por exemplo, suponha que um atributo categórico chamado species identifique os 36 espécies de árvores em uma determinada floresta. Suponha ainda que cada example identifica somente uma espécie.

É possível usar um vetor one-hot para representar as espécies de árvores em cada exemplo. Um vetor one-hot conteria um único 1 (para representar a espécie de árvore específica desse exemplo) e 35 0s (para representar o 35 espécies de árvores não nesse exemplo). A representação one-hot de maple pode ser semelhante ao seguinte:

Vetor em que as posições de 0 a 23 contêm o valor 0, posição
          24 contém o valor 1 e as posições de 25 a 35 contêm o valor 0.

Já a representação esparsa identifica a posição do espécie específica. Se maple estiver na posição 24, a representação esparsa de maple seria:

24

Observe que a representação esparsa é muito mais compacta do que representação visual.

vetor esparso

#fundamentals

Um vetor com valores que são principalmente zeros. Consulte também esparsa atributo e esparsidade.

perda quadrática

#fundamentals

Sinônimo de L2 perda.

static

#fundamentals

Algo feito só uma vez, e não continuamente. Os termos estático e off-line são sinônimos. A seguir estão usos comuns de estático e off-line em máquinas aprendizado:

  • Um modelo estático (ou modelo off-line) é um modelo treinado uma vez e depois usada há algum tempo.
  • O treinamento estático (ou treinamento off-line) é o processo de treinar um um modelo estático.
  • A inferência estática (ou inferência off-line) é uma processo em que um modelo gera um lote de previsões por vez.

Contraste com dinâmico.

inferência estática

#fundamentals

Sinônimo de inferência off-line.

estacionidade

#fundamentals

Um recurso cujos valores não mudam em uma ou mais dimensões, normalmente tempo. Por exemplo, um atributo com valores que parecem ser os mesmos em 2021 e Exposições estacionárias em 2023.

No mundo real, pouquíssimos atributos exibem estacaridade. Atributos de mesmo sinônimo de estabilidade (como o nível do mar) em mudanças ao longo do tempo.

Compare com a não estacionário.

gradiente descendente estocástico (SGD)

#fundamentals

Um algoritmo de gradiente descendente em que o O tamanho do lote é um. Em outras palavras, o SGD treina um único exemplo escolhido de maneira uniforme aleatoriamente de um conjunto de treinamento.

machine learning supervisionado

#fundamentals

Treinar um modelo a partir de atributos e os marcadores correspondentes. O machine learning supervisionado é análogo para aprender um assunto, estudando um conjunto de perguntas e suas as respostas correspondentes. Depois de dominar o mapeamento entre perguntas e respostas, o estudante pode fornecer respostas novas (nunca antes vistas) perguntas sobre o mesmo assunto.

Comparar com machine learning não supervisionado.

atributo sintético

#fundamentals

Um atributo não presente entre os atributos de entrada, mas montadas a partir de um ou mais deles. Métodos para criar atributos sintéticos incluem o seguinte:

  • Agrupamento por classes, um recurso contínuo em agrupamentos por classes.
  • criar um cruzamento de atributos.
  • Multiplicar (ou dividir) um valor de atributo por outros valores de atributo ou sozinhos. Por exemplo, se a e b forem recursos de entrada, o Confira alguns exemplos de atributos sintéticos:
    • Ab
    • a2
  • Aplica uma função transcendental a um valor de atributo. Por exemplo, se c é um atributo de entrada, os seguintes são exemplos de atributos sintéticos:
    • sin(c) (link em inglês)
    • ln(c)

Recursos criados por normalização ou escalonamento sozinhos não são considerados atributos sintéticos.

T

perda de teste

#fundamentals

Uma métrica que representa a perda de um modelo em relação o conjunto de teste. Ao criar um modelo, você e, em geral, tentam minimizar a perda de testes. Isso porque uma baixa perda de teste um indicador de qualidade mais forte do que uma baixa perda de treinamento ou baixa perda de validação.

Uma grande lacuna entre a perda de teste e a perda de treinamento ou de validação às vezes sugere que você precisa aumentar taxa de regularização.

treinamento

#fundamentals

O processo para determinar os parâmetros ideais (pesos e vieses) que compreendem um modelo. Durante o treinamento, um sistema lê exemplos e ajusta gradualmente os parâmetros. O treinamento usa cada de algumas vezes a bilhões de vezes.

perda de treinamento

#fundamentals

Uma métrica que representa a perda de um modelo durante um para uma iteração de treinamento específica. Por exemplo, suponha que a função de perda é o Erro quadrático médio. Talvez a perda do treinamento (a média erro quadrático) para a 10a iteração é 2,2, e a perda de treinamento para a 100a iteração é 1,9.

Uma curva de perda representa a perda de treinamento versus o número de iterações. Uma curva de perda oferece as seguintes dicas sobre treinamento:

  • Uma inclinação descendente indica que o modelo está melhorando.
  • Uma inclinação ascendente indica que o modelo está piorando.
  • Uma inclinação plana indica que o modelo atingiu convergência.

Por exemplo, a seguinte curva de perda, de certa forma idealizada mostra:

  • Uma inclinação para baixo acentuada durante as iterações iniciais, o que implica a melhoria rápida do modelo.
  • Uma inclinação gradualmente achatada (mas ainda em queda) até perto do fim do treinamento, o que implica melhoria contínua do modelo um ritmo mais lento do que durante as iterações iniciais.
  • Uma inclinação plana no final do treinamento, o que sugere convergência.

O gráfico da perda de treinamento versus iterações. Essa curva de perda começa
     com uma ladeira acentuada. A inclinação diminui gradualmente até que
     se a inclinação se torna zero.

Embora a perda do treinamento seja importante, generalização.

desvio entre treinamento e disponibilização

#fundamentals

A diferença entre o desempenho de um modelo durante treinamento e o desempenho do mesmo modelo disponibilização.

conjunto de treinamento

#fundamentals

O subconjunto do conjunto de dados usado para treinar um modelo.

Tradicionalmente, os exemplos no conjunto de dados são divididos em três subconjuntos distintos:

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos dos subconjuntos anteriores. Por exemplo, um único exemplo não deve pertencer conjunto de treinamento e de validação.

verdadeiro negativo (VN)

#fundamentals

Um exemplo em que o modelo prevê corretamente o classe negativa. Por exemplo, o modelo infere que determinada mensagem de e-mail não é spam, e essa mensagem de e-mail é não é spam.

verdadeiro positivo (VP)

#fundamentals

Um exemplo em que o modelo prevê corretamente o classe positiva. Por exemplo, o modelo infere que uma mensagem de e-mail específica é spam, e essa mensagem de e-mail realmente é spam.

taxa de verdadeiro positivo (TPR)

#fundamentals

Sinônimo de recall. Ou seja:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

A taxa de verdadeiro positivo é o eixo y em uma curva ROC.

U

underfitting

#fundamentals

Produzir um modelo com baixa capacidade preditiva porque o modelo não capturou totalmente a complexidade dos dados de treinamento. Muitos problemas pode causar underfitting, como:

exemplo sem rótulo

#fundamentals

Um exemplo que contém recursos, mas nenhum rótulo. Por exemplo, a tabela a seguir mostra três exemplos sem rótulos de uma casa modelo de avaliação, cada um com três atributos, mas sem valor de casa:

Número de quartos Número de banheiros Idade da casa
3 2 15
2 1 72
4 2 34

No machine learning supervisionado, os modelos são treinados com exemplos rotulados e fazem previsões exemplos sem rótulos.

Nos modelos semi-supervisionados e aprendizado não supervisionado, não rotulados são usados durante o treinamento.

Compare um exemplo não rotulado com um exemplo rotulado.

machine learning não supervisionado

#clustering
#fundamentals

Treinar um modelo para encontrar padrões em um conjunto de dados, normalmente um um conjunto de dados sem rótulo.

O uso mais comum do machine learning não supervisionado é Dados de cluster em grupos de exemplos semelhantes. Por exemplo, uma máquina não supervisionada o algoritmo de aprendizado de máquina pode agrupar músicas com base em várias propriedades da música. Os clusters resultantes podem se tornar uma entrada algoritmos de aprendizado (por exemplo, para um serviço de recomendação de músicas). O clustering pode ajudar quando não houver rótulos úteis ou escassos. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar humanos a entender melhor os dados.

Compare com o aprendizado de máquina supervisionado.

V

validação

#fundamentals

A avaliação inicial da qualidade de um modelo. A validação verifica a qualidade das previsões de um modelo em relação conjunto de validação.

Como o conjunto de validação é diferente do conjunto de treinamento, A validação ajuda a proteger contra overfitting (em inglês).

Pense em avaliar o modelo em relação ao conjunto de validação como o primeira rodada de testes e avaliação do modelo em relação conjunto de teste como a segunda rodada de testes.

perda de validação

#fundamentals

Uma métrica que representa a perda de um modelo em o conjunto de validação durante um iteração do treinamento.

Consulte também a curva de generalização.

conjunto de validação

#fundamentals

O subconjunto do conjunto de dados que realiza a execução uma avaliação com base em um modelo treinado. Normalmente, você avalia o modelo treinado com o conjunto de validação vezes antes de avaliar o modelo em relação ao conjunto de testes.

Tradicionalmente, você divide os exemplos do conjunto de dados nas três subconjuntos distintos:

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos dos subconjuntos anteriores. Por exemplo, um único exemplo não deve pertencer conjunto de treinamento e de validação.

W

peso

#fundamentals

Um valor que um modelo multiplica por outro valor. O treinamento é o processo de determinar os pesos ideais de um modelo. inferência é o processo de usar os pesos aprendidos para fazer previsões.

soma de pesos

#fundamentals

A soma de todos os valores de entrada relevantes multiplicada pelo valor pesos específicos. Por exemplo, suponha que as entradas relevantes sejam:

valor de entrada peso de entrada
2 -1,3
-1 0,6
3 0,4

A soma ponderada é:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

A soma ponderada é o argumento de entrada para uma função de ativação.

Z

Normalização do valor Z

#fundamentals

Uma técnica de escalonamento que substitui um valor bruto Valor de feature com um valor de ponto flutuante que representa o número de desvios padrão da média desse atributo. Por exemplo, considere um atributo com média de 800 e cujo padrão desvio é 100. A tabela a seguir mostra como a normalização de pontuação Z mapearia o valor bruto para o valor Z:

Valor bruto Pontuação Z
800 0
950 +1,5
575 -2,25

Em seguida, o modelo de machine learning é treinado de acordo com os Z-scores para esse atributo e não nos valores brutos.