MMLU (Masked Multi-Layer Unified)
Supongamos que tenemos el siguiente texto:
"The capital of France is [MASK]."
Un modelo de lenguaje entrenado con MMLU intentar铆a predecir la palabra que falta en el texto. Por ejemplo, si el modelo predice que la palabra es "Paris", se considerar铆a una predicci贸n correcta.
HellaSwag
Supongamos que tenemos el siguiente contexto y opciones de respuesta:
Contexto: "John was feeling sad because he lost his favorite toy. He looked everywhere but couldn't find it. Finally, he..."
Opciones de respuesta:
A) "found it under the couch"
B) "bought a new toy"
C) "went to the store"
D) "called his mom"
Un modelo de lenguaje entrenado con HellaSwag intentar铆a seleccionar la opci贸n de respuesta que mejor se ajusta al contexto. En este caso, la respuesta correcta ser铆a A) "found it under the couch", ya que es la opci贸n que m谩s l贸gicamente sigue el contexto.
ANLI (Adversarial NLI)
ANLI es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para realizar inferencia natural (NLI, Natural Language Inference) en entornos adversarios. La inferencia natural se refiere a la capacidad de un modelo para determinar si una hip贸tesis se sigue l贸gicamente de una premisa.
En ANLI, se proporciona una premisa y una hip贸tesis, y el modelo debe determinar si la hip贸tesis se sigue l贸gicamente de la premisa. Sin embargo, a diferencia de otras tareas de NLI, ANLI utiliza ejemplos adversarios dise帽ados para enga帽ar a los modelos de lenguaje.
Aqu铆 te dejo un ejemplo de ANLI:
Premisa: "The city is very crowded because of the festival."
Hip贸tesis: "The city is empty."
En este caso, la hip贸tesis es claramente falsa seg煤n la premisa, ya que la premisa indica que la ciudad est谩 muy concurrida. Un modelo de lenguaje entrenado con ANLI deber铆a ser capaz de identificar que la hip贸tesis no se sigue l贸gicamente de la premisa y clasificarla como "contradictoria".
Sin embargo, ANLI tambi茅n incluye ejemplos adversarios que intentan enga帽ar a los modelos de lenguaje. Por ejemplo:
Premisa: "The city is very crowded because of the festival."
Hip贸tesis: "The city is crowded."
En este caso, la hip贸tesis es t茅cnicamente verdadera, pero el modelo de lenguaje deber铆a ser capaz de entender que la hip贸tesis no agrega nada nuevo a la premisa y clasificarla como "neutral".
ANLI es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje y la capacidad de razonar sobre la l贸gica y la sem谩ntica del texto.
GSM8K (Google Sentence Matching 8K)
GSM8K es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para entender la similitud sem谩ntica entre oraciones. La tarea consiste en determinar si dos oraciones tienen el mismo significado o no.
En GSM8K, se proporcionan pares de oraciones, y el modelo debe clasificar cada par como "similar" o "no similar" en funci贸n de su significado. La m茅trica se utiliza para evaluar la capacidad de los modelos de lenguaje para capturar la similitud sem谩ntica entre oraciones, incluso cuando las palabras y la estructura de las oraciones son diferentes.
Aqu铆 te dejo un ejemplo de GSM8K:
Oraci贸n 1: "The dog is running in the park."
Oraci贸n 2: "A dog runs in a park."
En este caso, las dos oraciones tienen el mismo significado, por lo que el modelo deber铆a clasificarlas como "similares".
Otro ejemplo:
Oraci贸n 1: "The capital of France is Paris."
Oraci贸n 2: "The Eiffel Tower is in Berlin."
En este caso, las dos oraciones tienen significados diferentes, por lo que el modelo deber铆a clasificarlas como "no similares".
GSM8K es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje y la capacidad de capturar la similitud sem谩ntica entre oraciones. Los modelos que se desempe帽an bien en GSM8K suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.
MedQA
MedQA (Medical Question Answering) es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para responder a preguntas m茅dicas complejas. La tarea consiste en responder a preguntas m茅dicas basadas en textos m茅dicos, como art铆culos de investigaci贸n, informes de casos y otros documentos m茅dicos.
En MedQA, se proporciona un texto m茅dico y una pregunta relacionada con ese texto. El modelo debe responder a la pregunta bas谩ndose en la informaci贸n proporcionada en el texto. La m茅trica se utiliza para evaluar la capacidad de los modelos de lenguaje para entender el lenguaje m茅dico, identificar la informaci贸n relevante en el texto y responder a preguntas complejas.
Aqu铆 te dejo un ejemplo de MedQA:
Texto: "A 45-year-old man presents with a 2-day history of fever, chills, and right upper quadrant abdominal pain. His medical history is significant for hypertension and hyperlipidemia. On physical examination, he has a temperature of 38.5掳C, blood pressure of 140/90 mmHg, and tenderness in the right upper quadrant. Laboratory results show a white blood cell count of 15,000/渭L, with 80% neutrophils. Imaging studies reveal a 3-cm gallstone in the gallbladder."
Pregunta: "What is the most likely diagnosis for this patient?"
Respuesta correcta: "Cholecystitis" (inflamaci贸n de la ves铆cula biliar)
MedQA es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje m茅dico y la capacidad de identificar la informaci贸n relevante en textos m茅dicos complejos. Los modelos que se desempe帽an bien en MedQA suelen ser modelos que han sido entrenados con grandes cantidades de datos m茅dicos y que tienen una arquitectura avanzada.
Es importante destacar que MedQA es una tarea que requiere conocimientos m茅dicos espec铆ficos y una comprensi贸n del lenguaje m茅dico, por lo que es una m茅trica m谩s especializada que otras m茅tricas de lenguaje natural.
AGIeval
AGIeval (Artificial General Intelligence evaluation) es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para realizar tareas de inteligencia artificial general (AGI). La tarea consiste en evaluar la capacidad de los modelos para realizar una variedad de tareas que requieren inteligencia, razonamiento y comprensi贸n del lenguaje.
AGIeval se centra en evaluar la capacidad de los modelos para:
Entender el lenguaje natural: comprender el significado de las palabras, las frases y los textos.
Razonar y deducir: extraer conclusiones l贸gicas a partir de la informaci贸n disponible.
Resolver problemas: encontrar soluciones a problemas complejos que requieren pensamiento cr铆tico y creatividad.
Aprender y adaptarse: aprender de la experiencia y adaptarse a nuevas situaciones y contextos.
AGIeval utiliza una variedad de tareas y ejercicios para evaluar la capacidad de los modelos, incluyendo:
Preguntas de conocimiento general
Problemas de l贸gica y razonamiento
Tareas de resoluci贸n de problemas
Ejercicios de comprensi贸n de texto
Tareas de aprendizaje y adaptaci贸n
Un ejemplo de AGIeval podr铆a ser:
Tarea: "Un hombre tiene 17 piezas de fruta en una cesta. Si come 3 manzanas y 2 naranjas, 驴cu谩ntas piezas de fruta le quedan?"
Respuesta correcta: 12
AGIeval es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje natural, la capacidad de razonar y deducir, y la capacidad de resolver problemas complejos. Los modelos que se desempe帽an bien en AGIeval suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.
Es importante destacar que AGIeval es una m茅trica que se centra en evaluar la capacidad de los modelos para realizar tareas de inteligencia artificial general, lo que la hace diferente de otras m茅tricas que se centran en tareas espec铆ficas como la comprensi贸n de texto o la generaci贸n de texto.
TriviaQA
TriviaQA es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para responder a preguntas de trivia y conocimiento general. La tarea consiste en responder a preguntas que requieren acceso a conocimientos previos y comprensi贸n del lenguaje natural.
TriviaQA se centra en evaluar la capacidad de los modelos para:
Acceder a conocimientos previos: recuperar informaci贸n de una amplia variedad de temas y dominios.
Comprender el lenguaje natural: entender el significado de las palabras, las frases y los textos.
Razonar y deducir: extraer conclusiones l贸gicas a partir de la informaci贸n disponible.
TriviaQA utiliza una base de datos de preguntas y respuestas que abarcan una amplia variedad de temas, incluyendo historia, ciencia, literatura, m煤sica, pel铆culas, deportes, etc.
Un ejemplo de TriviaQA podr铆a ser:
Pregunta: "What is the capital of France?"
Respuesta correcta: "Paris"
Otro ejemplo:
Pregunta: "Who is the author of the book 'To Kill a Mockingbird'?"
Respuesta correcta: "Harper Lee"
TriviaQA es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje natural, acceso a conocimientos previos y la capacidad de razonar y deducir. Los modelos que se desempe帽an bien en TriviaQA suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.
Es importante destacar que TriviaQA es una m茅trica que se centra en evaluar la capacidad de los modelos para responder a preguntas de conocimiento general, lo que la hace diferente de otras m茅tricas que se centran en tareas espec铆ficas como la comprensi贸n de texto o la generaci贸n de texto.
Supongamos que tenemos el siguiente texto:
"The capital of France is [MASK]."
Un modelo de lenguaje entrenado con MMLU intentar铆a predecir la palabra que falta en el texto. Por ejemplo, si el modelo predice que la palabra es "Paris", se considerar铆a una predicci贸n correcta.
HellaSwag
Supongamos que tenemos el siguiente contexto y opciones de respuesta:
Contexto: "John was feeling sad because he lost his favorite toy. He looked everywhere but couldn't find it. Finally, he..."
Opciones de respuesta:
A) "found it under the couch"
B) "bought a new toy"
C) "went to the store"
D) "called his mom"
Un modelo de lenguaje entrenado con HellaSwag intentar铆a seleccionar la opci贸n de respuesta que mejor se ajusta al contexto. En este caso, la respuesta correcta ser铆a A) "found it under the couch", ya que es la opci贸n que m谩s l贸gicamente sigue el contexto.
ANLI (Adversarial NLI)
ANLI es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para realizar inferencia natural (NLI, Natural Language Inference) en entornos adversarios. La inferencia natural se refiere a la capacidad de un modelo para determinar si una hip贸tesis se sigue l贸gicamente de una premisa.
En ANLI, se proporciona una premisa y una hip贸tesis, y el modelo debe determinar si la hip贸tesis se sigue l贸gicamente de la premisa. Sin embargo, a diferencia de otras tareas de NLI, ANLI utiliza ejemplos adversarios dise帽ados para enga帽ar a los modelos de lenguaje.
Aqu铆 te dejo un ejemplo de ANLI:
Premisa: "The city is very crowded because of the festival."
Hip贸tesis: "The city is empty."
En este caso, la hip贸tesis es claramente falsa seg煤n la premisa, ya que la premisa indica que la ciudad est谩 muy concurrida. Un modelo de lenguaje entrenado con ANLI deber铆a ser capaz de identificar que la hip贸tesis no se sigue l贸gicamente de la premisa y clasificarla como "contradictoria".
Sin embargo, ANLI tambi茅n incluye ejemplos adversarios que intentan enga帽ar a los modelos de lenguaje. Por ejemplo:
Premisa: "The city is very crowded because of the festival."
Hip贸tesis: "The city is crowded."
En este caso, la hip贸tesis es t茅cnicamente verdadera, pero el modelo de lenguaje deber铆a ser capaz de entender que la hip贸tesis no agrega nada nuevo a la premisa y clasificarla como "neutral".
ANLI es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje y la capacidad de razonar sobre la l贸gica y la sem谩ntica del texto.
GSM8K (Google Sentence Matching 8K)
GSM8K es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para entender la similitud sem谩ntica entre oraciones. La tarea consiste en determinar si dos oraciones tienen el mismo significado o no.
En GSM8K, se proporcionan pares de oraciones, y el modelo debe clasificar cada par como "similar" o "no similar" en funci贸n de su significado. La m茅trica se utiliza para evaluar la capacidad de los modelos de lenguaje para capturar la similitud sem谩ntica entre oraciones, incluso cuando las palabras y la estructura de las oraciones son diferentes.
Aqu铆 te dejo un ejemplo de GSM8K:
Oraci贸n 1: "The dog is running in the park."
Oraci贸n 2: "A dog runs in a park."
En este caso, las dos oraciones tienen el mismo significado, por lo que el modelo deber铆a clasificarlas como "similares".
Otro ejemplo:
Oraci贸n 1: "The capital of France is Paris."
Oraci贸n 2: "The Eiffel Tower is in Berlin."
En este caso, las dos oraciones tienen significados diferentes, por lo que el modelo deber铆a clasificarlas como "no similares".
GSM8K es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje y la capacidad de capturar la similitud sem谩ntica entre oraciones. Los modelos que se desempe帽an bien en GSM8K suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.
MedQA
MedQA (Medical Question Answering) es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para responder a preguntas m茅dicas complejas. La tarea consiste en responder a preguntas m茅dicas basadas en textos m茅dicos, como art铆culos de investigaci贸n, informes de casos y otros documentos m茅dicos.
En MedQA, se proporciona un texto m茅dico y una pregunta relacionada con ese texto. El modelo debe responder a la pregunta bas谩ndose en la informaci贸n proporcionada en el texto. La m茅trica se utiliza para evaluar la capacidad de los modelos de lenguaje para entender el lenguaje m茅dico, identificar la informaci贸n relevante en el texto y responder a preguntas complejas.
Aqu铆 te dejo un ejemplo de MedQA:
Texto: "A 45-year-old man presents with a 2-day history of fever, chills, and right upper quadrant abdominal pain. His medical history is significant for hypertension and hyperlipidemia. On physical examination, he has a temperature of 38.5掳C, blood pressure of 140/90 mmHg, and tenderness in the right upper quadrant. Laboratory results show a white blood cell count of 15,000/渭L, with 80% neutrophils. Imaging studies reveal a 3-cm gallstone in the gallbladder."
Pregunta: "What is the most likely diagnosis for this patient?"
Respuesta correcta: "Cholecystitis" (inflamaci贸n de la ves铆cula biliar)
MedQA es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje m茅dico y la capacidad de identificar la informaci贸n relevante en textos m茅dicos complejos. Los modelos que se desempe帽an bien en MedQA suelen ser modelos que han sido entrenados con grandes cantidades de datos m茅dicos y que tienen una arquitectura avanzada.
Es importante destacar que MedQA es una tarea que requiere conocimientos m茅dicos espec铆ficos y una comprensi贸n del lenguaje m茅dico, por lo que es una m茅trica m谩s especializada que otras m茅tricas de lenguaje natural.
AGIeval
AGIeval (Artificial General Intelligence evaluation) es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para realizar tareas de inteligencia artificial general (AGI). La tarea consiste en evaluar la capacidad de los modelos para realizar una variedad de tareas que requieren inteligencia, razonamiento y comprensi贸n del lenguaje.
AGIeval se centra en evaluar la capacidad de los modelos para:
Entender el lenguaje natural: comprender el significado de las palabras, las frases y los textos.
Razonar y deducir: extraer conclusiones l贸gicas a partir de la informaci贸n disponible.
Resolver problemas: encontrar soluciones a problemas complejos que requieren pensamiento cr铆tico y creatividad.
Aprender y adaptarse: aprender de la experiencia y adaptarse a nuevas situaciones y contextos.
AGIeval utiliza una variedad de tareas y ejercicios para evaluar la capacidad de los modelos, incluyendo:
Preguntas de conocimiento general
Problemas de l贸gica y razonamiento
Tareas de resoluci贸n de problemas
Ejercicios de comprensi贸n de texto
Tareas de aprendizaje y adaptaci贸n
Un ejemplo de AGIeval podr铆a ser:
Tarea: "Un hombre tiene 17 piezas de fruta en una cesta. Si come 3 manzanas y 2 naranjas, 驴cu谩ntas piezas de fruta le quedan?"
Respuesta correcta: 12
AGIeval es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje natural, la capacidad de razonar y deducir, y la capacidad de resolver problemas complejos. Los modelos que se desempe帽an bien en AGIeval suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.
Es importante destacar que AGIeval es una m茅trica que se centra en evaluar la capacidad de los modelos para realizar tareas de inteligencia artificial general, lo que la hace diferente de otras m茅tricas que se centran en tareas espec铆ficas como la comprensi贸n de texto o la generaci贸n de texto.
TriviaQA
TriviaQA es una m茅trica utilizada para evaluar la capacidad de los modelos de lenguaje natural para responder a preguntas de trivia y conocimiento general. La tarea consiste en responder a preguntas que requieren acceso a conocimientos previos y comprensi贸n del lenguaje natural.
TriviaQA se centra en evaluar la capacidad de los modelos para:
Acceder a conocimientos previos: recuperar informaci贸n de una amplia variedad de temas y dominios.
Comprender el lenguaje natural: entender el significado de las palabras, las frases y los textos.
Razonar y deducir: extraer conclusiones l贸gicas a partir de la informaci贸n disponible.
TriviaQA utiliza una base de datos de preguntas y respuestas que abarcan una amplia variedad de temas, incluyendo historia, ciencia, literatura, m煤sica, pel铆culas, deportes, etc.
Un ejemplo de TriviaQA podr铆a ser:
Pregunta: "What is the capital of France?"
Respuesta correcta: "Paris"
Otro ejemplo:
Pregunta: "Who is the author of the book 'To Kill a Mockingbird'?"
Respuesta correcta: "Harper Lee"
TriviaQA es una m茅trica desafiante para los modelos de lenguaje, ya que requiere una comprensi贸n profunda del lenguaje natural, acceso a conocimientos previos y la capacidad de razonar y deducir. Los modelos que se desempe帽an bien en TriviaQA suelen ser modelos que han sido entrenados con grandes cantidades de datos y que tienen una arquitectura avanzada.
Es importante destacar que TriviaQA es una m茅trica que se centra en evaluar la capacidad de los modelos para responder a preguntas de conocimiento general, lo que la hace diferente de otras m茅tricas que se centran en tareas espec铆ficas como la comprensi贸n de texto o la generaci贸n de texto.