¡La Investigación MÁS IMPORTANTE que Explica el INTERIOR de una IA!

preview_player
Показать описание
Anthropic ha logrado descifrar el aprendizaje interno de su modelo Claude 3, usando una nueva técnica de interpretabilidad. Con ella han encontrado los numerosos patrones que se esconden en las tripas de la red neuronal, lo cuál no sólo ha permitido entender mejor su funcionamiento, sino también poder controlarla. Hoy explicamos este trabajo.

👉 ARTÍCULO INTERPRETABILIDAD - May. 2024

👉 ARTÍCULO INTERPRETABILIDAD - Oct. 2023

👉 PAPER INTERPRETABILIDAD - Oct. 2023

📹 EDICIÓN: Carlos Santana Vega

--- ¡MÁS DOTCSV! ----

📣 NotCSV - ¡Canal Secundario!

-- ¡MÁS CIENCIA! ---

🔬 Este canal forma parte de la red de divulgación de SCENIO. Si quieres conocer otros fantásticos proyectos de divulgación entra aquí:

Рекомендации по теме
Комментарии
Автор

¡No dejéis de suscribiros y compartir el vídeo para ayudar al canal a llegar al 1.000.000 DE SUBS! 🔥

DotCSV
Автор

"Ya me quiero ir a casa jordi" 🤣🤣🤣🤣🤣🤣🤣🤣 te pasaste, como alcanzaste a incluir eso en este video, una frase salida del corazón y de las neuronas de Javi intentando interpretar lo imposible.

mew
Автор

2020: las IAs nos van a destruir
2024: la IAs: soy un puente

lobo_azul
Автор

Acaban de descubrir la gallina de los huevos de oro. Encontraron la manera de meter publicidad de forma natural dentro de un LLM

jesanabriah
Автор

Antes la IA era muy segura porque no habia como obligarla a hacer algo para lo que no fue entrenada, ahora ya podemos obligarla a hacer lo que el dinero o la politica o el poder digan.

rolandojtorres
Автор

Me duelen los videos cada 1 mes, pero me encanta la calidad de cada video. une œuvre d'art <3

Sakkshi_
Автор

Excelente video @DotSCV. Tus difusiones son más sólidas que los cables del puente de San Francisco! Muchas gracias.

golfsnake
Автор

"...ya podemos decir que entre las dos empresas han tendido puentes..."

aratheonquark
Автор

🎯 Key points for quick navigation:

00:00 *🧠 Introducción a la interpretación de IA*
- Dificultad para entender el proceso de toma de decisiones de una IA,
- Importancia de la interpretabilidad en las redes neuronales,
- Ejemplo del puente de San Francisco como analogía.
02:12 *🏢 Historia de Anthropic y su enfoque ético*
- Fundación de Anthropic por los hermanos Amodei en 2021,
- Enfoque en el desarrollo de modelos éticos y seguros,
- Colaboraciones y divergencias con OpenAI.
05:14 *🧩 Complejidad de las redes neuronales*
- Comparación entre redes neuronales artificiales y cerebros humanos,
- Desafíos en la interpretación de millones de neuronas y conexiones,
- Concepto de neuronas polisemánticas y su utilidad en las redes neuronales.
07:22 *🔍 Descomposición de activaciones neuronales*
- Uso de redes neuronales autoencoder para interpretar modelos,
- Ejemplo de separación de conceptos en neuronas específicas,
- Aplicación de estas técnicas en modelos más grandes como Claude 3.
11:31 *🔧 Control de patrones neuronales*
- Identificación y manipulación de patrones de activación en IA,
- Ejemplos de cambios en el comportamiento de Claude al activar ciertos patrones,
- Experimentación con patrones relacionados con el puente de San Francisco y estafas.
18:36 *🚀 La frase de Neil Armstrong y la obsesión del modelo*
- Descripción errónea de la frase de Neil Armstrong por el modelo Claude,
- Ejemplos de cómo el modelo se obsesiona con un concepto específico.
19:29 *🧠 Importancia de la interpretabilidad*
- Relevancia de entender cómo funcionan los modelos de lenguaje,
- Comparación con el cultivo de una planta en términos de crecimiento y control,
- Necesidad de controlar el crecimiento de estos modelos para evitar daños.
20:52 *🎛️ Control y manejabilidad en IA*
- Mejoras en la capacidad de controlar modelos de IA en los últimos años,
- Técnicas para modificar el comportamiento del modelo de manera más precisa,
- Potenciales usos de estas técnicas, como detectar sesgos y personalizar experiencias de usuario.
22:59 *📚 Trabajo de interpretabilidad de Anthropic*
- Importancia y fascinación del trabajo de interpretabilidad de Anthropic,
- Documentación extensa y recursos adicionales proporcionados por Anthropic,
- Relación y similitudes con trabajos recientes de OpenAI en interpretabilidad.

Made with HARPA AI

TheSpace
Автор

Estoy empezando con el mundo de la programación y me fascina lo ingeniosa que es la gente para optimizar los procesos. Vídeo increíble, educativo y entretenido. Gracias

alexperez
Автор

jaja lo de Javi está muy bien traído...

sherlock
Автор

Me encantó tu Golden Gate, perdón, tu video.

oscarltbro
Автор

Excelente Carlos. He tratado de explorar como funciona internamente los modelos, mi perfil nacido y crecido dentro del desarrollo instructivo me fuerza a tratar de entender de buscar el como, sin lugar el trabajo de antropic nos lleva a ello y tu video que lo bordas, que haces que sea entendible conceptos y tecnologías complejas ayudan mucho en esa labor, gracias !!

greenyngchannel
Автор

La obsesion de la iA con el G.G, me recuerda a como funciona el "hiperfoco" en los Autistas al obsesionarse con un único tema

darkwin_ph
Автор

🎯 Key points for quick navigation:

00:19 *🧠 Understanding the complexity of interpreting internal AI processes*
- Discussing the challenge of interpreting AI decision-making processes
- Exploring the importance of interpretability in understanding AI models
- Introducing the concept of interpretabilidad and its role in AI research
03:16 *🔍 Antropic's focus on ethical and responsible AI development*
- Antropic's mission to develop foundational models that are ethical and safe
- Highlighting Antropic's research efforts in interpretability and model control
- Discussing the importance of understanding and controlling large AI models
07:16 *🔢 Training AI to decompose activations and identify concepts*
- Utilizing a sparse autoencoder to separate complex patterns in AI activations
- Demonstrating the process of identifying specific concepts through neuron activation patterns
- Explaining how interpreting neural activations helps understand the AI's internal representation
11:21 *🔄 Controlling AI behavior based on identified activation patterns*
- Modifying AI behavior by activating specific neuron patterns intentionally
- Exploring how adjusting neural activations can change AI responses and outputs
- Illustrating examples of altering AI behavior by manipulating neuron activations
18:36 *🤖 Importance of interpretability in understanding large language models*
- Understanding how large language models function internally is crucial.
- Incorporating these models into digital economies and technological stacks is reshaping industries.
- Neural network behavior is more akin to cultivating a plant than programming.
19:29 *🧠 Steerability in AI models*
- Efforts are focused on steerability to control the behavior of large models.
- Improvements in controlling AI models have been significant in recent years.
- Techniques like custom instructions and prompts allow for better control over AI behavior.
22:01 *🔄 Aggressive manipulability of AI models for better understanding and control*
- The ability to directly manipulate the behavior of AI models is a more aggressive form of control.
- This technique can help labs understand their models better, detect biases, and improve model safety.
- Offering a more customizable experience to users by adjusting model characteristics.

Made with HARPA AI

abadadvocat
Автор

Que excelente video. Apenas voy por el 20:03 pero se me ocurre utilizar esta técnica de obsesión artificial para poder usar modelos dedicados a una tarea sin tener que hacer un fine-turing al modelo. ¿Quieres un modelo bueno en debug?, pues maximiza las activaciones encargadas de hacer debug.

lordsinber
Автор

Esto será el primer paso para analizar cerebros humanos y si se usa correctamente, poder eliminar traumas o comportamiento no deseado en las personas, digamos que en segundos en lugar de ir a un tratamiento psicológico durante años.

prebuf
Автор

Fascinate este vídeo. Esta técnica podría ser poderosísima, tanto para limitar ciertas respuestas como para dar respuestas super orientadas. Creo que sería muy acertado llamar a esta técnica "inception", ya que le metes una idea a la IA y ya no puede salir de ahí 😂

antonio_madrid
Автор

Inteligencia Artificial aliñada con un poco de humor!!! Gracias @DotCSV

newzord
Автор

este tipo es genial!, gracias por tu trabajo, saludos desde REPUBLICA DOMINICANA

castrorilke