docs/talks/llms-at-scale/slides.html

<!DOCTYPE html>
<html lang="en"><head>
<link href="../../assets/favicon.svg" rel="icon" type="image/svg+xml">
<script src="../../site_libs/clipboard/clipboard.min.js"></script>
<script src="../../site_libs/quarto-html/tabby.min.js"></script>
<script src="../../site_libs/quarto-html/popper.min.js"></script>
<script src="../../site_libs/quarto-html/tippy.umd.min.js"></script>
<link href="../../site_libs/quarto-html/tippy.css" rel="stylesheet">
<link href="../../site_libs/quarto-html/light-border.css" rel="stylesheet">
<link href="../../site_libs/quarto-html/quarto-syntax-highlighting-3a1b321c56de4570634214b58c69b8f7.css" rel="stylesheet" id="quarto-text-highlighting-styles">
<script src="../../site_libs/quarto-contrib/iconify-2.1.0/iconify-icon.min.js"></script>
<link href="../../site_libs/quarto-contrib/fontawesome6-0.1.0/all.css" rel="stylesheet">
<link href="../../site_libs/quarto-contrib/fontawesome6-0.1.0/latex-fontsize.css" rel="stylesheet">
<script src="../../site_libs/quarto-contrib/glightbox/glightbox.min.js"></script>
<link href="../../site_libs/quarto-contrib/glightbox/glightbox.min.css" rel="stylesheet">
<link href="../../site_libs/quarto-contrib/glightbox/lightbox.css" rel="stylesheet"><meta charset="utf-8">
  <meta name="generator" content="quarto-1.7.5">

  <meta name="author" content="Sam Foreman">
  <meta name="dcterms.date" content="2024-08-09">
  <title>Sam Foreman – Training LLMs at Scale</title>
  <meta name="apple-mobile-web-app-capable" content="yes">
  <meta name="apple-mobile-web-app-status-bar-style" content="black-translucent">
  <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no, minimal-ui">
  <link rel="stylesheet" href="../../site_libs/revealjs/dist/reset.css">
  <link rel="stylesheet" href="../../site_libs/revealjs/dist/reveal.css">
  <style>
    code{white-space: pre-wrap;}
    span.smallcaps{font-variant: small-caps;}
    div.columns{display: flex; gap: min(4vw, 1.5em);}
    div.column{flex: auto; overflow-x: auto;}
    div.hanging-indent{margin-left: 1.5em; text-indent: -1.5em;}
    ul.task-list{list-style: none;}
    ul.task-list li input[type="checkbox"] {
      width: 0.8em;
      margin: 0 0.8em 0.2em -1em; /* quarto-specific, see https://github.com/quarto-dev/quarto-cli/issues/4556 */ 
      vertical-align: middle;
    }
    /* CSS for syntax highlighting */
    pre > code.sourceCode { white-space: pre; position: relative; }
    pre > code.sourceCode > span { line-height: 1.25; }
    pre > code.sourceCode > span:empty { height: 1.2em; }
    .sourceCode { overflow: visible; }
    code.sourceCode > span { color: inherit; text-decoration: inherit; }
    div.sourceCode { margin: 1em 0; }
    pre.sourceCode { margin: 0; }
    @media screen {
    div.sourceCode { overflow: auto; }
    }
    @media print {
    pre > code.sourceCode { white-space: pre-wrap; }
    pre > code.sourceCode > span { display: inline-block; text-indent: -5em; padding-left: 5em; }
    }
    pre.numberSource code
      { counter-reset: source-line 0; }
    pre.numberSource code > span
      { position: relative; left: -4em; counter-increment: source-line; }
    pre.numberSource code > span > a:first-child::before
      { content: counter(source-line);
        position: relative; left: -1em; text-align: right; vertical-align: baseline;
        border: none; display: inline-block;
        -webkit-touch-callout: none; -webkit-user-select: none;
        -khtml-user-select: none; -moz-user-select: none;
        -ms-user-select: none; user-select: none;
        padding: 0 4px; width: 4em;
      }
    pre.numberSource { margin-left: 3em;  padding-left: 4px; }
    div.sourceCode
      { color: #383a42;  }
    @media screen {
    pre > code.sourceCode > span > a:first-child::before { text-decoration: underline; }
    }
    code span { color: #383a42; } /* Normal */
    code span.al { color: #95da4c; background-color: #4d1f24; font-weight: bold; } /* Alert */
    code span.an { color: #50a14f; } /* Annotation */
    code span.at { color: #a626a4; } /* Attribute */
    code span.bn { color: #986801; } /* BaseN */
    code span.bu { color: #a626a4; } /* BuiltIn */
    code span.cf { color: #a626a4; } /* ControlFlow */
    code span.ch { color: #50a14f; } /* Char */
    code span.cn { color: #986801; } /* Constant */
    code span.co { color: #a0a1a7; font-style: italic; } /* Comment */
    code span.cv { color: #e45649; font-style: italic; } /* CommentVar */
    code span.do { color: #e45649; } /* Documentation */
    code span.dt { color: #a626a4; } /* DataType */
    code span.dv { color: #986801; } /* DecVal */
    code span.er { color: #f44747; text-decoration: underline; } /* Error */
    code span.ex { color: #4078f2; font-weight: bold; } /* Extension */
    code span.fl { color: #986801; } /* Float */
    code span.fu { color: #4078f2; } /* Function */
    code span.im { color: #50a14f; } /* Import */
    code span.in { color: #c45b00; } /* Information */
    code span.kw { color: #a626a4; } /* Keyword */
    code span.op { color: #a626a4; } /* Operator */
    code span.ot { color: #27ae60; } /* Other */
    code span.pp { color: #a626a4; } /* Preprocessor */
    code span.re { color: #2980b9; background-color: #153042; } /* RegionMarker */
    code span.sc { color: #0184bc; } /* SpecialChar */
    code span.ss { color: #da4453; } /* SpecialString */
    code span.st { color: #50a14f; } /* String */
    code span.va { color: #e45649; } /* Variable */
    code span.vs { color: #da4453; } /* VerbatimString */
    code span.wa { color: #da4453; } /* Warning */
    /* CSS for citations */
    div.csl-bib-body { }
    div.csl-entry {
      clear: both;
      margin-bottom: 0em;
    }
    .hanging-indent div.csl-entry {
      margin-left:2em;
      text-indent:-2em;
    }
    div.csl-left-margin {
      min-width:2em;
      float:left;
    }
    div.csl-right-inline {
      margin-left:2em;
      padding-left:1em;
    }
    div.csl-indent {
      margin-left: 2em;
    }  </style>
  <link rel="stylesheet" href="../../site_libs/revealjs/dist/theme/quarto-900700500f52478e259b5d0dc23713d5.css">
  <link rel="stylesheet" href="../../css/custom.css">
  <link rel="stylesheet" href="../../css/svgbob.css">
  <link rel="stylesheet" href="../../css/ibm-plex.css">
  <link rel="stylesheet" href="../../static/fonts/IosevkaAileSansQPss15/IosevkaAileSansQPss15.css">
  <link rel="stylesheet" href="../../static/fonts/IosevkaSansTerminalss15Custom/IosevkaSansTerminalss15Custom.css">
  <link rel="stylesheet" href="../../static/fonts/iosevka-custom/iosevka-custom.css">
  <script>window.backupDefine = window.define; window.define = undefined;</script><script src="https://cdn.jsdelivr.net/npm/katex@latest/dist/katex.min.js"></script>
  <script>document.addEventListener("DOMContentLoaded", function () {
 var mathElements = document.getElementsByClassName("math");
 var macros = [];
 for (var i = 0; i < mathElements.length; i++) {
  var texText = mathElements[i].firstChild;
  if (mathElements[i].tagName == "SPAN") {
   katex.render(texText.data, mathElements[i], {
    displayMode: mathElements[i].classList.contains('display'),
    throwOnError: false,
    macros: macros,
    fleqn: false
   });
}}});
  </script>
  <script>window.define = window.backupDefine; window.backupDefine = undefined;</script><link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@latest/dist/katex.min.css">
  <script async="" src="https://www.googletagmanager.com/gtag/js?id=G-XVM2Y822Y1"></script>

  <script type="text/javascript">

  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());
  gtag('config', 'G-XVM2Y822Y1', { 'anonymize_ip': true});
  </script>
  <link href="../../site_libs/revealjs/plugin/quarto-line-highlight/line-highlight.css" rel="stylesheet">
  <link href="../../site_libs/revealjs/plugin/reveal-menu/menu.css" rel="stylesheet">
  <link href="../../site_libs/revealjs/plugin/reveal-menu/quarto-menu.css" rel="stylesheet">
  <link href="../../site_libs/revealjs/plugin/reveal-chalkboard/font-awesome/css/all.css" rel="stylesheet">
  <link href="../../site_libs/revealjs/plugin/reveal-chalkboard/style.css" rel="stylesheet">
  <link href="../../site_libs/revealjs/plugin/quarto-support/footer.css" rel="stylesheet">
  <style type="text/css">
    .reveal div.sourceCode {
      margin: 0;
      overflow: auto;
    }
    .reveal div.hanging-indent {
      margin-left: 1em;
      text-indent: -1em;
    }
    .reveal .slide:not(.center) {
      height: 100%;
      overflow-y: auto;
    }
    .reveal .slide.scrollable {
      overflow-y: auto;
    }
    .reveal .footnotes {
      height: 100%;
      overflow-y: auto;
    }
    .reveal .slide .absolute {
      position: absolute;
      display: block;
    }
    .reveal .footnotes ol {
      counter-reset: ol;
      list-style-type: none; 
      margin-left: 0;
    }
    .reveal .footnotes ol li:before {
      counter-increment: ol;
      content: counter(ol) ". "; 
    }
    .reveal .footnotes ol li > p:first-child {
      display: inline-block;
    }
    .reveal .slide ul,
    .reveal .slide ol {
      margin-bottom: 0.5em;
    }
    .reveal .slide ul li,
    .reveal .slide ol li {
      margin-top: 0.4em;
      margin-bottom: 0.2em;
    }
    .reveal .slide ul[role="tablist"] li {
      margin-bottom: 0;
    }
    .reveal .slide ul li > *:first-child,
    .reveal .slide ol li > *:first-child {
      margin-block-start: 0;
    }
    .reveal .slide ul li > *:last-child,
    .reveal .slide ol li > *:last-child {
      margin-block-end: 0;
    }
    .reveal .slide .columns:nth-child(3) {
      margin-block-start: 0.8em;
    }
    .reveal blockquote {
      box-shadow: none;
    }
    .reveal .tippy-content>* {
      margin-top: 0.2em;
      margin-bottom: 0.7em;
    }
    .reveal .tippy-content>*:last-child {
      margin-bottom: 0.2em;
    }
    .reveal .slide > img.stretch.quarto-figure-center,
    .reveal .slide > img.r-stretch.quarto-figure-center {
      display: block;
      margin-left: auto;
      margin-right: auto; 
    }
    .reveal .slide > img.stretch.quarto-figure-left,
    .reveal .slide > img.r-stretch.quarto-figure-left  {
      display: block;
      margin-left: 0;
      margin-right: auto; 
    }
    .reveal .slide > img.stretch.quarto-figure-right,
    .reveal .slide > img.r-stretch.quarto-figure-right  {
      display: block;
      margin-left: auto;
      margin-right: 0; 
    }
  </style>
  <meta name="mermaid-theme" content="neutral">
  <script src="../../site_libs/quarto-diagram/mermaid.min.js"></script>
  <script src="../../site_libs/quarto-diagram/mermaid-init.js"></script>
  <link href="../../site_libs/quarto-diagram/mermaid.css" rel="stylesheet">
  <!-- Google Tag Manager -->
  <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src='https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);})(window,document,'script','dataLayer','GTM-TC329HJ');</script>
  <!-- End Google Tag Manager -->
  <link rel="preconnect" href="https://fonts.googleapis.com">
  <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin="">
  <link href="https://fonts.googleapis.com/css2?family=IBM+Plex+Mono:ital,wght@0,100;0,200;0,300;0,400;0,500;0,600;0,700;1,100;1,200;1,300;1,400;1,500;1,600;1,700&amp;family=IBM+Plex+Sans+Condensed:ital,wght@0,100;0,200;0,300;0,400;0,500;0,600;0,700;1,100;1,200;1,300;1,400;1,500;1,600;1,700&amp;family=IBM+Plex+Sans:ital,wght@0,100;0,200;0,300;0,400;0,500;0,600;0,700;1,100;1,200;1,300;1,400;1,500;1,600;1,700&amp;family=IBM+Plex+Serif:ital,wght@0,100;0,200;0,300;0,400;0,500;0,600;0,700;1,100;1,200;1,300;1,400;1,500;1,600;1,700&amp;display=swap" rel="stylesheet">
  <link href="https://iosevka-webfonts.github.io/iosevka/Iosevka.css" rel="stylesheet">
<meta property="og:title" content="Training LLMs at Scale">
<meta property="og:description" content="Training LLMs at Scale">
<meta property="og:image" content="https://samforeman.me/talks/llms-at-scale/assets/thumbnail.png">
<meta property="og:site_name" content="Sam Foreman">
<meta property="og:image:height" content="1600">
<meta property="og:image:width" content="3840">
<meta name="twitter:title" content="Training LLMs at Scale">
<meta name="twitter:description" content="Training LLMs at Scale">
<meta name="twitter:image" content="https://samforeman.me/talks/llms-at-scale/assets/thumbnail.png">
<meta name="twitter:creator" content="saforem2">
<meta name="twitter:site" content="saforem2">
<meta name="twitter:card" content="summary">
<meta name="twitter:image-height" content="1600">
<meta name="twitter:image-width" content="3840">
<meta name="citation_title" content="Training LLMs at Scale">
<meta name="citation_author" content="Sam Foreman">
<meta name="citation_publication_date" content="2024-08-09">
<meta name="citation_cover_date" content="2024-08-09">
<meta name="citation_year" content="2024">
<meta name="citation_online_date" content="2024-08-09">
<meta name="citation_fulltext_html_url" content="https://samforeman.me/talks/llms-at-scale">
<meta name="citation_language" content="en">
<meta name="citation_reference" content="citation_title=Superconductivity of in and sn samples;,citation_author=George Deamont;,citation_author=Sam Foreman;,citation_publication_date=2014;,citation_cover_date=2014;,citation_year=2014;">
<meta name="citation_reference" content="citation_title=RG-inspired machine learning for lattice field theory;,citation_author=Sam Foreman;,citation_author=Joel Giedt;,citation_author=Yannick Meurice;,citation_author=Judah Unmuth-Yockey;,citation_publication_date=2018;,citation_cover_date=2018;,citation_year=2018;,citation_volume=175;,citation_conference_title=EPJ web of conferences;,citation_conference=EDP Sciences;">
<meta name="citation_reference" content="citation_title=Large energy density in three-plate nanocapacitors due to coulomb blockade;,citation_author=A Hubler;,citation_author=S Foreman;,citation_author=J Liu;,citation_author=L Wortsmann;,citation_publication_date=2018;,citation_cover_date=2018;,citation_year=2018;,citation_issue=10;,citation_volume=123;,citation_journal_title=Journal of Applied Physics;,citation_publisher=AIP Publishing;">
<meta name="citation_reference" content="citation_title=Examples of renormalization group transformations for image sets;,citation_author=Samuel Foreman;,citation_author=Joel Giedt;,citation_author=Yannick Meurice;,citation_author=Judah Unmuth-Yockey;,citation_publication_date=2018;,citation_cover_date=2018;,citation_year=2018;,citation_issue=5;,citation_volume=98;,citation_journal_title=Physical Review E;,citation_publisher=American Physical Society;">
<meta name="citation_reference" content="citation_title=Machine learning inspired analysis of the ising model transition;,citation_author=Samuel Foreman;,citation_author=Joel Giedt;,citation_author=Yannick Meurice;,citation_author=Judah Unmuth-Yockey;,citation_publication_date=2018;,citation_cover_date=2018;,citation_year=2018;,citation_conference_title=Lattice 2018;">
<meta name="citation_reference" content="citation_title=Learning better physics: A machine learning approach to lattice gauge theory;,citation_author=Samuel Alfred Foreman;,citation_publication_date=2019;,citation_cover_date=2019;,citation_year=2019;,citation_dissertation_institution=University of Iowa;">
<meta name="citation_reference" content="citation_title=Machine learning and neural networks for field theory;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C Osborn;,citation_publication_date=2020;,citation_cover_date=2020;,citation_year=2020;">
<meta name="citation_reference" content="citation_title=Deep learning hamiltonian monte carlo;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C Osborn;,citation_publication_date=2021;,citation_cover_date=2021;,citation_year=2021;,citation_journal_title=arXiv preprint arXiv:2105.03418;">
<meta name="citation_reference" content="citation_title=HMC with normalizing flows;,citation_author=Sam Foreman;,citation_author=Taku Izubuchi;,citation_author=Luchang Jin;,citation_author=Xiao-Yong Jin;,citation_author=James C Osborn;,citation_author=Akio Tomiya;,citation_publication_date=2021;,citation_cover_date=2021;,citation_year=2021;,citation_journal_title=arXiv preprint arXiv:2112.01586;">
<meta name="citation_reference" content="citation_title=LeapfrogLayers: A trainable framework for effective topological sampling;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C Osborn;,citation_publication_date=2021;,citation_cover_date=2021;,citation_year=2021;,citation_journal_title=arXiv preprint arXiv:2112.01582;">
<meta name="citation_reference" content="citation_title=Energy storage in quantum resonators;,citation_author=Jiaqi Liu;,citation_author=Alfred W Hubler;,citation_author=Samuel Alfred Foreman;,citation_author=Katharina Ott;,citation_publication_date=2017;,citation_cover_date=2017;,citation_year=2017;">
<meta name="citation_reference" content="citation_title=Applications of machine learning to lattice quantum field theory;,citation_author=Denis Boyda;,citation_author=Salvatore Calı̀;,citation_author=Sam Foreman;,citation_author=Lena Funcke;,citation_author=Daniel C Hackett;,citation_author=Yin Lin;,citation_author=Gert Aarts;,citation_author=Andrei Alexandru;,citation_author=Xiao-Yong Jin;,citation_author=Biagio Lucini;,citation_author=others;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_journal_title=arXiv preprint arXiv:2202.05838;">
<meta name="citation_reference" content="citation_title=Lattice QCD and particle physics;,citation_author=Andreas S Kronfeld;,citation_author=Tanmoy Bhattacharya;,citation_author=Thomas Blum;,citation_author=Norman H Christ;,citation_author=Carleton DeTar;,citation_author=William Detmold;,citation_author=Robert Edwards;,citation_author=Anna Hasenfratz;,citation_author=Huey-Wen Lin;,citation_author=Swagato Mukherjee;,citation_author=others;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_journal_title=arXiv preprint arXiv:2207.07641;">
<meta name="citation_reference" content="citation_title=GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics;,citation_author=Maxim Zvyagin;,citation_author=Alexander Brace;,citation_author=Kyle Hippe;,citation_author=Yuntian Deng;,citation_author=Bin Zhang;,citation_author=Cindy Orozco Bohorquez;,citation_author=Austin Clyde;,citation_author=Bharat Kale;,citation_author=Danilo Perez-Rivera;,citation_author=Heng Ma;,citation_author=others;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_issue=6;,citation_volume=37;,citation_journal_title=The International Journal of High Performance Computing Applications;,citation_publisher=SAGE Publications Sage UK: London, England;">
<meta name="citation_reference" content="citation_title=MLMC: Machine learning monte carlo;,citation_author=Sam Foreman;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_conference_title=The international symposium on lattice field theory;">
<meta name="citation_reference" content="citation_title=Superconductivity of in and sn samples;,citation_author=George Deamont;,citation_author=Sam Foreman;,citation_publication_date=2014;,citation_cover_date=2014;,citation_year=2014;">
<meta name="citation_reference" content="citation_title=A comprehensive performance study of large language models on novel AI accelerators;,citation_author=Murali Emani;,citation_author=Sam Foreman;,citation_author=Varuni Sastry;,citation_author=Zhen Xie;,citation_author=Siddhisanket Raskar;,citation_author=William Arnold;,citation_author=Rajeev Thakur;,citation_author=Venkatram Vishwanath;,citation_author=Michael E Papka;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_journal_title=arXiv preprint arXiv:2310.04607;">
<meta name="citation_reference" content="citation_title=DeepSpeed4Science initiative: Enabling large-scale scientific discovery through sophisticated AI system technologies;,citation_author=Shuaiwen Leon Song;,citation_author=Bonnie Kruft;,citation_author=Minjia Zhang;,citation_author=Conglong Li;,citation_author=Shiyang Chen;,citation_author=Chengming Zhang;,citation_author=Masahiro Tanaka;,citation_author=Xiaoxia Wu;,citation_author=Jeff Rasley;,citation_author=Ammar Ahmad Awan;,citation_author=others;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_journal_title=arXiv preprint arXiv:2310.04610;">
<meta name="citation_reference" content="citation_title=Protein generation via genome-scale language models with bio-physical scoring;,citation_author=Gautham Dharuman;,citation_author=Logan Ward;,citation_author=Heng Ma;,citation_author=Priyanka V Setty;,citation_author=Ozan Gokdemir;,citation_author=Sam Foreman;,citation_author=Murali Emani;,citation_author=Kyle Hippe;,citation_author=Alexander Brace;,citation_author=Kristopher Keipert;,citation_author=others;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_conference_title=Proceedings of the SC’23 workshops of the international conference on high performance computing, network, storage, and analysis;">
<meta name="citation_reference" content="citation_title=MLMC: Machine learning monte carlo for lattice gauge theory;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C Osborn;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_journal_title=arXiv preprint arXiv:2312.08936;">
<meta name="citation_reference" content="citation_title=Snowmass 2021 computational frontier CompF03 topical group report: Machine learning;,citation_author=Phiala Shanahan;,citation_author=Kazuhiro Terao;,citation_author=Daniel Whiteson;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_journal_title=arXiv preprint arXiv:2209.07559;">
<meta name="citation_reference" content="citation_title=Thorough characterization and analysis of large transformer model training at-scale;,citation_author=Scott Cheng;,citation_author=Jun-Liang Lin;,citation_author=Murali Emani;,citation_author=Siddhisanket Raskar;,citation_author=Sam Foreman;,citation_author=Zhen Xie;,citation_author=Venkatram Vishwanath;,citation_author=Mahmut Taylan Kandemir;,citation_publication_date=2024;,citation_cover_date=2024;,citation_year=2024;,citation_issue=1;,citation_volume=8;,citation_journal_title=Proceedings of the ACM on Measurement and Analysis of Computing Systems;,citation_publisher=ACM New York, NY, USA;">
<meta name="citation_reference" content="citation_title=Communities through energy justice projects;,citation_author=Mary Ann Leung;,citation_author=Katharine Cahill;,citation_author=Rebecca Hartman-Baker;,citation_author=Paige Kinsley;,citation_author=Lois Curfman McInnes;,citation_author=Suzanne Parete-Koon;,citation_author=Subil Abraham;,citation_author=Lacy Beach Barrier;,citation_author=Gladys Chen;,citation_author=Lizanne DeStefano;,citation_author=others;,citation_publication_date=2024;,citation_cover_date=2024;,citation_year=2024;,citation_issue=1;,citation_volume=15;,citation_journal_title=Journal of Computational Science;">
<meta name="citation_reference" content="citation_title=Applications of a foundation model approach for weather and climate;,citation_author=Troy Arcomano;,citation_author=Alexander Wikner;,citation_author=Romit Maulik;,citation_author=Veerabhadra Rao Kotamarthi;,citation_author=Sam Foreman;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_volume=2023;,citation_conference_title=AGU fall meeting abstracts;">
<meta name="citation_reference" content="citation_title=Toward a holistic performance evaluation of large language models across diverse ai accelerators;,citation_author=Murali Emani;,citation_author=Sam Foreman;,citation_author=Varuni Sastry;,citation_author=Zhen Xie;,citation_author=Siddhisanket Raskar;,citation_author=William Arnold;,citation_author=Rajeev Thakur;,citation_author=Venkatram Vishwanath;,citation_author=Michael E Papka;,citation_author=Sanjif Shanmugavelu;,citation_author=others;,citation_publication_date=2024;,citation_cover_date=2024;,citation_year=2024;,citation_conference_title=2024 IEEE international parallel and distributed processing symposium workshops (IPDPSW);,citation_conference=IEEE;">
<meta name="citation_reference" content="citation_title=Intro to HPC bootcamp: Engaging new communities through energy justice projects;,citation_author=Suzanne Parete-Koon;,citation_author=Michael Sandoval;,citation_author=Kellen Leland;,citation_author=Subil Abraham;,citation_author=Mary Ann Leung;,citation_author=Rebecca Hartman-Baker;,citation_author=Paige Kinsley;,citation_author=Lois McInnes;,citation_author=Sreeranjani Ramprakash;,citation_author=Lacy Beach Barrier;,citation_author=others;,citation_publication_date=2024;,citation_cover_date=2024;,citation_year=2024;,citation_issue=1;,citation_volume=15;,citation_journal_title=Journal of Computational Science Education;,citation_publisher=Oak Ridge National Laboratory (ORNL), Oak Ridge, TN (United States);">
<meta name="citation_reference" content="citation_title=MProt-DPO: Breaking the ExaFLOPS barrier for multimodal protein design workflows with direct preference optimization;,citation_author=Gautham Dharuman;,citation_author=Kyle Hippe;,citation_author=Alexander Brace;,citation_author=Sam Foreman;,citation_author=Väinä Hatanpää;,citation_author=Varuni K Sastry;,citation_author=Huihuo Zheng;,citation_author=Logan Ward;,citation_author=Servesh Muralidharan;,citation_author=Archit Vasan;,citation_author=others;,citation_publication_date=2024;,citation_cover_date=2024;,citation_year=2024;,citation_conference_title=2024 SC24: International conference for high performance computing, networking, storage and analysis SC;,citation_conference=IEEE Computer Society;">
<meta name="citation_reference" content="citation_title=Emergent abilities of large language models;,citation_author=Jason Wei;,citation_author=Yi Tay;,citation_author=Rishi Bommasani;,citation_author=Colin Raffel;,citation_author=Barret Zoph;,citation_author=Sebastian Borgeaud;,citation_author=Dani Yogatama;,citation_author=Maarten Bosma;,citation_author=Denny Zhou;,citation_author=Donald Metzler;,citation_author=Ed H. Chi;,citation_author=Tatsunori Hashimoto;,citation_author=Oriol Vinyals;,citation_author=Percy Liang;,citation_author=Jeff Dean;,citation_author=William Fedus;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2206.07682;">
<meta name="citation_reference" content="citation_title=DeepSpeed4Science initiative: Enabling large-scale scientific discovery through sophisticated AI system technologies;,citation_author=Shuaiwen Leon Song;,citation_author=Bonnie Kruft;,citation_author=Minjia Zhang;,citation_author=Conglong Li;,citation_author=Shiyang Chen;,citation_author=Chengming Zhang;,citation_author=Masahiro Tanaka;,citation_author=Xiaoxia Wu;,citation_author=Jeff Rasley;,citation_author=Ammar Ahmad Awan;,citation_author=Connor Holmes;,citation_author=Martin Cai;,citation_author=Adam Ghanem;,citation_author=Zhongzhu Zhou;,citation_author=Yuxiong He;,citation_author=Pete Luferenko;,citation_author=Divya Kumar;,citation_author=Jonathan Weyn;,citation_author=Ruixiong Zhang;,citation_author=Sylwester Klocek;,citation_author=Volodymyr Vragov;,citation_author=Mohammed AlQuraishi;,citation_author=Gustaf Ahdritz;,citation_author=Christina Floristean;,citation_author=Cristina Negri;,citation_author=Rao Kotamarthi;,citation_author=Venkatram Vishwanath;,citation_author=Arvind Ramanathan;,citation_author=Sam Foreman;,citation_author=Kyle Hippe;,citation_author=Troy Arcomano;,citation_author=Romit Maulik;,citation_author=Maxim Zvyagin;,citation_author=Alexander Brace;,citation_author=Bin Zhang;,citation_author=Cindy Orozco Bohorquez;,citation_author=Austin Clyde;,citation_author=Bharat Kale;,citation_author=Danilo Perez-Rivera;,citation_author=Heng Ma;,citation_author=Carla M. Mann;,citation_author=Michael Irvin;,citation_author=J. Gregory Pauloski;,citation_author=Logan Ward;,citation_author=Valerie Hayot;,citation_author=Murali Emani;,citation_author=Zhen Xie;,citation_author=Diangen Lin;,citation_author=Maulik Shukla;,citation_author=Ian Foster;,citation_author=James J. Davis;,citation_author=Michael E. Papka;,citation_author=Thomas Brettin;,citation_author=Prasanna Balaprakash;,citation_author=Gina Tourassi;,citation_author=John Gounley;,citation_author=Heidi Hanson;,citation_author=Thomas E Potok;,citation_author=Massimiliano Lupo Pasini;,citation_author=Kate Evans;,citation_author=Dan Lu;,citation_author=Dalton Lunga;,citation_author=Junqi Yin;,citation_author=Sajal Dash;,citation_author=Feiyi Wang;,citation_author=Mallikarjun Shankar;,citation_author=Isaac Lyngaas;,citation_author=Xiao Wang;,citation_author=Guojing Cong;,citation_author=Pei Zhang;,citation_author=Ming Fan;,citation_author=Siyan Liu;,citation_author=Adolfy Hoisie;,citation_author=Shinjae Yoo;,citation_author=Yihui Ren;,citation_author=William Tang;,citation_author=Kyle Felker;,citation_author=Alexey Svyatkovskiy;,citation_author=Hang Liu;,citation_author=Ashwin Aji;,citation_author=Angela Dalton;,citation_author=Michael Schulte;,citation_author=Karl Schulz;,citation_author=Yuntian Deng;,citation_author=Weili Nie;,citation_author=Josh Romero;,citation_author=Christian Dallago;,citation_author=Arash Vahdat;,citation_author=Chaowei Xiao;,citation_author=Thomas Gibbs;,citation_author=Anima Anandkumar;,citation_author=Rick Stevens;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_fulltext_html_url=https://arxiv.org/abs/2310.04610;">
<meta name="citation_reference" content="citation_title=Emergent abilities of large language models;,citation_author=Jason Wei;,citation_author=Yi Tay;,citation_author=Rishi Bommasani;,citation_author=Colin Raffel;,citation_author=Barret Zoph;,citation_author=Sebastian Borgeaud;,citation_author=Dani Yogatama;,citation_author=Maarten Bosma;,citation_author=Denny Zhou;,citation_author=Donald Metzler;,citation_author=Ed H. Chi;,citation_author=Tatsunori Hashimoto;,citation_author=Oriol Vinyals;,citation_author=Percy Liang;,citation_author=Jeff Dean;,citation_author=William Fedus;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2206.07682;">
<meta name="citation_reference" content="citation_title=The climate risk &amp;amp;amp; resilience portal (ClimRR) metadata and data dictionary;,citation_author=C. Burdi;,citation_author=Wall. T Branham;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_fulltext_html_url=https://dub.sh/ClimRR-Metadata;">
<meta name="citation_reference" content="citation_title=Progress on $(g-2)_\mu$ from lattice QCD;,citation_author=Hartmut Wittig;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_fulltext_html_url=https://arxiv.org/abs/2306.04165;">
<meta name="citation_reference" content="citation_title=Hybrid Monte Carlo;,citation_author=S. Duane;,citation_author=A. D. Kennedy;,citation_author=B. J. Pendleton;,citation_author=D. Roweth;,citation_publication_date=1987;,citation_cover_date=1987;,citation_year=1987;,citation_doi=10.1016/0370-2693(87)91197-X;,citation_volume=195;,citation_journal_title=Phys. Lett. B;">
<meta name="citation_reference" content="citation_title=Snowmass 2021 Computational Frontier CompF03 Topical Group Report: Machine Learning;,citation_author=Phiala Shanahan;,citation_author=others;,citation_publication_date=2022-09;,citation_cover_date=2022-09;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2209.07559;">
<meta name="citation_reference" content="citation_title=Applications of Machine Learning to Lattice Quantum Field Theory;,citation_author=Denis Boyda;,citation_author=others;,citation_publication_date=2022-02;,citation_cover_date=2022-02;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2202.05838;,citation_conference_title=Snowmass 2021;">
<meta name="citation_reference" content="citation_title=HMC with Normalizing Flows;,citation_author=Sam Foreman;,citation_author=Taku Izubuchi;,citation_author=Luchang Jin;,citation_author=Xiao-Yong Jin;,citation_author=James C. Osborn;,citation_author=Akio Tomiya;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2112.01586;,citation_doi=10.22323/1.396.0073;,citation_volume=LATTICE2021;,citation_journal_title=PoS;">
<meta name="citation_reference" content="citation_title=LeapfrogLayers: A Trainable Framework for Effective Topological Sampling;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C. Osborn;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2112.01582;,citation_doi=10.22323/1.396.0508;,citation_volume=LATTICE2021;,citation_journal_title=PoS;">
<meta name="citation_reference" content="citation_title=Deep Learning Hamiltonian Monte Carlo;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C. Osborn;,citation_publication_date=2021-05;,citation_cover_date=2021-05;,citation_year=2021;,citation_fulltext_html_url=https://arxiv.org/abs/2105.03418;,citation_conference_title=9th International Conference on Learning Representations;">
<meta name="citation_reference" content="citation_title=Energy Justice Analysis of Climate Data with ClimRR;,citation_author=Sam Foreman;,citation_publication_date=2023-08-07;,citation_cover_date=2023-08-07;,citation_year=2023;,citation_fulltext_html_url=https://saforem2.github.io/climate-analysis;,citation_language=en;">
<meta name="citation_reference" content="citation_author=Sam Foreman;,citation_publication_date=2023-08-19;,citation_cover_date=2023-08-19;,citation_year=2023;,citation_fulltext_html_url=https://saforem2.github.io/l2hmc-qcd;,citation_language=en;">
<meta name="citation_reference" content="citation_title=Deep learning hamiltonian monte carlo;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C. Osborn;,citation_publication_date=2021;,citation_cover_date=2021;,citation_year=2021;,citation_fulltext_html_url=https://arxiv.org/abs/2105.03418;">
<meta name="citation_reference" content="citation_title=MLMC: Machine learning monte carlo for lattice gauge theory;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James Osborn;,citation_publication_date=00;,citation_cover_date=00;,citation_year=0;,citation_conference_title=40th international symposium on lattice field theory (lattice 2023) (batavia, IL, united states, 07/31/2023 - 08/04/2023);">
<meta name="citation_reference" content="citation_title=Progress on $(g-2)_\mu$ from lattice QCD;,citation_author=Hartmut Wittig;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_fulltext_html_url=https://arxiv.org/abs/2306.04165;">
<meta name="citation_reference" content="citation_title=Hybrid Monte Carlo;,citation_author=S. Duane;,citation_author=A. D. Kennedy;,citation_author=B. J. Pendleton;,citation_author=D. Roweth;,citation_publication_date=1987;,citation_cover_date=1987;,citation_year=1987;,citation_doi=10.1016/0370-2693(87)91197-X;,citation_volume=195;,citation_journal_title=Phys. Lett. B;">
<meta name="citation_reference" content="citation_title=Snowmass 2021 Computational Frontier CompF03 Topical Group Report: Machine Learning;,citation_author=Phiala Shanahan;,citation_author=others;,citation_publication_date=2022-09;,citation_cover_date=2022-09;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2209.07559;">
<meta name="citation_reference" content="citation_title=Applications of Machine Learning to Lattice Quantum Field Theory;,citation_author=Denis Boyda;,citation_author=others;,citation_publication_date=2022-02;,citation_cover_date=2022-02;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2202.05838;,citation_conference_title=Snowmass 2021;">
<meta name="citation_reference" content="citation_title=LeapfrogLayers: A Trainable Framework for Effective Topological Sampling;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C. Osborn;,citation_publication_date=2022-05;,citation_cover_date=2022-05;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2112.01582;,citation_doi=10.22323/1.396.0508;,citation_volume=LATTICE2021;,citation_journal_title=PoS;">
<meta name="citation_reference" content="citation_title=HMC with Normalizing Flows;,citation_author=Sam Foreman;,citation_author=Taku Izubuchi;,citation_author=Luchang Jin;,citation_author=Xiao-Yong Jin;,citation_author=James C. Osborn;,citation_author=Akio Tomiya;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_fulltext_html_url=https://arxiv.org/abs/2112.01586;,citation_doi=10.22323/1.396.0073;,citation_volume=LATTICE2021;,citation_journal_title=PoS;">
<meta name="citation_reference" content="citation_title=Deep Learning Hamiltonian Monte Carlo;,citation_author=Sam Foreman;,citation_author=Xiao-Yong Jin;,citation_author=James C. Osborn;,citation_publication_date=2021-05;,citation_cover_date=2021-05;,citation_year=2021;,citation_fulltext_html_url=https://arxiv.org/abs/2105.03418;,citation_conference_title=9th International Conference on Learning Representations;">
<meta name="citation_reference" content="citation_title=Mastering language models;,citation_author=Samuel Montgomery;,citation_publication_date=2023-10;,citation_cover_date=2023-10;,citation_year=2023;,citation_fulltext_html_url=https://towardsdatascience.com/mastering-language-models-32e1d891511a
           ;,citation_journal_title=Medium;,citation_publisher=Towards Data Science;">
<meta name="citation_reference" content="citation_title=Harnessing the power of LLMs in practice: A survey on ChatGPT and beyond;,citation_author=Jingfeng Yang;,citation_author=Hongye Jin;,citation_author=Ruixiang Tang;,citation_author=Xiaotian Han;,citation_author=Qizhang Feng;,citation_author=Haoming Jiang;,citation_author=Bing Yin;,citation_author=Xia Hu;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_fulltext_html_url=https://arxiv.org/abs/2304.13712;">
<meta name="citation_reference" content="citation_title=Training tips for the transformer model;,citation_author=Martin Popel;,citation_author=Ondřej Bojar;,citation_publication_date=2018-04;,citation_cover_date=2018-04;,citation_year=2018;,citation_fulltext_html_url=https://doi.org/10.2478%2Fpralin-2018-0002;,citation_issue=1;,citation_doi=10.2478/pralin-2018-0002;,citation_volume=110;,citation_journal_title=The Prague Bulletin of Mathematical Linguistics;,citation_publisher=Charles University in Prague, Karolinum Press;">
<meta name="citation_reference" content="citation_title=Attention is all you need;,citation_author=Ashish Vaswani;,citation_author=Noam Shazeer;,citation_author=Niki Parmar;,citation_author=Jakob Uszkoreit;,citation_author=Llion Jones;,citation_author=Aidan N. Gomez;,citation_author=Lukasz Kaiser;,citation_author=Illia Polosukhin;,citation_publication_date=2017;,citation_cover_date=2017;,citation_year=2017;,citation_fulltext_html_url=https://arxiv.org/abs/1706.03762;">
<meta name="citation_reference" content="citation_title=Tree of thoughts: Deliberate problem solving with large language models;,citation_author=Shunyu Yao;,citation_author=Dian Yu;,citation_author=Jeffrey Zhao;,citation_author=Izhak Shafran;,citation_author=Thomas L. Griffiths;,citation_author=Yuan Cao;,citation_author=Karthik Narasimhan;,citation_publication_date=2023;,citation_cover_date=2023;,citation_year=2023;,citation_fulltext_html_url=https://arxiv.org/abs/2305.10601;">
<meta name="citation_reference" content="citation_title=GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics;,citation_abstract=We seek to transform how new and emergent variants of pandemiccausing viruses, specifically SARS-CoV-2, are identified and classified. By adapting large language models (LLMs) for genomic data, we build genome-scale language models (GenSLMs) which can learn the evolutionary landscape of SARS-CoV-2 genomes. By pretraining on over 110 million prokaryotic gene sequences and finetuning a SARS-CoV-2-specific model on 1.5 million genomes, we show that GenSLMs can accurately and rapidly identify variants of concern. Thus, to our knowledge, GenSLMs represents one of the first whole genome scale foundation models which can generalize to other prediction tasks. We demonstrate scaling of GenSLMs on GPU-based supercomputers and AI-hardware accelerators utilizing 1.63 Zettaflops in training runs with a sustained performance of 121 PFLOPS in mixed precision and peak of 850 PFLOPS. We present initial scientific insights from examining GenSLMs in tracking evolutionary dynamics of SARS-CoV-2, paving the path to realizing this on large biological data.Competing Interest StatementThe authors have declared no competing interest.;,citation_author=Maxim Zvyagin;,citation_author=Alexander Brace;,citation_author=Kyle Hippe;,citation_author=Yuntian Deng;,citation_author=Bin Zhang;,citation_author=Cindy Orozco Bohorquez;,citation_author=Austin Clyde;,citation_author=Bharat Kale;,citation_author=Danilo Perez-Rivera;,citation_author=Heng Ma;,citation_author=Carla M. Mann;,citation_author=Michael Irvin;,citation_author=J. Gregory Pauloski;,citation_author=Logan Ward;,citation_author=Valerie Hayot-Sasson;,citation_author=Murali Emani;,citation_author=Sam Foreman;,citation_author=Zhen Xie;,citation_author=Diangen Lin;,citation_author=Maulik Shukla;,citation_author=Weili Nie;,citation_author=Josh Romero;,citation_author=Christian Dallago;,citation_author=Arash Vahdat;,citation_author=Chaowei Xiao;,citation_author=Thomas Gibbs;,citation_author=Ian Foster;,citation_author=James J. Davis;,citation_author=Michael E. Papka;,citation_author=Thomas Brettin;,citation_author=Rick Stevens;,citation_author=Anima Anandkumar;,citation_author=Venkatram Vishwanath;,citation_author=Arvind Ramanathan;,citation_publication_date=2022;,citation_cover_date=2022;,citation_year=2022;,citation_fulltext_html_url=https://www.biorxiv.org/content/early/2022/11/23/2022.10.10.511571;,citation_doi=10.1101/2022.10.10.511571;,citation_journal_title=bioRxiv;,citation_publisher=Cold Spring Harbor Laboratory;">
</head>
<body class="quarto-light">
<!-- Google Tag Manager (noscript) -->
<noscript><iframe src="https://www.googletagmanager.com/ns.html?id=GTM-TC329HJ" height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
<!-- End Google Tag Manager (noscript) -->
  <div class="reveal">
    <div class="slides">

<section id="title-slide" background-color="white" data-background-color="white" data-background-iframe="https://emilhvitfeldt.github.io/quarto-iframe-examples/colored-particles/index.html" data-background-size="contain" class="quarto-title-block center">
  <div class="quarto-title-container" style="background-color: rgba(245,245,245, 0.875); border-radius: 10px; text-align:center; padding: 0px; padding-left: 1.5em; padding-right: 1.5em; max-width: min-content; min-width: max-content; margin-left: auto; margin-right: auto; padding-top: 0.2em; padding-bottom: 0.2em; line-height: 1.5em!important;">
    <h1 class="title">Training LLMs at Scale</h1>
            <p class="author">Sam Foreman</p>
                <p class="date">2024-08-09</p>
            <p class="location">@ ATPESC 2024</p>
            <p class="slide-url"></p>
      </div>
</section>
<section id="links" class="slide level2 center" data-background-color="white">
<h2>🔗 Links</h2>
<ul>
<li><p>🏡 <a href="https://samforeman.me">samforeman.me</a>:</p>
<ul>
<li>🦜 <a href="https://samforeman.me/talks/">Talks</a>:
<ul>
<li><a href="https://samforeman.me/talks/llms-at-scale/">Training LLMs at Scale</a> [<a href="https://samforeman.me/talks/llms-at-scale/slides.html">slides</a>]</li>
</ul></li>
<li>📦 <a href="https://github.com/saforem2/">Repos</a>:
<ul>
<li><a href="https://github.com/saforem2/ezpz">🍋 <code>saforem2/ezpz</code></a><br>
<span class="dim-text">Train your model across any number of arbitrary devices, ezpz.</span></li>
<li><a href="https://github.com/saforem2/wordplay">💬 <code>saforem2/wordplay</code></a><br>
<span class="dim-text">Playing with words.</span></li>
<li><a href="https://github.com/argonne-lcf/Megatron-DeepSpeed">🏎️ <code>argonne-lcf/Megatron-DeepSpeed</code></a><br>
<span class="dim-text">For only the largest of large language models.</span> </li>
</ul></li>
</ul></li>
</ul>
</section>
<section id="about-me" class="title-slide slide level1 center" data-background-color="white">
<h1>🧑🏻‍💻 About Me</h1>
<ul>
<li>Computational Scientist at Argonne National Laboratory (ALCF)</li>
<li>Interested in {AI, HPC} for science
<ul>
<li>working on scaling large (language, vision, multi-modal) models</li>
</ul></li>
</ul>
<p>As a member of the <a href="https://www.alcf.anl.gov/about/people/group/506">AI / ML Group</a> at <a href="https://alcf.anl.gov">ALCF</a>, I work on:</p>
<div class="flex-container">
<div class="flex-container">
<ul>
<li>🤖 🧪 <a href="https://github.com/saforem2/">AI + Science</a></li>
<li>🎲 <a href="https://github.com/saforem2/l2hmc-qcd">Building better sampling methods for Lattice QCD</a></li>
<li>🧬 <a href="https://www.biorxiv.org/content/10.1101/2022.10.10.511571v2">Genome-Scale Language Models</a>
<ul>
<li><a href="https://github.com/ramanathanlab/genslm"><iconify-icon role="img" inline="" icon="logos:github-octocat" aria-label="Icon github-octocat from logos Iconify.design set." title="Icon github-octocat from logos Iconify.design set."></iconify-icon> GenSLM</a></li>
<li>🥇 <a href="https://www.acm.org/media-center/2022/november/gordon-bell-special-prize-covid-research-2022">ACM Gordon Bell Special Prize</a></li>
</ul></li>
</ul>
</div>
<div class="flex-container">
<ul>
<li>🌍 <a href="https://saforem2.github.io/climate-analysis">Foundation models for long term climate forecasting</a></li>
<li>🏃‍♂️ <a href="https://github.com/argonne-lcf/Megatron-DeepSpeed">Scaling Large Language Models</a></li>
<li>🏎️ <a href="https://github.com/argonne-lcf/mlprof">Distributed training across thousands of GPUs</a></li>
</ul>
</div>
</div>
</section>

<section>
<section id="scaling-overview" class="title-slide slide level1 center scrollable" data-background-color="white">
<h1>🚀 Scaling: Overview</h1>
<ul>
<li>✅ <strong>Goal</strong>:
<ul>
<li>📈 Maximize: Performance </li>
<li>📉 Minimize: Cost<sup>1</sup>
<ul>
<li>or, equivalently, 📈 <strong>maximize</strong> data throughput<sup>2</sup></li>
</ul></li>
</ul></li>
</ul>

<aside><div>
<p><strong>Note</strong>: See <a href="https://huggingface.co/docs/transformers/v4.17.0/en/performance">🤗 Performance and Scalability: How To Fit a Bigger Model and Train It Faster</a> for more details</p>
</div><ol class="aside-footnotes"><li id="fn1"><p>Typically, the amount of time (💸) spent training</p></li><li id="fn2"><p>Typically want to utilize as much of GPU as possible</p></li></ol></aside></section>
<section id="ai-compute-historical" class="slide level2 centeredslide smaller center" data-background-color="white">
<h2>AI 🤝 Compute [Historical]</h2>
<div class="flex-container">
<div class="col1" style="font-size: 0.85em; width:35%;">
<ul>
<li><strong>First Era</strong>:
<ul>
<li>[1960 – 2012]</li>
<li><em>2 year</em> doubling (Moore’s law)
<ul>
<li><span class="math inline">\simeq 7\times</span> increase</li>
</ul></li>
</ul></li>
</ul>
<p>&nbsp;<br></p>
<ul>
<li><strong>Modern Era</strong>:
<ul>
<li>[2012 – present]</li>
<li><strong>3.4 month</strong> doubling
<ul>
<li><span class="math inline">\simeq \mathbf{300,000}\times</span> increase</li>
</ul></li>
</ul></li>
</ul>
</div>
<div class="quarto-figure quarto-figure-center">
<figure>
<p><a href="./assets/ai-and-compute-all.png" class="lightbox" data-gallery="quarto-lightbox-gallery-1" title="Source."><img data-src="./assets/ai-and-compute-all.png" alt="Source."></a></p>
<figcaption><a href="https://openai.com/research/ai-and-compute">Source.</a></figcaption>
</figure>
</div>
</div>
</section>
<section id="ai-compute-modern" class="slide level2 centeredslide smaller center" data-background-color="white">
<h2>AI 🤝 Compute [Modern]</h2>
<div class="flex-container">
<div class="col1" style="font-size: 0.85em; width:35%;">
<ul>
<li><strong>First Era</strong>:
<ul>
<li>[1960 – 2012]</li>
<li><em>2 year</em> doubling (Moore’s law)
<ul>
<li><span class="math inline">\simeq 7\times</span> increase</li>
</ul></li>
</ul></li>
</ul>
<p>&nbsp;<br></p>
<ul>
<li><strong>Modern Era</strong>:
<ul>
<li>[2012 – present]</li>
<li><strong>3.4 month</strong> doubling
<ul>
<li><span class="math inline">\simeq \mathbf{300,000}\times</span> increase</li>
</ul></li>
</ul></li>
</ul>
</div>
<div class="col2">
<div class="quarto-figure quarto-figure-center">
<figure>
<p><a href="./assets/ai-and-compute-modern-log.png" class="lightbox" data-gallery="quarto-lightbox-gallery-2" title="Source."><img data-src="./assets/ai-and-compute-modern-log.png" alt="Source."></a></p>
<figcaption><a href="https://openai.com/research/ai-and-compute">Source.</a></figcaption>
</figure>
</div>
</div>
</div>
</section></section>
<section id="parallelism-concepts" class="title-slide slide level1 scroll-container smaller center scrollable" data-background-color="white" data-scrollable="true" style="max-height: 700px; overflow-y: scroll;">
<h1>Parallelism Concepts</h1>
<div class="panel-tabset" style="font-size: 0.9em;">
<ul id="tabset-1" class="panel-tabset-tabby"><li><a data-tabby-default="" href="#tabset-1-1">Single GPU</a></li><li><a href="#tabset-1-2">Data Parallel (DP)</a></li><li><a href="#tabset-1-3">Tensor Parallel (TP)</a></li><li><a href="#tabset-1-4">Pipeline Parallel (PP)</a></li><li><a href="#tabset-1-5"><iconify-icon role="img" inline="" icon="logos:microsoft-icon" aria-label="Icon microsoft-icon from logos Iconify.design set." title="Icon microsoft-icon from logos Iconify.design set."></iconify-icon> ZeRO</a></li><li><a href="#tabset-1-6">FSDP</a></li></ul>
<div class="tab-content" style="font-size: 0.9em;">
<div id="tabset-1-1">
<div id="fig-single-gpu" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-single-gpu-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="./assets/single-gpu-step-1.drawio.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-3" title="Figure&nbsp;1: SLOW !! model size limited by GPU memory"><img data-src="./assets/single-gpu-step-1.drawio.svg"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-single-gpu-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;1: <strong>SLOW</strong> !! model size limited by GPU memory
</figcaption>
</figure>
</div>
</div>
<div id="tabset-1-2">
<div class="flex-container">
<div class="col1" style="font-size: 0.85em; width:45%;">
<ul>
<li><p>The simplest and most common parallelism technique</p></li>
<li><p>Workers maintain <em>identical copies</em> of the <em>complete</em> model and work on a <em>subset of the data</em></p>
<ul>
<li>Multiple copies of <strong>the same setup</strong>
<ul>
<li>each copy gets fed <strong>unique</strong> data</li>
<li>all copies compute gradients w.r.t local model</li>
<li>everyone syncs up before updating weights</li>
</ul></li>
</ul></li>
<li><p>The processing is done in parallel and all setups are synchronized at the end of each training step.</p></li>
</ul>
</div>
<div id="fig-ddp-training" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-ddp-training-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="./assets/multi-gpu-ddp.drawio.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-4" title="Figure&nbsp;2: Data Parallel Training"><img data-src="./assets/multi-gpu-ddp.drawio.svg" style="width:90.0%"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-ddp-training-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;2: Data Parallel Training
</figcaption>
</figure>
</div>
</div>
</div>
<div id="tabset-1-3">
<div class="flex-container">
<div class="col1" style="font-size: 0.85em; width:45%;">
<ul>
<li>Each tensor is split up into multiple chunks</li>
<li>So, instead of having the whole tensor reside on a single GPU, each shard of the tensor resides on its designated GPU
<ul>
<li>During processing each shard gets processed separately and in parallel on different GPUs and the results are synced at the end of the step.</li>
<li>This is what one may call horizontal parallelism, as the splitting happens on horizontal level.</li>
</ul></li>
</ul>
</div>
<div id="fig-model-parallel-1" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-model-parallel-1-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://saforem2.github.io/distributed-training-slides/assets/model-parallel.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-5" title="Figure&nbsp;3: Tensor Parallel Training"><img data-src="https://saforem2.github.io/distributed-training-slides/assets/model-parallel.svg"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-model-parallel-1-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;3: Tensor Parallel Training
</figcaption>
</figure>
</div>
</div>

</div>
<div id="tabset-1-4">
<div class="flex-container">
<div class="col1" style="width:35%;">
<ul>
<li>Model is split up vertically (layer-level) across multiple GPUs, so that only one or several layers of the model are places on a single GPU
<ul>
<li>Each GPU processes in parallel different stages of the pipeline and working on a small chunk of the batch.</li>
</ul></li>
</ul>
</div>
<div id="fig-pipeline-parallelism" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-pipeline-parallelism-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="assets/pipeline_parallelism.png" class="lightbox" data-gallery="quarto-lightbox-gallery-6" title="Figure&nbsp;4: Pipeline Parallelism"><img data-src="assets/pipeline_parallelism.png"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-pipeline-parallelism-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;4: <a href="https://www.deepspeed.ai/tutorials/pipeline/">Pipeline Parallelism</a>
</figcaption>
</figure>
</div>
</div>
</div>
<div id="tabset-1-5">
<div id="fig-zero-stages" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-zero-stages-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/parallelism-zero.png" class="lightbox" data-gallery="quarto-lightbox-gallery-7" title="Figure&nbsp;5: DeepSpeed + ZeRO"><img data-src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/parallelism-zero.png"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-zero-stages-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;5: <a href="deepspeed.ai">DeepSpeed</a> + <code>ZeRO</code>
</figcaption>
</figure>
</div>
<div class="flex-container">
<div class="col1" style="font-size: 0.75em;">
<ul>
<li><p>Shards tensors (~ similar to TP), <em>except</em>:</p>
<ul>
<li><p><strong>whole tensor</strong> gets reconstructed as needed</p></li>
<li><p>Doesn’t require model modifications !!</p></li>
</ul></li>
<li><p>Depending on the <code>ZeRO</code> stage (1, 2, 3), we can offload:</p>
<ol type="1">
<li><p><strong>Stage 1</strong>: optimizer states</p></li>
<li><p><strong>Stage 2</strong>: gradients + opt. states</p></li>
<li><p><strong>Stage 3</strong>: model params + grads + opt. states</p></li>
</ol>
<p><span class="dim-text">with increasing <code>ZeRO</code> stage, we are able to free up increasing amounts of GPU memory</span></p></li>
</ul>
</div>
<div class="col2" style="font-size: 0.75em;">
<ul>
<li><p><code>ZeRO</code> Data Parallel</p>
<ul>
<li><code>ZeRO</code> powered data parallelism is shown below</li>
</ul></li>
<li><p>It also supports various offloading techniques to compensate for limited GPU memory.</p></li>
<li><p>🔗 See also:</p>
<ul>
<li><a href="https://deepspeed.readthedocs.io/en/latest/zero3.html">ZeRO — DeepSpeed 0.14.5 documentation</a></li>
<li><a href="https://www.deepspeed.ai/tutorials/zero-offload/">ZeRO-Offload</a></li>
<li><a href="https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/">ZeRO &amp; DeepSpeed: New system optimizations enable training models with over 100 billion parameters - Microsoft Research</a></li>
</ul></li>
</ul>
</div>
</div>
</div>
<div id="tabset-1-6">
<div class="flex-container">
<div class="col1" style="width: 33%">
<ul>
<li>Instead of maintaining per-GPU copy of <code>{params, grads, opt_states}</code>, FSDP shards (distributes) these across data-parallel workers
<ul>
<li>can optionally offload the sharded model params to CPU</li>
</ul></li>
</ul>
</div>
<div class="quarto-figure quarto-figure-center">
<figure>
<p><a href="assets/fsdp.png" class="lightbox" data-gallery="quarto-lightbox-gallery-8" title="FSDP Workflow. Source"><img data-src="assets/fsdp.png" alt="FSDP Workflow. Source"></a></p>
<figcaption>FSDP Workflow. <a href="https://pytorch.org/blog/introducing-pytorch-fully-sharded-data-parallel-api/">Source</a></figcaption>
</figure>
</div>
</div>
<ul>
<li>🔗 See also:
<ul>
<li><a href="https://pytorch.org/blog/introducing-pytorch-fully-sharded-data-parallel-api/">Introducing PyTorch Fully Sharded Data Parallel (FSDP) API | PyTorch</a></li>
</ul></li>
</ul>
</div>
</div>
</div>
<aside><div>
<p>See: <a href="https://huggingface.co/docs/transformers/v4.15.0/parallelism">🤗 Model Parallelism</a> for additional details</p>
</div></aside></section>

<section>
<section id="data-parallelism" class="title-slide slide level1 center" data-background-color="white">
<h1>Data Parallelism</h1>

</section>
<section id="data-parallel-training" class="slide level2 centeredslide smaller center" data-background-color="white" data-auto-animate="true">
<h2 data-id="quarto-animate-title">Data Parallel Training</h2>
<div class="flex-container">
<div class="col1" style="font-size: 0.85em; width:45%;">
<ul>
<li>Relatively simple to get up and running (minor modifications to code)</li>
<li><i class="fa-brands fa-github" aria-label="github"></i> <a href="https://github.com/saforem2/ezpz"><code>saforem2/ezpz</code></a></li>
<li><a href="https://pytorch.org/docs/stable/notes/ddp.html">PyTorch – DDP</a></li>
<li><a href="https://www.deepspeed.ai/"><iconify-icon role="img" inline="" icon="logos:microsoft-icon" aria-label="Icon microsoft-icon from logos Iconify.design set." title="Icon microsoft-icon from logos Iconify.design set."></iconify-icon> DeepSpeed</a></li>
</ul>
</div>
<div id="fig-avgGrads" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-avgGrads-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://saforem2.github.io/distributed-training-slides/assets/avgGrads.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-9" title="Figure&nbsp;6: Data Parallelism"><img data-src="https://saforem2.github.io/distributed-training-slides/assets/avgGrads.svg"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-avgGrads-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;6: Data Parallelism
</figcaption>
</figure>
</div>
</div>

<aside><div>
<p>Also see: <a href="https://youtu.be/930yrXjNkgM">🎬 “Parallel Training Techniques”_</a></p>
</div></aside></section>
<section id="deal-with-data" class="slide level2 smaller center scrollable" data-background-color="white">
<h2>Deal with Data</h2>
<ul>
<li><p>At each training step, we want to ensure that <strong>each worker receives unique data</strong></p></li>
<li><p>This can be done in one of two ways:</p>
<ol type="1">
<li>Manually partition data (ahead of time) and assign different sections to different workers
<ol type="1">
<li>Each worker can only see their local portion of the data</li>
</ol></li>
<li>From each worker, randomly select a mini-batch
<ol type="1">
<li>Each worker can see the full dataset</li>
</ol></li>
</ol>
<div title="⚠️ Warning">
<div class="callout callout-warning no-icon callout-titled callout-style-default">
<div class="callout-body">
<div class="callout-title">
<p><strong>⚠️ Warning</strong></p>
</div>
<div class="callout-content">
<p>Don’t forget your seed!</p>
<p>When randomly selecting, it is important that each worker uses different seeds to ensure they receive unique data</p>
</div>
</div>
</div>
</div></li>
</ul>
</section>
<section id="broadcast-initial-state" class="slide level2 center" data-background-color="white">
<h2>Broadcast Initial State</h2>
<ul>
<li><p>At the start of training (or when loading from a checkpoint), we want all of our workers to be initialized consistently</p>
<ul>
<li><strong>Broadcast</strong> the model and optimizer states from <code>rank() == 0</code> worker</li>
</ul></li>
</ul>
<div class="cell" data-reveal="true" data-layout-align="center">
<div class="cell-output-display">
<div>
<p></p><figure class=""><p></p>
<div>
<pre class="mermaid mermaid-js">  flowchart TD
    0["GPU0"] --&gt; 1["GPU 1"]
    0 --&gt; 2["GPU 2"]
    0 --&gt;|Model + Optimizer State| 3["GPU 3"]
    0 --&gt; ...
    0 --&gt; N["GPU N"]
</pre>
</div>
<p></p></figure><p></p>
</div>
</div>
</div>
</section>
<section id="best-practices" class="slide level2 smaller center" data-background-color="white">
<h2>Best Practices</h2>
<div title="🤝 Keeping things in Sync">
<div class="callout callout-important no-icon callout-titled callout-style-default">
<div class="callout-body">
<div class="callout-title">
<p><strong>🤝 Keeping things in Sync</strong></p>
</div>
<div class="callout-content">
<p><strong>Computation stalls during communication !!</strong></p>
<p>Keeping the communication to computation ratio small is important for effective scaling.</p>
</div>
</div>
</div>
</div>
<ul>
<li>Use parallel IO whenever possible
<ul>
<li>Feed each rank from different files</li>
<li>Use MPI IO to have each rank read its own batch from a file</li>
<li>Use several ranks to read data, MPI to scatter to remaining ranks
<ul>
<li>Most practical in big <em>at-scale</em> training</li>
</ul></li>
</ul></li>
<li>Take advantage of data storage
<ul>
<li>Use <a href="https://wiki.lustre.org/Configuring_Lustre_File_Striping">striping on lustre</a></li>
<li>Use the right optimizations for Aurora, Polaris, etc.</li>
</ul></li>
<li>Preload data when possible
<ul>
<li>Offloading to a GPU frees CPU cycles for loading the next batch of data
<ul>
<li><strong>minimize IO latency this way</strong></li>
</ul></li>
</ul></li>
</ul>
</section>
<section id="why-distributed-training" class="slide level2 center scrollable" data-background-color="white">
<h2>Why Distributed Training?</h2>
<ul>
<li>Splitting data across workers <span class="math inline">\longrightarrow</span> larger batch size<sup>1</sup>
<ul>
<li>[<code>micro_batch_size = 1</code>] <span class="math inline">\times</span> [<code>N</code> GPUs] <span class="math inline">\rightarrow</span> [<b><code>global_batch_size = N</code></b>]</li>
</ul></li>
<li>Smooth loss landscape</li>
<li>Improved gradient estimators</li>
<li>Less iterations needed for same number of epochs
<ul>
<li>May need to train for more epochs if another change is not made</li>
<li>e.g.&nbsp;scaling learning rate</li>
</ul></li>
<li>See <a href="https://arxiv.org/abs/1708.03888">Large Batch Training of Convolutional Networks</a></li>
</ul>
<aside><ol class="aside-footnotes"><li id="fn3"><p><code>micro_batch_size</code> = batch_size <strong>per</strong> GPU</p></li></ol></aside></section>
<section id="recent-progress" class="slide level2 center" data-background-color="white">
<h2>Recent Progress</h2>
<div style="display: -webkit-inline-box; max-width: -webkit-fill-available; overflow: auto; font-size: 0.7em; font-family: monospace;">
<table class="caption-top">
<colgroup>
<col style="width: 7%">
<col style="width: 9%">
<col style="width: 11%">
<col style="width: 11%">
<col style="width: 23%">
<col style="width: 24%">
<col style="width: 12%">
</colgroup>
<thead>
<tr class="header">
<th style="text-align: center;">Year</th>
<th style="text-align: center;">Author</th>
<th style="text-align: center;">Batch Size</th>
<th style="text-align: center;">GPU</th>
<th style="text-align: center;"># GPUs</th>
<th style="text-align: center;">TIME</th>
<th style="text-align: center;">ACC</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">2016</td>
<td style="text-align: center;">He</td>
<td style="text-align: center;">256</td>
<td style="text-align: center;">P100</td>
<td style="text-align: center;"><span class="red-text">8</span></td>
<td style="text-align: center;"><span class="red-text">29 Hour</span></td>
<td style="text-align: center;">75.30%</td>
</tr>
<tr class="even">
<td style="text-align: center;">2019</td>
<td style="text-align: center;">Yamazaki</td>
<td style="text-align: center;">81,920</td>
<td style="text-align: center;">V100</td>
<td style="text-align: center;"><span class="blue-text">2048</span></td>
<td style="text-align: center;"><span class="blue-text">1.2 Min</span></td>
<td style="text-align: center;">75.08%</td>
</tr>
</tbody>
</table>
</div>
</section></section>
<section id="deciding-on-a-parallelism-strategy" class="title-slide slide level1 smaller center scrollable" data-background-color="white">
<h1>Deciding on a Parallelism Strategy</h1>
<div class="panel-tabset">
<ul id="tabset-2" class="panel-tabset-tabby"><li><a data-tabby-default="" href="#tabset-2-1">Single GPU</a></li><li><a href="#tabset-2-2">Single Node / Multi-GPU</a></li><li><a href="#tabset-2-3">Multi-Node / Multi-GPU</a></li></ul>
<div class="tab-content">
<div id="tabset-2-1">
<ul>
<li>Model fits onto a single GPU:
<ul>
<li>Normal use</li>
</ul></li>
<li>Model <strong>DOES NOT</strong> fit on a single GPU:
<ul>
<li><code>ZeRO</code> + Offload CPU (or, optionally, <code>NVMe</code>)</li>
</ul></li>
<li>Largest layer <strong>DOES NOT</strong> fit on a single GPU:
<ul>
<li><code>ZeRO</code> + Enable <a href="https://deepspeed.readthedocs.io/en/latest/zero3.html#memory-centric-tiling">Memory Centric Tiling (MCT)</a>
<ul>
<li>MCT Allows running of arbitrarily large layers by automatically splitting them and executing them sequentially.</li>
</ul></li>
</ul></li>
</ul>
</div>
<div id="tabset-2-2">
<ul>
<li><p>Model fits onto a single GPU</p>
<ul>
<li><a href="https://pytorch.org/docs/stable/notes/ddp.html"><code>DDP</code></a></li>
<li><a href="https://deepspeed.readthedocs.io/en/latest/zero3.html"><code>ZeRO</code></a></li>
</ul></li>
<li><p>Model <strong>DOES NOT</strong> fit onto a single GPU[^connectivity]</p>
<ol type="1">
<li><a href="https://www.deepspeed.ai/tutorials/pipeline/">Pipeline Parallelism (<code>PP</code>)</a></li>
<li><a href="https://deepspeed.readthedocs.io/en/latest/zero3.html"><code>ZeRO</code></a></li>
<li><a href="https://pytorch.org/docs/stable/distributed.tensor.parallel.html">Tensor Parallelism (<code>TP</code>)</a></li>
</ol></li>
<li><p>With sufficiently fast connectivity between nodes, these three strategies should be comparable.</p>
<p>Otherwise, <code>PP</code> <span class="math inline">&gt;</span> <code>ZeRO</code> <span class="math inline">\simeq</span> <code>TP</code>.</p></li>
</ul>
</div>
<div id="tabset-2-3">
<ul>
<li><p>When you have fast inter-node connectivity:</p>
<ul>
<li><code>ZeRO</code> (virtually <strong>NO</strong> modifications)</li>
<li><code>PP</code> + <code>ZeRO</code> + <code>TP</code> + <code>DP</code> (less communication, at the cost of <strong>MAJOR</strong> modifications)
<ul>
<li><p>when you have slow inter-node connectivity and still low on GPU memory:</p>
<div class="sourceCode" id="cb1"><pre class="sourceCode numberSource bash number-lines code-with-copy"><code class="sourceCode bash"><span id="cb1-1"><a></a><span class="ex">DP</span> + PP + TP + ZeRO-1</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div></li>
</ul></li>
<li><strong>NOTE</strong>: <code>TP</code> is almost <em>always</em> used within a single node, e.g.&nbsp;<code>TP &lt;= GPUS_PER_NODE</code></li>
</ul></li>
</ul>
</div>
</div>
</div>
</section>

<section>
<section id="tensor-model-parallel-training-example" class="title-slide slide level1 smaller center scrollable" data-background-color="white">
<h1>Tensor (/ Model) Parallel Training: Example</h1>
<p><span class="math display">
\begin{align*}
y &amp;= \sum_{i} w_{i} * x_{i} \\
&amp;= w_0 * x_0 + w_1 * x_1 + w_2 * x_2
\end{align*}
</span></p>
<ol type="1">
<li>Compute <span class="math inline">y_{0} = w_{0} * x_{0}</span> and send to <span class="math inline">\longrightarrow</span> <code>GPU1</code></li>
<li>Compute <span class="math inline">y_{1} = y_{0} + w_{1} * x_{1}</span> and send to <span class="math inline">\longrightarrow</span> <code>GPU2</code></li>
<li>Compute <span class="math inline">y = y_{1} + w_{2} * x_{2}</span> ✅</li>
</ol>
<div class="cell" data-reveal="true" data-layout-align="center">
<div class="cell-output-display">
<div>
<p></p><figure class=""><p></p>
<div>
<pre class="mermaid mermaid-js">flowchart LR
  subgraph X0["GPU0"]
    direction LR
    a["w0"]
  end
  subgraph X1["GPU1"]
    direction LR
    b["w1"]
  end
  subgraph X2["GPU2"]
    direction LR
    c["w2"]
  end
  X1 &amp; X0 &lt;--&gt; X2
  X0 &lt;--&gt; X1
  x["x0, x1, x2"] --&gt; X0
</pre>
</div>
<p></p></figure><p></p>
</div>
</div>
</div>
</section>
<section id="model-parallel-training" class="slide level2 center" data-background-color="white">
<h2>Model Parallel Training</h2>
<div>

</div>
<div class="quarto-layout-panel" data-layout="[60,40]">
<div class="quarto-layout-row">
<div class="col1 quarto-layout-cell" style="flex-basis: 60.0%;justify-content: flex-start;">
<ul>
<li>Split up network over multiple workers
<ul>
<li>Each receives disjoint subset</li>
<li>All communication associated with subsets are distributed</li>
</ul></li>
<li>Communication whenever dataflow between two subsets</li>
<li>Typically <strong>more complicated</strong> to implement than data parallel training</li>
<li>Suitable when the model is too large to fit onto a single device (CPU / GPU)</li>
<li><i class="fa-brands fa-github" aria-label="github"></i> <a href="https://github.com/argonne-lcf/Megatron-DeepSpeed"><code>argonne-lcf/Megatron-DeepSpeed</code></a></li>
<li>🤗 <a href="https://github.com/huggingface/nanotron"><code>huggingface/nanotron</code></a></li>
</ul>
</div>
<div class="quarto-layout-cell" style="flex-basis: 40.0%;justify-content: flex-start;">
<div id="fig-model-parallel-1" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-model-parallel-1-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://saforem2.github.io/distributed-training-slides/assets/model-parallel.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-10" title="Figure&nbsp;7: "><img data-src="https://saforem2.github.io/distributed-training-slides/assets/model-parallel.svg" id="fig-model-parallel-1"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig quarto-uncaptioned" id="fig-model-parallel-1-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;7
</figcaption>
</figure>
</div>
</div>
</div>
</div>
</section>
<section id="tensor-model-parallelismefficient-large-scale" class="slide level2 center scrollable" data-background-color="white">
<h2>Tensor (Model) Parallelism<sup>1</sup></h2>
<ul>
<li><p>In <strong>Tensor Paralleism</strong> each GPU processes only a slice of a tensor and only aggregates the full tensor for operations that require the whole thing.</p>
<ul>
<li><p>The main building block of any transformer is a fully connected nn.Linear followed by a nonlinear activation GeLU.</p>
<ul>
<li><code>Y = GeLU(XA)</code>, where X and Y are the input and output vectors, and A is the weight matrix.</li>
</ul></li>
<li><p>If we look at the computation in matrix form, it’s easy to see how the matrix multiplication can be split between multiple GPUs:</p></li>
</ul></li>
</ul>
<aside><ol class="aside-footnotes"><li id="fn4"><p><a href="https://arxiv.org/abs/2104.04473">Efficient Large-Scale Language Model Training on GPU Clusters</a></p></li></ol></aside></section>
<section id="tensor-parallelism" class="slide level2 scrollable center" data-background-color="white" style="max-height: 100%;">
<h2>Tensor Parallelism</h2>
<div id="fig-parallel-gemm" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-parallel-gemm-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="assets/parallelism-tp-parallel_gemm.png" class="lightbox" data-gallery="quarto-lightbox-gallery-11" title="Figure&nbsp;8: Tensor Parallel GEMM. This information is based on (the much more in-depth) TP Overview by @anton-l"><img data-src="assets/parallelism-tp-parallel_gemm.png"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-parallel-gemm-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;8: Tensor Parallel GEMM. This information is based on (the much more in-depth) <a href="https://github.com/huggingface/transformers/issues/10321#issuecomment-783543530">TP Overview</a> by <a href="https://github.com/anton-l">@anton-l</a>
</figcaption>
</figure>
</div>
</section>
<section id="d-parallelism" class="slide level2 center" data-background-color="white">
<h2>3D Parallelism</h2>
<ul>
<li><code>DP</code> + <code>TP</code> + <code>PP</code> (3D) Parallelism</li>
</ul>
<div id="fig-3dparallel" class="quarto-float quarto-figure quarto-figure-center" style="text-align:center!important;">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-3dparallel-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="assets/parallelism-deepspeed-3d.png" class="lightbox" data-gallery="quarto-lightbox-gallery-12" title="Figure&nbsp;9: Figure taken from 3D parallelism: Scaling to trillion-parameter models"><img data-src="assets/parallelism-deepspeed-3d.png"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-3dparallel-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;9: Figure taken from <a href="https://www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/">3D parallelism: Scaling to trillion-parameter models</a>
</figcaption>
</figure>
</div>
</section></section>
<section>
<section id="collective-communication" class="title-slide slide level1 smaller center" data-background-color="white">
<h1>Collective Communication</h1>
<p>Typically, we assign 1 <code>rank</code> to each GPU (or <code>accelerator</code>), i.e.&nbsp;<code>rank</code> <span class="math inline">\in</span> <code>[0, 1, ..., WORLD_SIZE-1]</code>.</p>
<div class="panel-tabset">
<ul id="tabset-3" class="panel-tabset-tabby"><li><a data-tabby-default="" href="#tabset-3-1"><code>AllReduce</code></a></li><li><a href="#tabset-3-2"><code>Reduce</code></a></li><li><a href="#tabset-3-3"><code>Broadcast</code></a></li><li><a href="#tabset-3-4"><code>AllGather</code></a></li><li><a href="#tabset-3-5"><code>Scatter</code></a></li></ul>
<div class="tab-content">
<div id="tabset-3-1">
<ul>
<li>Perform <em>reductions</em> on data (e.g.&nbsp;<code>sum</code>, <code>min</code>, <code>max</code>) across ranks, send result back to everyone</li>
</ul>
<div id="fig-allreduce" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-allreduce-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="./assets/collective-allreduce-sum.drawio.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-13" title="Figure&nbsp;10: All-Reduce operation: each rank receives the reduction of input values across ranks."><img data-src="./assets/collective-allreduce-sum.drawio.svg" style="width:50.0%"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-allreduce-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;10: All-Reduce operation: each rank receives the reduction of input values across ranks.
</figcaption>
</figure>
</div>
</div>
<div id="tabset-3-2">
<ul>
<li>Perform a <em>reduction</em> on data across ranks, send to individual</li>
</ul>
<div id="fig-reduce" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-reduce-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="./assets/collective-reduce-sum.drawio.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-14" title="Figure&nbsp;11: Reduce operation: one rank receives the reduction of input values across ranks"><img data-src="./assets/collective-reduce-sum.drawio.svg" style="width:50.0%"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-reduce-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;11: Reduce operation: one rank receives the reduction of input values across ranks
</figcaption>
</figure>
</div>
</div>
<div id="tabset-3-3">
<ul>
<li><code>broadcast</code> (<em>send</em>) a tensor <code><span class="math inline">x</span></code> from one rank to all ranks</li>
</ul>
<div id="fig-broadcast" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-broadcast-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="./assets/collective-broadcast.drawio.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-15" title="Figure&nbsp;12: "><img data-src="./assets/collective-broadcast.drawio.svg" style="width:50.0%"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig quarto-uncaptioned" id="fig-broadcast-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;12
</figcaption>
</figure>
</div>
</div>
<div id="tabset-3-4">
<ul>
<li>Gathers tensors from the whole group in a list.</li>
</ul>
<div id="fig-allgather" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-allgather-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="./assets/collective-allgather.drawio.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-16" title="Figure&nbsp;13: "><img data-src="./assets/collective-allgather.drawio.svg" style="width:50.0%"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig quarto-uncaptioned" id="fig-allgather-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;13
</figcaption>
</figure>
</div>
</div>
<div id="tabset-3-5">
<ul>
<li>Scatters a list of tensors to the whole group</li>
</ul>
<div id="fig-scatter" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-scatter-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="./assets/collective-scatter.drawio.svg" class="lightbox" data-gallery="quarto-lightbox-gallery-17" title="Figure&nbsp;14: "><img data-src="./assets/collective-scatter.drawio.svg" style="width:50.0%"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig quarto-uncaptioned" id="fig-scatter-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;14
</figcaption>
</figure>
</div>
</div>
</div>
</div>
</section>
<section id="collective-operations" class="slide level2 center" data-background-color="white">
<h2>Collective Operations</h2>
<div title="⌛ Timeouts">
<div class="callout callout-warning no-icon callout-titled callout-style-default">
<div class="callout-body">
<div class="callout-title">
<p><strong>⌛ Timeouts</strong></p>
</div>
<div class="callout-content">
<ul>
<li>Collective operations have to be called for each <code>rank</code> to form a complete collective operation.
<ul>
<li>Failure to do so will result in other ranks waiting <strong>indefinitely</strong></li>
</ul></li>
</ul>
</div>
</div>
</div>
</div>
</section></section>
<section>
<section id="large-language-models" class="title-slide slide level1 smaller center scrollable" data-background-color="white">
<h1>Large Language Models</h1>
<div class="flex-container" style="flex-flow: column;">
<div id="fig-llms" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-llms-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://github.com/Hannibal046/Awesome-LLM/raw/main/resources/image8.gif" class="lightbox" data-gallery="quarto-lightbox-gallery-18" title="Figure&nbsp;15: Large Language Models have (LLM)s have taken the NLP community world by storm."><img data-src="https://github.com/Hannibal046/Awesome-LLM/raw/main/resources/image8.gif"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-llms-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;15: Large Language Models have (LLM)s have taken the <del>NLP community</del> <strong>world</strong> by storm<sup>1</sup>.
</figcaption>
</figure>
</div>
</div>
<aside><ol class="aside-footnotes"><li id="fn5"><p><a href="https://github.com/Hannibal046/Awesome-LLM"><i class="fa-brands fa-github" aria-label="github"></i> <code>Hannibal046/Awesome-LLM</code></a></p></li></ol></aside></section>
<section id="emergent-abilities" class="slide level2 center" data-background-color="#FBFBFD">
<h2>Emergent Abilities</h2>
<div id="fig-emergent-abilities" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-emergent-abilities-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://github.com/saforem2/llm-lunch-talk/blob/main/docs/assets/emergent-abilities.gif?raw=true" class="lightbox" data-gallery="quarto-lightbox-gallery-19" title="Figure&nbsp;16: Emergent abilities of Large Language Models @yao2023tree"><img data-src="https://github.com/saforem2/llm-lunch-talk/blob/main/docs/assets/emergent-abilities.gif?raw=true"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-emergent-abilities-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;16: <a href="https://arxiv.org/abs/2206.07682">Emergent abilities of Large Language Models</a> <span class="citation" data-cites="yao2023tree">Yao et al. (<a href="#/bibliography" role="doc-biblioref" onclick="">2023</a>)</span>
</figcaption>
</figure>
</div>
</section>
<section id="training-llms" class="slide level2 center scrollable" data-background-color="white">
<h2>Training LLMs</h2>
<p><span class="dim-text" style="font-size: 0.8em;">Modern parallelism techniques<sup>1</sup> enable the training of large language models</span></p>
<div class="flex-container" style="align-items: flex-end;">
<div id="fig-it-hungers" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-it-hungers-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://github.com/saforem2/llm-lunch-talk/blob/main/docs/assets/it_hungers.jpeg?raw=true" class="lightbox" data-gallery="quarto-lightbox-gallery-20" title="Figure&nbsp;17: It’s hungry! @wei2022emergentabilitieslargelanguage"><img data-src="https://github.com/saforem2/llm-lunch-talk/blob/main/docs/assets/it_hungers.jpeg?raw=true"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-it-hungers-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;17: It’s hungry! <span class="citation" data-cites="wei2022emergentabilitieslargelanguage">Wei et al. (<a href="#/bibliography" role="doc-biblioref" onclick="">2022</a>)</span>
</figcaption>
</figure>
</div>
<div id="fig-evolution" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-evolution-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://github.com/Mooler0410/LLMsPracticalGuide/raw/main/imgs/survey-gif-test.gif" class="lightbox" data-gallery="quarto-lightbox-gallery-21" title="Figure&nbsp;18: Visualization from @yang2023harnessing"><img data-src="https://github.com/Mooler0410/LLMsPracticalGuide/raw/main/imgs/survey-gif-test.gif"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-evolution-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;18: Visualization from <span class="citation" data-cites="yang2023harnessing">Yang et al. (<a href="#/bibliography" role="doc-biblioref" onclick="">2023</a>)</span>
</figcaption>
</figure>
</div>
</div>
<aside><ol class="aside-footnotes"><li id="fn6"><p>See my slides on <a href="https://saforem2.github.io/parallel-training-slides">Parallel Training Techniques</a> for additional details</p></li></ol></aside></section>
<section id="life-cycle-of-the-llm" class="slide level2 center scrollable" data-auto-animate="true" data-background-color="white" style="max-width: 100%;">
<h2 data-id="quarto-animate-title">Life-Cycle of the LLM</h2>
<div class="flex-container" style="align-items: flex-end;">
<div class="col1" style="width: 40%;">
<ol type="1">
<li><p>Data collection + preprocessing</p></li>
<li><p><strong>Pre-training</strong></p>
<ul>
<li>Architecture decisions:<br>
<code>{model_size, hyperparameters,</code><br>
<code>parallelism, lr_schedule, ...}</code></li>
</ul></li>
<li><p>Supervised Fine-Tuning</p>
<ul>
<li>Instruction Tuning</li>
<li>Alignment</li>
</ul></li>
<li><p>Deploy (+ monitor, re-evaluate, etc.)</p></li>
</ol>
</div>
<div id="fig-pretrain-two" class="col2 quarto-float quarto-figure quarto-figure-center" style="width: 55%;">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-pretrain-two-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://jalammar.github.io/images/gpt3/03-gpt3-training-step-back-prop.gif" class="lightbox" data-gallery="quarto-lightbox-gallery-22" title="Figure&nbsp;19: Pre-training: Virtually all of the compute used during pre-training"><img data-src="https://jalammar.github.io/images/gpt3/03-gpt3-training-step-back-prop.gif"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-pretrain-two-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;19: <strong>Pre-training</strong>: Virtually <em>all of the compute</em> used during pre-training
</figcaption>
</figure>
</div>
</div>

<aside><div>
<p>Figure from <a href="http://jalammar.github.io/illustrated-transformer/">The Illustrated Transformer</a></p>
</div></aside></section>
<section id="forward-pass" class="slide level2 center" data-background-color="white">
<h2>Forward Pass</h2>
<div id="fig-forward-pass" class="quarto-float quarto-figure quarto-figure-center" style="width: 100%;">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-forward-pass-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/blog/assisted-generation/gif_1_1080p.mov" class="lightbox" data-gallery="quarto-lightbox-gallery-23" title="Figure&nbsp;20: Language Model trained for causal language modeling. Video from: 🤗 Generation with LLMs"><video data-src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/blog/assisted-generation/gif_1_1080p.mov" controls=""></video></a><a href="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/blog/assisted-generation/gif_1_1080p.mov">Video</a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-forward-pass-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;20: Language Model trained for causal language modeling. Video from: <a href="https://huggingface.co/docs/transformers/main/en/llm_tutorial">🤗 Generation with LLMs</a>
</figcaption>
</figure>
</div>
</section>
<section id="generating-text" class="slide level2 center" data-background-color="white">
<h2>Generating Text</h2>
<div id="fig-generating-text" class="quarto-float quarto-figure quarto-figure-center" style="width: 100%;">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-generating-text-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/blog/assisted-generation/gif_2_1080p.mov" class="lightbox" data-gallery="quarto-lightbox-gallery-24" title="Figure&nbsp;21: Language Model trained for causal language modeling."><video data-src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/blog/assisted-generation/gif_2_1080p.mov" controls=""></video></a><a href="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/blog/assisted-generation/gif_2_1080p.mov">Video</a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-generating-text-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;21: Language Model trained for causal language modeling.
</figcaption>
</figure>
</div>

<aside><div>
<p>Video from: <a href="https://huggingface.co/docs/transformers/main/en/llm_tutorial">🤗 Generation with LLMs</a></p>
</div></aside></section>
<section id="life-cycle-of-the-llm-pre-training" class="slide level2 center" data-auto-animate="true" data-background-color="white">
<h2 data-id="quarto-animate-title">Life-Cycle of the LLM: Pre-training</h2>
<p><a href="https://jalammar.github.io/images/gpt3/03-gpt3-training-step-back-prop.gif" class="lightbox" data-gallery="quarto-lightbox-gallery-25"><img data-src="https://jalammar.github.io/images/gpt3/03-gpt3-training-step-back-prop.gif"></a></p>
<p><strong>Pre-training</strong>: Virtually all of the compute used during pretraining phase</p>
</section>
<section id="life-cycle-of-the-llm-fine-tuning" class="slide level2 center scrollable" data-auto-animate="true" data-background-color="white" style="font-size: 0.8em;">
<h2 data-id="quarto-animate-title">Life-Cycle of the LLM: Fine-Tuning</h2>
<div id="fig-pretrain-two" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-pretrain-two-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://jalammar.github.io/images/gpt3/10-gpt3-fine-tuning.gif" class="lightbox" data-gallery="quarto-lightbox-gallery-26" title="Figure&nbsp;22: Fine-tuning: Fine-tuning actually updates the model’s weights to make the model better at a certain task."><img data-src="https://jalammar.github.io/images/gpt3/10-gpt3-fine-tuning.gif"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-pretrain-two-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;22: <strong>Fine-tuning</strong><sup>1</sup>: Fine-tuning actually updates the model’s weights to make the model better at a certain task.
</figcaption>
</figure>
</div>
<aside><ol class="aside-footnotes"><li id="fn7"><p>Figure from <a href="http://jalammar.github.io/illustrated-transformer/">The Illustrated Transformer</a></p></li></ol></aside></section>
<section id="assistant-models" class="slide level2 centeredslide center" data-background-color="#181D29">
<h2>Assistant Models</h2>
<div id="fig-assistant-models" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-assistant-models-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<p><span class="preview-image" style="text-align:center; margin-left:auto; margin-right: auto;"><a href="https://github.com/saforem2/LLM-tutorial/blob/main/docs/assets/jailbreak.jpeg?raw=true" class="lightbox" data-gallery="quarto-lightbox-gallery-27" title="Figure&nbsp;23: "><img data-src="https://github.com/saforem2/LLM-tutorial/blob/main/docs/assets/jailbreak.jpeg?raw=true"></a></span></p>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig quarto-uncaptioned" id="fig-assistant-models-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;23
</figcaption>
</figure>
</div>
</section></section>
<section>
<section id="ezpz" class="title-slide slide level1 centeredslide center" data-background-color="white">
<h1>🍋 <a href="https://github.com/saforem2/ezpz"><code>ezpz</code></a></h1>

</section>
<section id="clone-repos" class="slide level2 smaller center" data-background-color="white">
<h2>Clone Repo(s)</h2>
<div class="sourceCode" id="cb2"><pre class="sourceCode numberSource bash number-lines code-with-copy"><code class="sourceCode bash"><span id="cb2-1"><a></a><span class="co">#[⭐][07:33:08 AM][foremans@x3101c0s13b0n0][~/tmp]</span></span>
<span id="cb2-2"><a></a><span class="ex">$</span> mkdir ~/tmp/polaris-talk</span>
<span id="cb2-3"><a></a></span>
<span id="cb2-4"><a></a><span class="co">#[⭐][07:33:21 AM][foremans@x3101c0s13b0n0][~/tmp]</span></span>
<span id="cb2-5"><a></a><span class="ex">$</span> cd ~/tmp/polaris-talk</span>
<span id="cb2-6"><a></a></span>
<span id="cb2-7"><a></a><span class="co">#[⭐][07:33:25 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk]</span></span>
<span id="cb2-8"><a></a><span class="ex">$</span> NOW=<span class="va">$(</span><span class="ex">tstamp</span><span class="va">)</span> <span class="kw">&amp;&amp;</span> <span class="fu">mkdir</span> <span class="st">"</span><span class="va">${NOW}</span><span class="st">"</span> <span class="kw">&amp;&amp;</span> <span class="bu">cd</span> <span class="st">"</span><span class="va">${NOW}</span><span class="st">"</span> <span class="co"># &amp;&amp; mkdir "core-dumps-${NOW}" &amp;&amp; mv -v **core\.** "core-dumps-${NOW}" &amp;&amp; mv "core-dumps-${NOW}" core-dumps</span></span>
<span id="cb2-9"><a></a></span>
<span id="cb2-10"><a></a><span class="co">#[⭐][07:33:27 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327]</span></span>
<span id="cb2-11"><a></a><span class="ex">$</span> pwd</span>
<span id="cb2-12"><a></a><span class="ex">/home/foremans/tmp/polaris-talk/2024-07-17-073327</span></span>
<span id="cb2-13"><a></a></span>
<span id="cb2-14"><a></a><span class="co">#[⭐][07:33:31 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327]</span></span>
<span id="cb2-15"><a></a><span class="ex">$</span> git clone https://github.com/saforem2/ezpz ezpz <span class="kw">&amp;&amp;</span> <span class="fu">git</span> clone https://github.com/saforem2/wordplay wordplay</span>
<span id="cb2-16"><a></a><span class="ex">Cloning</span> into <span class="st">'ezpz'</span>...</span>
<span id="cb2-17"><a></a><span class="ex">remote:</span> Enumerating objects: 2134, done.<span class="kw">`</span></span>
<span id="cb2-18"><a></a><span class="ex">remote:</span> Counting objects: 100% <span class="er">(</span><span class="ex">363/363</span><span class="kw">)</span><span class="ex">,</span> done.</span>
<span id="cb2-19"><a></a><span class="ex">remote:</span> Compressing objects: 100% <span class="er">(</span><span class="ex">169/169</span><span class="kw">)</span><span class="ex">,</span> done.</span>
<span id="cb2-20"><a></a><span class="ex">remote:</span> Total 2134 <span class="er">(</span><span class="ex">delta</span> 197<span class="kw">)</span><span class="ex">,</span> reused 265 <span class="er">(</span><span class="ex">delta</span> 141<span class="kw">)</span><span class="ex">,</span> pack-reused 1771</span>
<span id="cb2-21"><a></a><span class="ex">Receiving</span> objects: 100% <span class="er">(</span><span class="ex">2134/2134</span><span class="kw">)</span><span class="ex">,</span> 4.27 MiB <span class="kw">|</span> <span class="ex">25.01</span> MiB/s, done.</span>
<span id="cb2-22"><a></a><span class="ex">Resolving</span> deltas: 100% <span class="er">(</span><span class="ex">1117/1117</span><span class="kw">)</span><span class="ex">,</span> done.</span>
<span id="cb2-23"><a></a><span class="ex">Cloning</span> into <span class="st">'wordplay'</span>...</span>
<span id="cb2-24"><a></a><span class="ex">remote:</span> Enumerating objects: 869, done.</span>
<span id="cb2-25"><a></a><span class="ex">remote:</span> Counting objects: 100% <span class="er">(</span><span class="ex">72/72</span><span class="kw">)</span><span class="ex">,</span> done.</span>
<span id="cb2-26"><a></a><span class="ex">remote:</span> Compressing objects: 100% <span class="er">(</span><span class="ex">37/37</span><span class="kw">)</span><span class="ex">,</span> done.</span>
<span id="cb2-27"><a></a><span class="ex">remote:</span> Total 869 <span class="er">(</span><span class="ex">delta</span> 29<span class="kw">)</span><span class="ex">,</span> reused 56 <span class="er">(</span><span class="ex">delta</span> 23<span class="kw">)</span><span class="ex">,</span> pack-reused 797</span>
<span id="cb2-28"><a></a><span class="ex">Receiving</span> objects: 100% <span class="er">(</span><span class="ex">869/869</span><span class="kw">)</span><span class="ex">,</span> 14.36 MiB <span class="kw">|</span> <span class="ex">46.54</span> MiB/s, done.</span>
<span id="cb2-29"><a></a><span class="ex">Resolving</span> deltas: 100% <span class="er">(</span><span class="ex">395/395</span><span class="kw">)</span><span class="ex">,</span> done.</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
</section>
<section id="setup-python" class="slide level2 smaller center" data-background-color="white">
<h2>Setup Python</h2>
<div class="sourceCode" id="cb3"><pre class="sourceCode numberSource bash number-lines code-with-copy"><code class="sourceCode bash"><span id="cb3-1"><a></a><span class="co">#[⭐][07:33:53 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327]</span></span>
<span id="cb3-2"><a></a><span class="ex">$</span> source ezpz/src/ezpz/bin/utils.sh <span class="kw">&amp;&amp;</span> <span class="ex">ezpz_setup_python</span> <span class="kw">&amp;&amp;</span> <span class="ex">ezpz_setup_alcf</span></span>
<span id="cb3-3"><a></a><span class="ex">Unable</span> to detect PBS or SLURM working directory info...</span>
<span id="cb3-4"><a></a><span class="ex">Using</span> /home/foremans/tmp/polaris-talk/2024-07-17-073327 as working directory...</span>
<span id="cb3-5"><a></a><span class="ex">Using</span> WORKING_DIR: /home/foremans/tmp/polaris-talk/2024-07-17-073327</span>
<span id="cb3-6"><a></a><span class="ex">No</span> conda_prefix OR virtual_env found in environment...</span>
<span id="cb3-7"><a></a><span class="ex">Setting</span> up conda...</span>
<span id="cb3-8"><a></a><span class="ex">Lmod</span> is automatically replacing <span class="st">"nvhpc/23.9"</span> with <span class="st">"gcc-native/12.3"</span>.</span>
<span id="cb3-9"><a></a><span class="ex">Lmod</span> is automatically replacing <span class="st">"PrgEnv-nvhpc/8.5.0"</span> with <span class="st">"PrgEnv-gnu/8.5.0"</span>.</span>
<span id="cb3-10"><a></a><span class="ex">Due</span> to MODULEPATH changes, the following have been reloaded:</span>
<span id="cb3-11"><a></a>  <span class="ex">1</span><span class="er">)</span> <span class="ex">cray-mpich/8.1.28</span></span>
<span id="cb3-12"><a></a><span class="ex">Found</span> conda at: /soft/applications/conda/2024-04-29/mconda3</span>
<span id="cb3-13"><a></a><span class="ex">No</span> VIRTUAL_ENV found in environment!</span>
<span id="cb3-14"><a></a>    <span class="ex">-</span> Trying to setup from /soft/applications/conda/2024-04-29/mconda3</span>
<span id="cb3-15"><a></a>    <span class="ex">-</span> Using VENV_DIR=/home/foremans/tmp/polaris-talk/2024-07-17-073327/venvs/2024-04-29</span>
<span id="cb3-16"><a></a>    <span class="ex">-</span> Creating a new virtual env on top of 2024-04-29 in /home/foremans/tmp/polaris-talk/2024-07-17-073327/venvs/2024-04-29</span>
<span id="cb3-17"><a></a><span class="ex">[python]</span> Using /home/foremans/tmp/polaris-talk/2024-07-17-073327/venvs/2024-04-29/bin/python3</span>
<span id="cb3-18"><a></a></span>
<span id="cb3-19"><a></a><span class="ex">[ezpz/bin/utils.sh]</span></span>
<span id="cb3-20"><a></a></span>
<span id="cb3-21"><a></a><span class="ex">[2024-07-17-073407]</span></span>
<span id="cb3-22"><a></a>    <span class="ex">•</span> USER=foremans</span>
<span id="cb3-23"><a></a>    <span class="ex">•</span> MACHINE=polaris</span>
<span id="cb3-24"><a></a>    <span class="ex">•</span> HOST=x3101c0s13b0n0</span>
<span id="cb3-25"><a></a></span>
<span id="cb3-26"><a></a><span class="ex">[ezpz_setup_host]</span></span>
<span id="cb3-27"><a></a>    <span class="ex">•</span> Using hostfile: /var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb3-28"><a></a>    <span class="ex">•</span> Found in environment:</span>
<span id="cb3-29"><a></a>        <span class="ex">•</span> HOSTFILE: /var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb3-30"><a></a>        <span class="ex">•</span> Writing PBS vars to: /home/foremans/.pbsenv</span>
<span id="cb3-31"><a></a></span>
<span id="cb3-32"><a></a><span class="ex">[ezpz_save_pbs_env]</span></span>
<span id="cb3-33"><a></a>    <span class="ex">•</span> Setting:</span>
<span id="cb3-34"><a></a>        <span class="ex">•</span> HOSTFILE: /var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb3-35"><a></a>        <span class="ex">•</span> JOBENV_FILE: /home/foremans/.pbsenv</span>
<span id="cb3-36"><a></a></span>
<span id="cb3-37"><a></a><span class="ex">[HOSTS]</span></span>
<span id="cb3-38"><a></a>    <span class="ex">•</span> <span class="pp">[</span><span class="ss">host:0</span><span class="pp">]</span> <span class="at">-</span> x3101c0s13b0n0.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb3-39"><a></a></span>
<span id="cb3-40"><a></a><span class="ex">[DIST</span> INFO]</span>
<span id="cb3-41"><a></a>    <span class="ex">•</span> HOSTFILE=/var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb3-42"><a></a>    <span class="ex">•</span> NHOSTS=1</span>
<span id="cb3-43"><a></a>    <span class="ex">•</span> NGPU_PER_HOST=4</span>
<span id="cb3-44"><a></a>    <span class="ex">•</span> NGPUS=4</span>
<span id="cb3-45"><a></a>    <span class="ex">•</span> DIST_LAUNCH=mpiexec <span class="at">--verbose</span> <span class="at">--envall</span> <span class="at">-n</span> 4 <span class="at">-ppn</span> 4 <span class="at">--hostfile</span> /var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov <span class="at">--cpu-bind</span> depth <span class="at">-d</span> 16</span>
<span id="cb3-46"><a></a></span>
<span id="cb3-47"><a></a><span class="ex">[LAUNCH]:</span></span>
<span id="cb3-48"><a></a>    <span class="ex">•</span> To launch across all available GPUs, use: launch</span>
<span id="cb3-49"><a></a>      <span class="ex">launch</span> = mpiexec <span class="at">--verbose</span> <span class="at">--envall</span> <span class="at">-n</span> 4 <span class="at">-ppn</span> 4 <span class="at">--hostfile</span> /var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov <span class="at">--cpu-bind</span> depth <span class="at">-d</span> 16</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
</section>
<section id="install-ezpz-wordplay" class="slide level2 smaller center" data-background-color="white">
<h2>Install <code>{ezpz, wordplay}</code></h2>
<div class="sourceCode" id="cb4"><pre class="sourceCode numberSource bash number-lines code-with-copy"><code class="sourceCode bash"><span id="cb4-1"><a></a><span class="co">#[⭐][07:34:13 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327]</span></span>
<span id="cb4-2"><a></a><span class="ex">$</span> python3 <span class="at">-m</span> pip install <span class="at">-e</span> ezpz wordplay <span class="at">--require-virtualenv</span></span>
<span id="cb4-3"><a></a><span class="ex">Looking</span> in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com</span>
<span id="cb4-4"><a></a><span class="ex">Obtaining</span> file:///home/foremans/tmp/polaris-talk/2024-07-17-073327/ezpz</span>
<span id="cb4-5"><a></a>  <span class="ex">Installing</span> build dependencies ... done</span>
<span id="cb4-6"><a></a>  <span class="ex">Checking</span> if build backend supports build_editable ... done</span>
<span id="cb4-7"><a></a>  <span class="ex">Getting</span> requirements to build editable ... done</span>
<span id="cb4-8"><a></a>  <span class="ex">Installing</span> backend dependencies ... done</span>
<span id="cb4-9"><a></a>  <span class="ex">Preparing</span> editable metadata <span class="er">(</span><span class="ex">pyproject.toml</span><span class="kw">)</span> <span class="ex">...</span> done</span>
<span id="cb4-10"><a></a></span>
<span id="cb4-11"><a></a><span class="co"># ...[clipped]...</span></span>
<span id="cb4-12"><a></a></span>
<span id="cb4-13"><a></a><span class="ex">Successfully</span> built ezpz</span>
<span id="cb4-14"><a></a><span class="ex">Installing</span> collected packages: enum34, wordplay, pyinstrument, ezpz</span>
<span id="cb4-15"><a></a>  <span class="ex">Attempting</span> uninstall: ezpz</span>
<span id="cb4-16"><a></a>    <span class="ex">Found</span> existing installation: ezpz 0.1</span>
<span id="cb4-17"><a></a>    <span class="ex">Not</span> uninstalling ezpz at /home/foremans/.local/polaris/conda/2024-04-29/lib/python3.11/site-packages, outside environment /home/foremans/tmp/polaris-talk/2024-07-17-073327/venvs/2024-04-29</span>
<span id="cb4-18"><a></a>    <span class="ex">Cant</span> uninstall <span class="st">'ezpz'</span>. No files were found to uninstall.</span>
<span id="cb4-19"><a></a><span class="ex">Successfully</span> installed enum34-1.1.10 ezpz pyinstrument-4.6.2 wordplay-1.0.0a4</span>
<span id="cb4-20"><a></a><span class="ex">[notice]</span> A new release of pip is available: 24.0 <span class="at">-</span><span class="op">&gt;</span> 24.1.2</span>
<span id="cb4-21"><a></a><span class="ex">[notice]</span> To update, run: pip install <span class="at">--upgrade</span> pip</span>
<span id="cb4-22"><a></a><span class="ex">9.62s</span> user 1.11s system 61% cpu 17.505s total</span>
<span id="cb4-23"><a></a></span>
<span id="cb4-24"><a></a><span class="co">#[⭐][07:34:53 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327]</span></span>
<span id="cb4-25"><a></a><span class="ex">$</span> python3 <span class="at">-m</span> pip install <span class="at">--upgrade</span> wandb</span>
<span id="cb4-26"><a></a><span class="ex">Looking</span> in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com</span>
<span id="cb4-27"><a></a><span class="ex">Requirement</span> already satisfied: wandb in /soft/applications/conda/2024-04-29/mconda3/lib/python3.11/site-packages <span class="er">(</span><span class="ex">0.16.6</span><span class="kw">)</span></span>
<span id="cb4-28"><a></a><span class="ex">Collecting</span> wandb</span>
<span id="cb4-29"><a></a>  <span class="ex">Downloading</span> wandb-0.17.4-py3-none-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata <span class="er">(</span><span class="ex">10</span> kB<span class="kw">)</span></span>
<span id="cb4-30"><a></a><span class="ex">Downloading</span> wandb-0.17.4-py3-none-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl <span class="er">(</span><span class="ex">6.9</span> MB<span class="kw">)</span></span>
<span id="cb4-31"><a></a>   <span class="ex">━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━</span> 6.9/6.9 MB 2.1 MB/s eta 0:00:00</span>
<span id="cb4-32"><a></a><span class="ex">Installing</span> collected packages: wandb</span>
<span id="cb4-33"><a></a>  <span class="ex">Attempting</span> uninstall: wandb</span>
<span id="cb4-34"><a></a>    <span class="ex">Found</span> existing installation: wandb 0.16.6</span>
<span id="cb4-35"><a></a>    <span class="ex">Not</span> uninstalling wandb at /soft/applications/conda/2024-04-29/mconda3/lib/python3.11/site-packages, outside environment /home/foremans/tmp/polaris-talk/2024-07-17-073327/venvs/2024-04-29</span>
<span id="cb4-36"><a></a>    <span class="ex">Cant</span> uninstall <span class="st">'wandb'</span>. No files were found to uninstall.</span>
<span id="cb4-37"><a></a><span class="ex">Successfully</span> installed wandb-0.17.4</span>
<span id="cb4-38"><a></a><span class="ex">[notice]</span> A new release of pip is available: 24.0 <span class="at">-</span><span class="op">&gt;</span> 24.1.2</span>
<span id="cb4-39"><a></a><span class="ex">[notice]</span> To update, run: pip install <span class="at">--upgrade</span> pip</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
</section>
<section id="launch-ezpz.test_dist" class="slide level2 smaller center" data-background-color="white">
<h2>Launch <a href="https://github.com/saforem2/ezpz/blob/main/src/ezpz/test_dist.py"><code>ezpz.test_dist</code></a></h2>
<div class="sourceCode" id="cb5"><pre class="sourceCode numberSource bash number-lines code-with-copy"><code class="sourceCode bash"><span id="cb5-1"><a></a><span class="co">#(👻 2024-04-29)</span></span>
<span id="cb5-2"><a></a><span class="co">#[⭐][07:34:07 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327][⏱ 7s]</span></span>
<span id="cb5-3"><a></a><span class="ex">$</span> which launch</span>
<span id="cb5-4"><a></a><span class="ex">launch:</span> aliased to mpiexec <span class="at">--verbose</span> <span class="at">--envall</span> <span class="at">-n</span> 4 <span class="at">-ppn</span> 4 <span class="at">--hostfile</span> /var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov <span class="at">--cpu-bind</span> depth <span class="at">-d</span> 16</span>
<span id="cb5-5"><a></a></span>
<span id="cb5-6"><a></a><span class="co">#(👻 2024-04-29)</span></span>
<span id="cb5-7"><a></a><span class="co">#[⭐][07:34:11 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327]</span></span>
<span id="cb5-8"><a></a><span class="ex">$</span> which python3</span>
<span id="cb5-9"><a></a><span class="ex">/home/foremans/tmp/polaris-talk/2024-07-17-073327/venvs/2024-04-29/bin/python3</span></span>
<span id="cb5-10"><a></a></span>
<span id="cb5-11"><a></a><span class="co">#(👻 2024-04-29)</span></span>
<span id="cb5-12"><a></a><span class="co">#[⭐][07:35:21 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327][⏱ 14s]</span></span>
<span id="cb5-13"><a></a><span class="ex">$</span> launch python3 <span class="at">-m</span> ezpz.test_dist <span class="kw">|</span> <span class="fu">tee</span> ezpz-test-dist-DDP.log</span>
<span id="cb5-14"><a></a><span class="ex">Connected</span> to tcp://x3101c0s13b0n0.hsn.cm.polaris.alcf.anl.gov:7919</span>
<span id="cb5-15"><a></a><span class="ex">Found</span> executable /home/foremans/tmp/polaris-talk/2024-07-17-073327/venvs/2024-04-29/bin/python3</span>
<span id="cb5-16"><a></a><span class="ex">Launching</span> application cff755ee-557e-4df2-a987-db85a8b7dbe7</span>
<span id="cb5-17"><a></a><span class="ex">[2024-07-17</span> 07:35:30.304306]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">__init__:156</span><span class="pp">]</span> <span class="at">-</span> Setting logging level to <span class="st">'INFO'</span> on <span class="st">'RANK == 0'</span></span>
<span id="cb5-18"><a></a><span class="ex">[2024-07-17</span> 07:35:30.307036]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">__init__:157</span><span class="pp">]</span> <span class="at">-</span> Setting logging level to <span class="st">'CRITICAL'</span> on all others <span class="st">'RANK != 0'</span></span>
<span id="cb5-19"><a></a><span class="ex">[2024-07-17</span> 07:35:30.307494]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">__init__:160</span><span class="pp">]</span> <span class="at">-</span> To disable this behavior, and log from ALL ranks <span class="er">(</span><span class="ex">not</span> recommended<span class="kw">)</span><span class="ex">,</span> set: <span class="st">'export LOG_FROM_ALL_RANKS=1'</span>  in your environment, and re-run.</span>
<span id="cb5-20"><a></a><span class="ex">[2024-07-17</span> 07:35:32.116037]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:358</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">device=</span><span class="st">'cuda'</span><span class="pp">][</span><span class="ss">rank=2/3</span><span class="pp">][</span><span class="ss">local_rank=2/3</span><span class="pp">][</span><span class="ss">node=0/0</span><span class="pp">]</span></span>
<span id="cb5-21"><a></a><span class="ex">[2024-07-17</span> 07:35:32.116089]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:358</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">device=</span><span class="st">'cuda'</span><span class="pp">][</span><span class="ss">rank=3/3</span><span class="pp">][</span><span class="ss">local_rank=3/3</span><span class="pp">][</span><span class="ss">node=0/0</span><span class="pp">]</span></span>
<span id="cb5-22"><a></a><span class="ex">[2024-07-17</span> 07:35:32.116940]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:358</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">device=</span><span class="st">'cuda'</span><span class="pp">][</span><span class="ss">rank=1/3</span><span class="pp">][</span><span class="ss">local_rank=1/3</span><span class="pp">][</span><span class="ss">node=0/0</span><span class="pp">]</span></span>
<span id="cb5-23"><a></a><span class="ex">[2024-07-17</span> 07:35:32.122726]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:95</span><span class="pp">]</span> <span class="at">-</span></span>
<span id="cb5-24"><a></a><span class="ex">[dist_info]:</span></span>
<span id="cb5-25"><a></a>  <span class="ex">•</span> DEVICE=cuda</span>
<span id="cb5-26"><a></a>  <span class="ex">•</span> DEVICE_ID=cuda:0</span>
<span id="cb5-27"><a></a>  <span class="ex">•</span> DISTRIBUTED_BACKEND=nccl</span>
<span id="cb5-28"><a></a>  <span class="ex">•</span> GPUS_PER_NODE=4</span>
<span id="cb5-29"><a></a>  <span class="ex">•</span> HOSTS=<span class="pp">[</span><span class="st">'x3101c0s13b0n0.hsn.cm.polaris.alcf.anl.gov'</span><span class="pp">]</span></span>
<span id="cb5-30"><a></a>  <span class="ex">•</span> HOSTFILE=/var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb5-31"><a></a>  <span class="ex">•</span> HOSTNAME=x3101c0s13b0n0.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb5-32"><a></a>  <span class="ex">•</span> LOCAL_RANK=0</span>
<span id="cb5-33"><a></a>  <span class="ex">•</span> MACHINE=Polaris</span>
<span id="cb5-34"><a></a>  <span class="ex">•</span> NUM_NODES=1</span>
<span id="cb5-35"><a></a>  <span class="ex">•</span> NGPUS=4</span>
<span id="cb5-36"><a></a>  <span class="ex">•</span> NGPUS_AVAILABLE=4</span>
<span id="cb5-37"><a></a>  <span class="ex">•</span> NODE_ID=0</span>
<span id="cb5-38"><a></a>  <span class="ex">•</span> RANK=0</span>
<span id="cb5-39"><a></a>  <span class="ex">•</span> SCHEDULER=PBS</span>
<span id="cb5-40"><a></a>  <span class="ex">•</span> WORLD_SIZE_TOTAL=4</span>
<span id="cb5-41"><a></a>  <span class="ex">•</span> WORLD_SIZE_IN_USE=4</span>
<span id="cb5-42"><a></a>  <span class="ex">•</span> LAUNCH_CMD=mpiexec <span class="at">--verbose</span> <span class="at">--envall</span> <span class="at">-n</span> 4 <span class="at">-ppn</span> 4 <span class="at">--hostfile</span> /var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov <span class="at">--cpu-bind</span> depth <span class="at">-d</span> 16</span>
<span id="cb5-43"><a></a><span class="ex">[2024-07-17</span> 07:35:32.124800]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:725</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">0/4</span><span class="pp">]</span> Using device=<span class="st">'cuda'</span> with backend=<span class="st">'DDP'</span> + <span class="st">'nccl'</span> for distributed training.</span>
<span id="cb5-44"><a></a><span class="ex">[2024-07-17</span> 07:35:32.129169]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:358</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">device=</span><span class="st">'cuda'</span><span class="pp">][</span><span class="ss">rank=0/3</span><span class="pp">][</span><span class="ss">local_rank=0/3</span><span class="pp">][</span><span class="ss">node=0/0</span><span class="pp">]</span></span>
<span id="cb5-45"><a></a><span class="ex">[2024-07-17</span> 07:35:32.129674]<span class="pp">[</span><span class="ss">WARNING</span><span class="pp">][</span><span class="ss">dist:364</span><span class="pp">]</span> <span class="at">-</span> Using [4 / 4] available <span class="st">"cuda"</span> devices !!</span>
<span id="cb5-46"><a></a><span class="ex">[2024-07-17</span> 07:35:32.130219]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:874</span><span class="pp">]</span> <span class="at">-</span> Setting up wandb from rank: 0</span>
<span id="cb5-47"><a></a><span class="ex">[2024-07-17</span> 07:35:32.130638]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:875</span><span class="pp">]</span> <span class="at">-</span> Using: WB PROJECT: ezpz.test_dist</span>
<span id="cb5-48"><a></a><span class="ex">wandb:</span> Using wandb-core as the SDK backend. Please refer to https://wandb.me/wandb-core for more information.</span>
<span id="cb5-49"><a></a><span class="ex">wandb:</span> Currently logged in as: foremans <span class="er">(</span><span class="ex">aurora_gpt</span><span class="kw">)</span><span class="bu">.</span> Use <span class="kw">`</span><span class="ex">wandb</span> login <span class="at">--relogin</span><span class="kw">`</span> to force relogin</span>
<span id="cb5-50"><a></a><span class="ex">wandb:</span> Tracking run with wandb version 0.17.4</span>
<span id="cb5-51"><a></a><span class="ex">wandb:</span> Run data is saved locally in /home/foremans/tmp/polaris-talk/2024-07-17-073327/wandb/run-20240717_073532-p49rzxtv</span>
<span id="cb5-52"><a></a><span class="ex">wandb:</span> Run <span class="kw">`</span><span class="ex">wandb</span> offline<span class="kw">`</span> to turn off syncing.</span>
<span id="cb5-53"><a></a><span class="ex">wandb:</span> Syncing run vibrant-river-284</span>
<span id="cb5-54"><a></a><span class="ex">wandb:</span> ⭐️ View project at https://wandb.ai/aurora_gpt/ezpz.test_dist</span>
<span id="cb5-55"><a></a><span class="ex">wandb:</span> 🚀 View run at https://wandb.ai/aurora_gpt/ezpz.test_dist/runs/p49rzxtv</span>
<span id="cb5-56"><a></a><span class="ex">[2024-07-17</span> 07:35:33.171085]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:905</span><span class="pp">]</span> <span class="at">-</span> W<span class="kw">&amp;</span><span class="ex">B</span> RUN: <span class="pp">[</span><span class="ss">vibrant</span><span class="pp">-</span><span class="ss">river</span><span class="pp">-</span><span class="ss">284</span><span class="pp">]</span><span class="er">(</span><span class="ex">https://wandb.ai/aurora_gpt/ezpz.test_dist/runs/p49rzxtv</span><span class="kw">)</span></span>
<span id="cb5-57"><a></a><span class="ex">[2024-07-17</span> 07:35:33.182307]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:312</span><span class="pp">]</span> <span class="at">-</span> Updating wandb.run: vibrant-river-284 config with <span class="st">"DIST_INFO"</span></span>
<span id="cb5-58"><a></a><span class="ex">[2024-07-17</span> 07:35:33.186499]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:938</span><span class="pp">]</span> <span class="at">-</span> Running on machine=<span class="st">'Polaris'</span></span>
<span id="cb5-59"><a></a><span class="ex">[2024-07-17</span> 07:35:33.187790]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:95</span><span class="pp">]</span> <span class="at">-</span></span>
<span id="cb5-60"><a></a><span class="ex">[timers_import]:</span></span>
<span id="cb5-61"><a></a>  <span class="ex">•</span> os=1.082196831703186e-06</span>
<span id="cb5-62"><a></a>  <span class="ex">•</span> logging=4.507601261138916e-07</span>
<span id="cb5-63"><a></a>  <span class="ex">•</span> typing=2.9457733035087585e-06</span>
<span id="cb5-64"><a></a>  <span class="ex">•</span> pathlib=1.3122335076332092e-06</span>
<span id="cb5-65"><a></a>  <span class="ex">•</span> ezpz=6.109476089477539e-07</span>
<span id="cb5-66"><a></a>  <span class="ex">•</span> torch=2.9457733035087585e-06</span>
<span id="cb5-67"><a></a>  <span class="ex">•</span> torch_ddp=2.314336597919464e-06</span>
<span id="cb5-68"><a></a>  <span class="ex">•</span> wandb=1.842435449361801e-05</span>
<span id="cb5-69"><a></a>  <span class="ex">•</span> total=3.0086375772953033e-05</span>
<span id="cb5-70"><a></a></span>
<span id="cb5-71"><a></a><span class="ex">[2024-07-17</span> 07:35:33.188979]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:95</span><span class="pp">]</span> <span class="at">-</span></span>
<span id="cb5-72"><a></a></span>
<span id="cb5-73"><a></a><span class="ex">[CONFIG]:</span></span>
<span id="cb5-74"><a></a>  <span class="ex">•</span> warmup=0</span>
<span id="cb5-75"><a></a>  <span class="ex">•</span> log_freq=1</span>
<span id="cb5-76"><a></a>  <span class="ex">•</span> batch_size=64</span>
<span id="cb5-77"><a></a>  <span class="ex">•</span> input_size=128</span>
<span id="cb5-78"><a></a>  <span class="ex">•</span> output_size=128</span>
<span id="cb5-79"><a></a>  <span class="ex">•</span> dtype=torch.float32</span>
<span id="cb5-80"><a></a>  <span class="ex">•</span> device=cuda</span>
<span id="cb5-81"><a></a>  <span class="ex">•</span> world_size=4</span>
<span id="cb5-82"><a></a>  <span class="ex">•</span> train_iters=100</span>
<span id="cb5-83"><a></a></span>
<span id="cb5-84"><a></a><span class="ex">[2024-07-17</span> 07:35:34.761945]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:183</span><span class="pp">]</span> <span class="at">-</span> model=Network<span class="er">(</span></span>
<span id="cb5-85"><a></a>  <span class="kw">(</span><span class="ex">layers</span><span class="kw">)</span><span class="bu">:</span> Sequential<span class="er">(</span></span>
<span id="cb5-86"><a></a>    <span class="kw">(</span><span class="ex">0</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>128, <span class="va">out_features</span><span class="op">=</span>1024, <span class="va">bias</span><span class="op">=</span>True<span class="kw">)</span></span>
<span id="cb5-87"><a></a>    <span class="kw">(</span><span class="ex">1</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>1024, <span class="va">out_features</span><span class="op">=</span>512, <span class="va">bias</span><span class="op">=</span>True<span class="kw">)</span></span>
<span id="cb5-88"><a></a>    <span class="kw">(</span><span class="ex">2</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>512, <span class="va">out_features</span><span class="op">=</span>256, <span class="va">bias</span><span class="op">=</span>True<span class="kw">)</span></span>
<span id="cb5-89"><a></a>    <span class="kw">(</span><span class="ex">3</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>256, <span class="va">out_features</span><span class="op">=</span>128, <span class="va">bias</span><span class="op">=</span>True<span class="kw">)</span></span>
<span id="cb5-90"><a></a>    <span class="kw">(</span><span class="ex">4</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>128, <span class="va">out_features</span><span class="op">=</span>128, <span class="va">bias</span><span class="op">=</span>True<span class="kw">)</span></span>
<span id="cb5-91"><a></a>  <span class="kw">)</span></span>
<span id="cb5-92"><a></a><span class="kw">)</span></span>
<span id="cb5-93"><a></a><span class="ex">[2024-07-17</span> 07:35:36.943300]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=1, loss=2152.41, sps=1.697e+04, dt=0.00377066, dtf=0.001003, dtb=0.002768</span>
<span id="cb5-94"><a></a><span class="ex">[2024-07-17</span> 07:35:36.948048]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=2, loss=1577.24, sps=3.611e+04, dt=0.00177221, dtf=0.0005256, dtb=0.001247</span>
<span id="cb5-95"><a></a><span class="ex">[2024-07-17</span> 07:35:36.952085]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=3, loss=1201.25, sps=3.59e+04, dt=0.00178271, dtf=0.0004875, dtb=0.001295</span>
<span id="cb5-96"><a></a><span class="ex">[2024-07-17</span> 07:35:36.956071]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=4, loss=1034.03, sps=3.704e+04, dt=0.0017279, dtf=0.0005082, dtb=0.00122</span>
<span id="cb5-97"><a></a><span class="ex">[2024-07-17</span> 07:35:36.959944]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=5, loss=875.796, sps=3.825e+04, dt=0.00167313, dtf=0.0005121, dtb=0.001161</span>
<span id="cb5-98"><a></a><span class="ex">[2024-07-17</span> 07:35:36.963806]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=6, loss=817.544, sps=3.804e+04, dt=0.00168248, dtf=0.0004651, dtb=0.001217</span>
<span id="cb5-99"><a></a><span class="ex">[2024-07-17</span> 07:35:36.967806]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=7, loss=734.838, sps=3.536e+04, dt=0.0018099, dtf=0.0004969, dtb=0.001313</span>
<span id="cb5-100"><a></a><span class="ex">[2024-07-17</span> 07:35:36.971741]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=8, loss=741.583, sps=3.682e+04, dt=0.00173809, dtf=0.0004537, dtb=0.001284</span>
<span id="cb5-101"><a></a><span class="ex">[2024-07-17</span> 07:35:36.975672]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=9, loss=738.157, sps=3.717e+04, dt=0.0017217, dtf=0.0004635, dtb=0.001258</span>
<span id="cb5-102"><a></a><span class="ex">[2024-07-17</span> 07:35:36.979537]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=10, loss=727.255, sps=3.857e+04, dt=0.00165911, dtf=0.0004897, dtb=0.001169</span>
<span id="cb5-103"><a></a><span class="ex">[2024-07-17</span> 07:35:36.983367]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=11, loss=715.534, sps=3.979e+04, dt=0.00160845, dtf=0.0004246, dtb=0.001184</span>
<span id="cb5-104"><a></a><span class="ex">[2024-07-17</span> 07:35:36.987262]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=12, loss=693.96, sps=3.791e+04, dt=0.00168827, dtf=0.0004543, dtb=0.001234</span>
<span id="cb5-105"><a></a><span class="ex">[2024-07-17</span> 07:35:36.991156]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=13, loss=693.518, sps=3.815e+04, dt=0.00167748, dtf=0.0004182, dtb=0.001259</span>
<span id="cb5-106"><a></a><span class="ex">[2024-07-17</span> 07:35:36.994942]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=14, loss=675.289, sps=4.003e+04, dt=0.00159879, dtf=0.0004048, dtb=0.001194</span>
<span id="cb5-107"><a></a><span class="ex">[2024-07-17</span> 07:35:36.999681]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=15, loss=677.706, sps=4.062e+04, dt=0.0015755, dtf=0.0004248, dtb=0.001151</span>
<span id="cb5-108"><a></a><span class="ex">[2024-07-17</span> 07:35:37.003599]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=16, loss=671.639, sps=3.754e+04, dt=0.00170499, dtf=0.000416, dtb=0.001289</span>
<span id="cb5-109"><a></a><span class="ex">[2024-07-17</span> 07:35:37.007565]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=17, loss=652.219, sps=3.704e+04, dt=0.00172777, dtf=0.0004208, dtb=0.001307</span>
<span id="cb5-110"><a></a><span class="ex">[2024-07-17</span> 07:35:37.011753]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=18, loss=633.308, sps=3.191e+04, dt=0.00200554, dtf=0.0004193, dtb=0.001586</span>
<span id="cb5-111"><a></a><span class="ex">[2024-07-17</span> 07:35:37.015595]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=19, loss=635.459, sps=3.845e+04, dt=0.0016645, dtf=0.0004236, dtb=0.001241</span>
<span id="cb5-112"><a></a><span class="ex">[2024-07-17</span> 07:35:37.019356]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=20, loss=626.979, sps=4.033e+04, dt=0.00158685, dtf=0.0004225, dtb=0.001164</span>
<span id="cb5-113"><a></a><span class="ex">[2024-07-17</span> 07:35:37.023081]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=21, loss=612.352, sps=4.105e+04, dt=0.00155914, dtf=0.0004169, dtb=0.001142</span>
<span id="cb5-114"><a></a><span class="ex">[2024-07-17</span> 07:35:37.026861]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=22, loss=609.89, sps=4.004e+04, dt=0.00159827, dtf=0.0004155, dtb=0.001183</span>
<span id="cb5-115"><a></a><span class="ex">[2024-07-17</span> 07:35:37.030555]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=23, loss=602.673, sps=4.258e+04, dt=0.00150295, dtf=0.0004166, dtb=0.001086</span>
<span id="cb5-116"><a></a><span class="ex">[2024-07-17</span> 07:35:37.034382]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=24, loss=613.106, sps=3.918e+04, dt=0.00163367, dtf=0.0004164, dtb=0.001217</span>
<span id="cb5-117"><a></a><span class="ex">[2024-07-17</span> 07:35:37.038129]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=25, loss=644.755, sps=4.173e+04, dt=0.00153368, dtf=0.0004175, dtb=0.001116</span>
<span id="cb5-118"><a></a><span class="ex">[2024-07-17</span> 07:35:37.041943]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=26, loss=789.106, sps=4.049e+04, dt=0.00158053, dtf=0.0004397, dtb=0.001141</span>
<span id="cb5-119"><a></a><span class="ex">[2024-07-17</span> 07:35:37.045705]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=27, loss=691.36, sps=4.166e+04, dt=0.00153641, dtf=0.0004157, dtb=0.001121</span>
<span id="cb5-120"><a></a><span class="ex">[2024-07-17</span> 07:35:37.049496]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=28, loss=657.228, sps=4.018e+04, dt=0.00159288, dtf=0.0004209, dtb=0.001172</span>
<span id="cb5-121"><a></a><span class="ex">[2024-07-17</span> 07:35:37.053229]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=29, loss=633.212, sps=4.19e+04, dt=0.0015274, dtf=0.0004288, dtb=0.001099</span>
<span id="cb5-122"><a></a><span class="ex">[2024-07-17</span> 07:35:37.057013]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=30, loss=640.29, sps=4.012e+04, dt=0.00159538, dtf=0.0004144, dtb=0.001181</span>
<span id="cb5-123"><a></a><span class="ex">[2024-07-17</span> 07:35:37.060722]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=31, loss=604.287, sps=4.21e+04, dt=0.00152018, dtf=0.000398, dtb=0.001122</span>
<span id="cb5-124"><a></a><span class="ex">[2024-07-17</span> 07:35:37.064489]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=32, loss=640.15, sps=4.079e+04, dt=0.00156912, dtf=0.0004007, dtb=0.001168</span>
<span id="cb5-125"><a></a><span class="ex">[2024-07-17</span> 07:35:37.068206]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=33, loss=585.789, sps=4.238e+04, dt=0.00151007, dtf=0.0004199, dtb=0.00109</span>
<span id="cb5-126"><a></a><span class="ex">[2024-07-17</span> 07:35:37.071974]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=34, loss=591.99, sps=4.053e+04, dt=0.00157917, dtf=0.000434, dtb=0.001145</span>
<span id="cb5-127"><a></a><span class="ex">[2024-07-17</span> 07:35:37.075702]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=35, loss=618.223, sps=4.168e+04, dt=0.00153538, dtf=0.0004152, dtb=0.00112</span>
<span id="cb5-128"><a></a><span class="ex">[2024-07-17</span> 07:35:37.079496]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=36, loss=572.365, sps=3.998e+04, dt=0.0016008, dtf=0.0004108, dtb=0.00119</span>
<span id="cb5-129"><a></a><span class="ex">[2024-07-17</span> 07:35:37.083250]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=37, loss=573.749, sps=4.276e+04, dt=0.00149675, dtf=0.0004123, dtb=0.001084</span>
<span id="cb5-130"><a></a><span class="ex">[2024-07-17</span> 07:35:37.086969]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=38, loss=580.662, sps=4.136e+04, dt=0.00154751, dtf=0.0004129, dtb=0.001135</span>
<span id="cb5-131"><a></a><span class="ex">[2024-07-17</span> 07:35:37.090636]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=39, loss=568.836, sps=4.311e+04, dt=0.0014847, dtf=0.000409, dtb=0.001076</span>
<span id="cb5-132"><a></a><span class="ex">[2024-07-17</span> 07:35:37.094396]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=40, loss=551.294, sps=4.145e+04, dt=0.00154388, dtf=0.0004118, dtb=0.001132</span>
<span id="cb5-133"><a></a><span class="ex">[2024-07-17</span> 07:35:37.098103]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=41, loss=573.647, sps=4.352e+04, dt=0.00147048, dtf=0.0003977, dtb=0.001073</span>
<span id="cb5-134"><a></a><span class="ex">[2024-07-17</span> 07:35:37.101867]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=42, loss=545.584, sps=4.257e+04, dt=0.00150354, dtf=0.000433, dtb=0.001071</span>
<span id="cb5-135"><a></a><span class="ex">[2024-07-17</span> 07:35:37.105639]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=43, loss=544.877, sps=4.322e+04, dt=0.00148085, dtf=0.0004117, dtb=0.001069</span>
<span id="cb5-136"><a></a><span class="ex">[2024-07-17</span> 07:35:37.109471]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=44, loss=559.886, sps=4.028e+04, dt=0.00158879, dtf=0.0004254, dtb=0.001163</span>
<span id="cb5-137"><a></a><span class="ex">[2024-07-17</span> 07:35:37.113186]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=45, loss=534.895, sps=4.311e+04, dt=0.00148444, dtf=0.0004153, dtb=0.001069</span>
<span id="cb5-138"><a></a><span class="ex">[2024-07-17</span> 07:35:37.116972]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=46, loss=536.457, sps=4.099e+04, dt=0.00156151, dtf=0.0004113, dtb=0.00115</span>
<span id="cb5-139"><a></a><span class="ex">[2024-07-17</span> 07:35:37.120710]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=47, loss=548.508, sps=4.183e+04, dt=0.00152993, dtf=0.0004151, dtb=0.001115</span>
<span id="cb5-140"><a></a><span class="ex">[2024-07-17</span> 07:35:37.124552]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=48, loss=532.186, sps=4.051e+04, dt=0.0015798, dtf=0.0004379, dtb=0.001142</span>
<span id="cb5-141"><a></a><span class="ex">[2024-07-17</span> 07:35:37.128266]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=49, loss=519.254, sps=4.272e+04, dt=0.0014981, dtf=0.0004164, dtb=0.001082</span>
<span id="cb5-142"><a></a><span class="ex">[2024-07-17</span> 07:35:37.131975]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=50, loss=535.535, sps=4.16e+04, dt=0.00153862, dtf=0.0004304, dtb=0.001108</span>
<span id="cb5-143"><a></a><span class="ex">[2024-07-17</span> 07:35:37.135717]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=51, loss=520.722, sps=4.136e+04, dt=0.00154757, dtf=0.0004158, dtb=0.001132</span>
<span id="cb5-144"><a></a><span class="ex">[2024-07-17</span> 07:35:37.139451]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=52, loss=513.063, sps=4.147e+04, dt=0.00154317, dtf=0.0004138, dtb=0.001129</span>
<span id="cb5-145"><a></a><span class="ex">[2024-07-17</span> 07:35:37.143231]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=53, loss=514.546, sps=4.038e+04, dt=0.0015848, dtf=0.0004149, dtb=0.00117</span>
<span id="cb5-146"><a></a><span class="ex">[2024-07-17</span> 07:35:37.146971]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=54, loss=506.488, sps=4.137e+04, dt=0.00154701, dtf=0.0004132, dtb=0.001134</span>
<span id="cb5-147"><a></a><span class="ex">[2024-07-17</span> 07:35:37.150659]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=55, loss=503.01, sps=4.319e+04, dt=0.0014817, dtf=0.000415, dtb=0.001067</span>
<span id="cb5-148"><a></a><span class="ex">[2024-07-17</span> 07:35:37.154441]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=56, loss=506.116, sps=4.06e+04, dt=0.00157637, dtf=0.0004211, dtb=0.001155</span>
<span id="cb5-149"><a></a><span class="ex">[2024-07-17</span> 07:35:37.158180]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=57, loss=485.523, sps=4.287e+04, dt=0.00149301, dtf=0.000414, dtb=0.001079</span>
<span id="cb5-150"><a></a><span class="ex">[2024-07-17</span> 07:35:37.161931]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=58, loss=489.076, sps=4.185e+04, dt=0.00152915, dtf=0.0004162, dtb=0.001113</span>
<span id="cb5-151"><a></a><span class="ex">[2024-07-17</span> 07:35:37.165759]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=59, loss=484.844, sps=4.134e+04, dt=0.00154802, dtf=0.0004119, dtb=0.001136</span>
<span id="cb5-152"><a></a><span class="ex">[2024-07-17</span> 07:35:37.169483]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=60, loss=496.104, sps=4.209e+04, dt=0.00152069, dtf=0.0003993, dtb=0.001121</span>
<span id="cb5-153"><a></a><span class="ex">[2024-07-17</span> 07:35:37.173190]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=61, loss=467.599, sps=4.221e+04, dt=0.00151621, dtf=0.0004142, dtb=0.001102</span>
<span id="cb5-154"><a></a><span class="ex">[2024-07-17</span> 07:35:37.176950]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=62, loss=480.055, sps=4.187e+04, dt=0.00152868, dtf=0.0004138, dtb=0.001115</span>
<span id="cb5-155"><a></a><span class="ex">[2024-07-17</span> 07:35:37.181194]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=63, loss=483.146, sps=3.656e+04, dt=0.00175062, dtf=0.0006253, dtb=0.001125</span>
<span id="cb5-156"><a></a><span class="ex">[2024-07-17</span> 07:35:37.185018]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=64, loss=479.273, sps=4.099e+04, dt=0.00156151, dtf=0.0004447, dtb=0.001117</span>
<span id="cb5-157"><a></a><span class="ex">[2024-07-17</span> 07:35:37.188752]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=65, loss=464.753, sps=4.189e+04, dt=0.00152781, dtf=0.0004161, dtb=0.001112</span>
<span id="cb5-158"><a></a><span class="ex">[2024-07-17</span> 07:35:37.192464]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=66, loss=462.583, sps=4.188e+04, dt=0.00152824, dtf=0.0004138, dtb=0.001114</span>
<span id="cb5-159"><a></a><span class="ex">[2024-07-17</span> 07:35:37.196126]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=67, loss=461.665, sps=4.272e+04, dt=0.00149801, dtf=0.0004293, dtb=0.001069</span>
<span id="cb5-160"><a></a><span class="ex">[2024-07-17</span> 07:35:37.199838]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=68, loss=465.25, sps=4.118e+04, dt=0.00155412, dtf=0.0004298, dtb=0.001124</span>
<span id="cb5-161"><a></a><span class="ex">[2024-07-17</span> 07:35:37.203602]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=69, loss=460.897, sps=4.01e+04, dt=0.00159593, dtf=0.0004131, dtb=0.001183</span>
<span id="cb5-162"><a></a><span class="ex">[2024-07-17</span> 07:35:37.207372]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=70, loss=456.136, sps=4.106e+04, dt=0.00155887, dtf=0.00041, dtb=0.001149</span>
<span id="cb5-163"><a></a><span class="ex">[2024-07-17</span> 07:35:37.211089]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=71, loss=447.565, sps=4.158e+04, dt=0.00153923, dtf=0.0004113, dtb=0.001128</span>
<span id="cb5-164"><a></a><span class="ex">[2024-07-17</span> 07:35:37.214861]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=72, loss=444.733, sps=4.05e+04, dt=0.00158026, dtf=0.0004127, dtb=0.001168</span>
<span id="cb5-165"><a></a><span class="ex">[2024-07-17</span> 07:35:37.218601]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=73, loss=459.152, sps=4.123e+04, dt=0.00155234, dtf=0.0004201, dtb=0.001132</span>
<span id="cb5-166"><a></a><span class="ex">[2024-07-17</span> 07:35:37.222334]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=74, loss=444.6, sps=4.226e+04, dt=0.00151444, dtf=0.0004371, dtb=0.001077</span>
<span id="cb5-167"><a></a><span class="ex">[2024-07-17</span> 07:35:37.226042]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=75, loss=439.884, sps=4.29e+04, dt=0.001492, dtf=0.0004154, dtb=0.001077</span>
<span id="cb5-168"><a></a><span class="ex">[2024-07-17</span> 07:35:37.229838]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=76, loss=438.578, sps=4.086e+04, dt=0.00156632, dtf=0.0004418, dtb=0.001125</span>
<span id="cb5-169"><a></a><span class="ex">[2024-07-17</span> 07:35:37.233560]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=77, loss=431.993, sps=4.327e+04, dt=0.00147909, dtf=0.0004096, dtb=0.00107</span>
<span id="cb5-170"><a></a><span class="ex">[2024-07-17</span> 07:35:37.237367]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=78, loss=422.338, sps=4.057e+04, dt=0.00157754, dtf=0.0004468, dtb=0.001131</span>
<span id="cb5-171"><a></a><span class="ex">[2024-07-17</span> 07:35:37.241117]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=79, loss=427.973, sps=4.288e+04, dt=0.00149254, dtf=0.000415, dtb=0.001077</span>
<span id="cb5-172"><a></a><span class="ex">[2024-07-17</span> 07:35:37.244895]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=80, loss=418.703, sps=4.06e+04, dt=0.00157617, dtf=0.0004137, dtb=0.001162</span>
<span id="cb5-173"><a></a><span class="ex">[2024-07-17</span> 07:35:37.248740]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=81, loss=427.645, sps=4.031e+04, dt=0.00158766, dtf=0.000415, dtb=0.001173</span>
<span id="cb5-174"><a></a><span class="ex">[2024-07-17</span> 07:35:37.252447]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=82, loss=417.629, sps=4.227e+04, dt=0.00151406, dtf=0.0004149, dtb=0.001099</span>
<span id="cb5-175"><a></a><span class="ex">[2024-07-17</span> 07:35:37.256190]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=83, loss=411.667, sps=4.189e+04, dt=0.00152778, dtf=0.0004357, dtb=0.001092</span>
<span id="cb5-176"><a></a><span class="ex">[2024-07-17</span> 07:35:37.259935]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=84, loss=409.366, sps=4.144e+04, dt=0.0015445, dtf=0.0004575, dtb=0.001087</span>
<span id="cb5-177"><a></a><span class="ex">[2024-07-17</span> 07:35:37.263677]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=85, loss=409.511, sps=4.232e+04, dt=0.00151228, dtf=0.0004035, dtb=0.001109</span>
<span id="cb5-178"><a></a><span class="ex">[2024-07-17</span> 07:35:37.267463]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=86, loss=409.593, sps=4.101e+04, dt=0.00156049, dtf=0.0004028, dtb=0.001158</span>
<span id="cb5-179"><a></a><span class="ex">[2024-07-17</span> 07:35:37.271174]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=87, loss=408.794, sps=4.3e+04, dt=0.00148828, dtf=0.0004006, dtb=0.001088</span>
<span id="cb5-180"><a></a><span class="ex">[2024-07-17</span> 07:35:37.274926]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=88, loss=403.151, sps=4.091e+04, dt=0.00156441, dtf=0.000415, dtb=0.001149</span>
<span id="cb5-181"><a></a><span class="ex">[2024-07-17</span> 07:35:37.278633]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=89, loss=402.182, sps=4.26e+04, dt=0.00150243, dtf=0.0004147, dtb=0.001088</span>
<span id="cb5-182"><a></a><span class="ex">[2024-07-17</span> 07:35:37.282372]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=90, loss=387.829, sps=4.216e+04, dt=0.00151793, dtf=0.0004411, dtb=0.001077</span>
<span id="cb5-183"><a></a><span class="ex">[2024-07-17</span> 07:35:37.286102]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=91, loss=393.108, sps=4.308e+04, dt=0.00148558, dtf=0.0004167, dtb=0.001069</span>
<span id="cb5-184"><a></a><span class="ex">[2024-07-17</span> 07:35:37.289904]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=92, loss=389.039, sps=4.103e+04, dt=0.00155996, dtf=0.0004359, dtb=0.001124</span>
<span id="cb5-185"><a></a><span class="ex">[2024-07-17</span> 07:35:37.293618]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=93, loss=383.54, sps=4.322e+04, dt=0.00148092, dtf=0.0004147, dtb=0.001066</span>
<span id="cb5-186"><a></a><span class="ex">[2024-07-17</span> 07:35:37.297401]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=94, loss=384.459, sps=4.1e+04, dt=0.00156106, dtf=0.0004164, dtb=0.001145</span>
<span id="cb5-187"><a></a><span class="ex">[2024-07-17</span> 07:35:37.301172]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=95, loss=376.397, sps=4.191e+04, dt=0.0015272, dtf=0.0004129, dtb=0.001114</span>
<span id="cb5-188"><a></a><span class="ex">[2024-07-17</span> 07:35:37.304924]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=96, loss=389.544, sps=4.091e+04, dt=0.00156433, dtf=0.0004139, dtb=0.00115</span>
<span id="cb5-189"><a></a><span class="ex">[2024-07-17</span> 07:35:37.308641]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=97, loss=365.041, sps=4.343e+04, dt=0.00147362, dtf=0.0004165, dtb=0.001057</span>
<span id="cb5-190"><a></a><span class="ex">[2024-07-17</span> 07:35:37.312398]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=98, loss=358.427, sps=4.134e+04, dt=0.00154796, dtf=0.0004143, dtb=0.001134</span>
<span id="cb5-191"><a></a><span class="ex">[2024-07-17</span> 07:35:37.561881]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:274</span><span class="pp">]</span> <span class="at">-</span> iter=99, loss=375.596, sps=258.9, dt=0.247161, dtf=0.1969, dtb=0.05026</span>
<span id="cb5-192"><a></a></span>
<span id="cb5-193"><a></a>                            <span class="ex">train/dt</span> <span class="pp">[</span><span class="ss">2024</span><span class="pp">-</span><span class="ss">07</span><span class="pp">-</span><span class="ss">17</span><span class="pp">-</span><span class="ss">073537</span><span class="pp">]</span></span>
<span id="cb5-194"><a></a>     <span class="ex">┌─────────────────────────────────────────────────────────────────────────┐</span></span>
<span id="cb5-195"><a></a><span class="ex">0.247┤</span>                                                                        ▝│</span>
<span id="cb5-196"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-197"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-198"><a></a><span class="ex">0.206┤</span>                                                                         │</span>
<span id="cb5-199"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-200"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-201"><a></a><span class="ex">0.165┤</span>                                                                         │</span>
<span id="cb5-202"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-203"><a></a><span class="ex">0.124┤</span>                                                                         │</span>
<span id="cb5-204"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-205"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-206"><a></a><span class="ex">0.083┤</span>                                                                         │</span>
<span id="cb5-207"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-208"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-209"><a></a><span class="ex">0.042┤</span>                                                                         │</span>
<span id="cb5-210"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-211"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-212"><a></a><span class="ex">0.001┤▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▖│</span></span>
<span id="cb5-213"><a></a>     <span class="ex">└┬─────────────────┬─────────────────┬─────────────────┬─────────────────┬┘</span></span>
<span id="cb5-214"><a></a>     <span class="ex">1.0</span>              25.5              50.0              74.5             99.0</span>
<span id="cb5-215"><a></a><span class="ex">train/dt</span>                                iter</span>
<span id="cb5-216"><a></a><span class="ex">[2024-07-17</span> 07:35:37.589287]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">plot:156</span><span class="pp">]</span> <span class="at">-</span> Appending plot to: /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/dt.txt</span>
<span id="cb5-217"><a></a><span class="ex">text</span> saved in /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/dt.txt</span>
<span id="cb5-218"><a></a>                            <span class="ex">train/dtf</span> <span class="pp">[</span><span class="ss">2024</span><span class="pp">-</span><span class="ss">07</span><span class="pp">-</span><span class="ss">17</span><span class="pp">-</span><span class="ss">073537</span><span class="pp">]</span></span>
<span id="cb5-219"><a></a>     <span class="ex">┌─────────────────────────────────────────────────────────────────────────┐</span></span>
<span id="cb5-220"><a></a><span class="ex">0.197┤</span>                                                                        ▝│</span>
<span id="cb5-221"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-222"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-223"><a></a><span class="ex">0.164┤</span>                                                                         │</span>
<span id="cb5-224"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-225"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-226"><a></a><span class="ex">0.131┤</span>                                                                         │</span>
<span id="cb5-227"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-228"><a></a><span class="ex">0.099┤</span>                                                                         │</span>
<span id="cb5-229"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-230"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-231"><a></a><span class="ex">0.066┤</span>                                                                         │</span>
<span id="cb5-232"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-233"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-234"><a></a><span class="ex">0.033┤</span>                                                                         │</span>
<span id="cb5-235"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-236"><a></a>     <span class="ex">│</span>                                                                         │</span>
<span id="cb5-237"><a></a><span class="ex">0.000┤▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▄▗▖▖│</span></span>
<span id="cb5-238"><a></a>     <span class="ex">└┬─────────────────┬─────────────────┬─────────────────┬─────────────────┬┘</span></span>
<span id="cb5-239"><a></a>     <span class="ex">1.0</span>              25.5              50.0              74.5             99.0</span>
<span id="cb5-240"><a></a><span class="ex">train/dtf</span>                               iter</span>
<span id="cb5-241"><a></a><span class="ex">[2024-07-17</span> 07:35:37.603242]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">plot:156</span><span class="pp">]</span> <span class="at">-</span> Appending plot to: /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/dtf.txt</span>
<span id="cb5-242"><a></a><span class="ex">text</span> saved in /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/dtf.txt</span>
<span id="cb5-243"><a></a>                             <span class="ex">train/dtb</span> <span class="pp">[</span><span class="ss">2024</span><span class="pp">-</span><span class="ss">07</span><span class="pp">-</span><span class="ss">17</span><span class="pp">-</span><span class="ss">073537</span><span class="pp">]</span></span>
<span id="cb5-244"><a></a>      <span class="ex">┌────────────────────────────────────────────────────────────────────────┐</span></span>
<span id="cb5-245"><a></a><span class="ex">0.0503┤</span>                                                                       ▝│</span>
<span id="cb5-246"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-247"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-248"><a></a><span class="ex">0.0421┤</span>                                                                        │</span>
<span id="cb5-249"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-250"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-251"><a></a><span class="ex">0.0339┤</span>                                                                        │</span>
<span id="cb5-252"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-253"><a></a><span class="ex">0.0257┤</span>                                                                        │</span>
<span id="cb5-254"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-255"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-256"><a></a><span class="ex">0.0175┤</span>                                                                        │</span>
<span id="cb5-257"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-258"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-259"><a></a><span class="ex">0.0093┤</span>                                                                        │</span>
<span id="cb5-260"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-261"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-262"><a></a><span class="ex">0.0011┤▚▗▖▄▗▖▄▗▖▄▖▄▗▖▄▗▖▄▖▄▗▖▄▗▖▄▗▄▗▖▄▗▖▄▗▖▄▖▄▗▖▄▗▖▄▖▄▗▖▄▗▖▄▗▄▗▖▄▗▖▄▗▄▗▖▄▗▖▄▗▖▖│</span></span>
<span id="cb5-263"><a></a>      <span class="ex">└┬─────────────────┬─────────────────┬────────────────┬─────────────────┬┘</span></span>
<span id="cb5-264"><a></a>      <span class="ex">1.0</span>              25.5              50.0             74.5             99.0</span>
<span id="cb5-265"><a></a><span class="ex">train/dtb</span>                                iter</span>
<span id="cb5-266"><a></a><span class="ex">[2024-07-17</span> 07:35:37.615896]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">plot:156</span><span class="pp">]</span> <span class="at">-</span> Appending plot to: /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/dtb.txt</span>
<span id="cb5-267"><a></a><span class="ex">text</span> saved in /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/dtb.txt</span>
<span id="cb5-268"><a></a>                            <span class="ex">train/loss</span> <span class="pp">[</span><span class="ss">2024</span><span class="pp">-</span><span class="ss">07</span><span class="pp">-</span><span class="ss">17</span><span class="pp">-</span><span class="ss">073537</span><span class="pp">]</span></span>
<span id="cb5-269"><a></a>      <span class="ex">┌────────────────────────────────────────────────────────────────────────┐</span></span>
<span id="cb5-270"><a></a><span class="ex">2152.4┤▘</span>                                                                       │</span>
<span id="cb5-271"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-272"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-273"><a></a><span class="ex">1853.4┤</span>                                                                        │</span>
<span id="cb5-274"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-275"><a></a>      <span class="ex">│▗</span>                                                                       │</span>
<span id="cb5-276"><a></a><span class="ex">1554.4┤</span>                                                                        │</span>
<span id="cb5-277"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-278"><a></a><span class="ex">1255.4┤</span>                                                                        │</span>
<span id="cb5-279"><a></a>      <span class="ex">│</span> ▗                                                                      │</span>
<span id="cb5-280"><a></a>      <span class="ex">│</span>                                                                        │</span>
<span id="cb5-281"><a></a> <span class="ex">956.4┤</span>  ▘                                                                     │</span>
<span id="cb5-282"><a></a>      <span class="ex">│</span>   ▖                                                                    │</span>
<span id="cb5-283"><a></a>      <span class="ex">│</span>   ▝              ▖                                                     │</span>
<span id="cb5-284"><a></a> <span class="ex">657.4┤</span>    ▝▘▀▝▘▚▖▄     ▗ ▄                                                    │</span>
<span id="cb5-285"><a></a>      <span class="ex">│</span>            ▝▘▀▝▘▘  ▝▘▀▗▘▚▗▄▗▖▄▗ ▗                                      │</span>
<span id="cb5-286"><a></a>      <span class="ex">│</span>                                ▘▘▝▘▀▘▀▝▘▞▗▘▄▖▄▗▖▄▗▖▄▗▄                 │</span>
<span id="cb5-287"><a></a> <span class="ex">358.4┤</span>                                                       ▝▘▀▝▘▀▝▀▝▘▀▝▖▚▝▖▄│</span>
<span id="cb5-288"><a></a>      <span class="ex">└┬─────────────────┬─────────────────┬────────────────┬─────────────────┬┘</span></span>
<span id="cb5-289"><a></a>      <span class="ex">1.0</span>              25.5              50.0             74.5             99.0</span>
<span id="cb5-290"><a></a><span class="ex">train/loss</span>                               iter</span>
<span id="cb5-291"><a></a><span class="ex">[2024-07-17</span> 07:35:37.655339]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">plot:156</span><span class="pp">]</span> <span class="at">-</span> Appending plot to: /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/loss.txt</span>
<span id="cb5-292"><a></a><span class="ex">text</span> saved in /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/loss.txt</span>
<span id="cb5-293"><a></a>                           <span class="ex">train/iter</span> <span class="pp">[</span><span class="ss">2024</span><span class="pp">-</span><span class="ss">07</span><span class="pp">-</span><span class="ss">17</span><span class="pp">-</span><span class="ss">073537</span><span class="pp">]</span></span>
<span id="cb5-294"><a></a>    <span class="ex">┌──────────────────────────────────────────────────────────────────────────┐</span></span>
<span id="cb5-295"><a></a><span class="ex">99.0┤</span>                                                                      ▗▗▖▀│</span>
<span id="cb5-296"><a></a>    <span class="ex">│</span>                                                                   ▄▝▘▘   │</span>
<span id="cb5-297"><a></a>    <span class="ex">│</span>                                                              ▗▖▞▝▘       │</span>
<span id="cb5-298"><a></a><span class="ex">82.7┤</span>                                                          ▄▗▘▀            │</span>
<span id="cb5-299"><a></a>    <span class="ex">│</span>                                                      ▖▄▝▘                │</span>
<span id="cb5-300"><a></a>    <span class="ex">│</span>                                                 ▗▗▖▀▝                    │</span>
<span id="cb5-301"><a></a><span class="ex">66.3┤</span>                                              ▄▝▘▘                        │</span>
<span id="cb5-302"><a></a>    <span class="ex">│</span>                                         ▗▖▞▝▘                            │</span>
<span id="cb5-303"><a></a><span class="ex">50.0┤</span>                                     ▄▗▘▀                                 │</span>
<span id="cb5-304"><a></a>    <span class="ex">│</span>                                 ▖▄▝▘                                     │</span>
<span id="cb5-305"><a></a>    <span class="ex">│</span>                            ▗▗▖▀▝                                         │</span>
<span id="cb5-306"><a></a><span class="ex">33.7┤</span>                         ▄▝▘▘                                             │</span>
<span id="cb5-307"><a></a>    <span class="ex">│</span>                    ▗▖▞▝▘                                                 │</span>
<span id="cb5-308"><a></a>    <span class="ex">│</span>                ▄▗▘▀                                                      │</span>
<span id="cb5-309"><a></a><span class="ex">17.3┤</span>            ▖▄▝▘                                                          │</span>
<span id="cb5-310"><a></a>    <span class="ex">│</span>       ▗▗▖▀▝                                                              │</span>
<span id="cb5-311"><a></a>    <span class="ex">│</span>    ▄▝▘▘                                                                  │</span>
<span id="cb5-312"><a></a> <span class="ex">1.0┤▖▞▝▘</span>                                                                      │</span>
<span id="cb5-313"><a></a>    <span class="ex">└┬─────────────────┬──────────────────┬─────────────────┬─────────────────┬┘</span></span>
<span id="cb5-314"><a></a>    <span class="ex">1.0</span>              25.5               50.0              74.5             99.0</span>
<span id="cb5-315"><a></a><span class="ex">train/iter</span>                              iter</span>
<span id="cb5-316"><a></a><span class="ex">[2024-07-17</span> 07:35:37.669214]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">plot:156</span><span class="pp">]</span> <span class="at">-</span> Appending plot to: /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/iter.txt</span>
<span id="cb5-317"><a></a><span class="ex">text</span> saved in /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/iter.txt</span>
<span id="cb5-318"><a></a>                             <span class="ex">train/sps</span> <span class="pp">[</span><span class="ss">2024</span><span class="pp">-</span><span class="ss">07</span><span class="pp">-</span><span class="ss">17</span><span class="pp">-</span><span class="ss">073537</span><span class="pp">]</span></span>
<span id="cb5-319"><a></a>       <span class="ex">┌───────────────────────────────────────────────────────────────────────┐</span></span>
<span id="cb5-320"><a></a><span class="ex">43523.3┤</span>                ▖▗  ▖▗ ▖▗ ▖▝ ▚▘▝ ▖▗    ▘▗▖▗▖▖ ▖▄    ▗▖▝ ▖ ▗▖▗ ▘▗▞ ▘▗ ▘ │</span>
<span id="cb5-321"><a></a>       <span class="ex">│</span>       ▖ ▗▘  ▗▝▖  ▀▗ ▖▝▝ ▖▝ ▘  ▖▝ ▘▝▀▗▘▝ ▝   ▝  ▘▞▝▘▘ ▘▝ ▚ ▝ ▘▝  ▝ ▘▝ ▘│</span>
<span id="cb5-322"><a></a>       <span class="ex">│</span>  ▖▀ ▖▞ ▞  ▄ ▘  ▝                                                      │</span>
<span id="cb5-323"><a></a><span class="ex">36312.5┤▝▝</span>  ▗                                       ▝                          │</span>
<span id="cb5-324"><a></a>       <span class="ex">│</span>            ▖                                                          │</span>
<span id="cb5-325"><a></a>       <span class="ex">│</span>                                                                       │</span>
<span id="cb5-326"><a></a><span class="ex">29101.8┤</span>                                                                       │</span>
<span id="cb5-327"><a></a>       <span class="ex">│</span>                                                                       │</span>
<span id="cb5-328"><a></a><span class="ex">21891.1┤</span>                                                                       │</span>
<span id="cb5-329"><a></a>       <span class="ex">│</span>                                                                       │</span>
<span id="cb5-330"><a></a>       <span class="ex">│▖</span>                                                                      │</span>
<span id="cb5-331"><a></a><span class="ex">14680.4┤</span>                                                                       │</span>
<span id="cb5-332"><a></a>       <span class="ex">│</span>                                                                       │</span>
<span id="cb5-333"><a></a>       <span class="ex">│</span>                                                                       │</span>
<span id="cb5-334"><a></a> <span class="ex">7469.7┤</span>                                                                       │</span>
<span id="cb5-335"><a></a>       <span class="ex">│</span>                                                                       │</span>
<span id="cb5-336"><a></a>       <span class="ex">│</span>                                                                       │</span>
<span id="cb5-337"><a></a>  <span class="ex">258.9┤</span>                                                                      ▗│</span>
<span id="cb5-338"><a></a>       <span class="ex">└┬─────────────────┬────────────────┬─────────────────┬────────────────┬┘</span></span>
<span id="cb5-339"><a></a>       <span class="ex">1.0</span>              25.5             50.0              74.5            99.0</span>
<span id="cb5-340"><a></a><span class="ex">train/sps</span>                                iter</span>
<span id="cb5-341"><a></a><span class="ex">[2024-07-17</span> 07:35:37.681268]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">plot:156</span><span class="pp">]</span> <span class="at">-</span> Appending plot to: /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/sps.txt</span>
<span id="cb5-342"><a></a><span class="ex">text</span> saved in /home/foremans/tmp/polaris-talk/2024-07-17-073327/test-dist-plots/train/sps.txt</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
</section>
<section id="pyinstrument-profile" class="slide level2 smaller center" data-background-color="white">
<h2>PyInstrument Profile</h2>
<div class="sourceCode" id="cb6"><pre class="sourceCode numberSource bash number-lines code-with-copy"><code class="sourceCode bash"><span id="cb6-1"><a></a><span class="ex">Recorded:</span> 07:35:34  Samples:  2227</span>
<span id="cb6-2"><a></a><span class="ex">Duration:</span> 2.948     CPU time: 5.441</span>
<span id="cb6-3"><a></a><span class="ex">PyInstrument:</span> v4.6.2</span>
<span id="cb6-4"><a></a><span class="ex">Program:</span> /home/foremans/tmp/polaris-talk/2024-07-17-073327/ezpz/src/ezpz/test_dist.py</span>
<span id="cb6-5"><a></a><span class="ex">2.948</span> <span class="op">&lt;</span>module<span class="op">&gt;</span>  ezpz/test_dist.py:1</span>
<span id="cb6-6"><a></a><span class="ex">└─</span> 2.946 main  ezpz/test_dist.py:217</span>
<span id="cb6-7"><a></a>   <span class="ex">├─</span> 2.043 build_model_and_optimizer  ezpz/test_dist.py:171</span>
<span id="cb6-8"><a></a>   <span class="ex">│</span>  └─ 2.011 Adam.__init__  torch/optim/adam.py:15</span>
<span id="cb6-9"><a></a>   <span class="ex">│</span>        [129 frames hidden]  torch, wandb, transformers, jax, func...</span>
<span id="cb6-10"><a></a>   <span class="ex">├─</span> 0.326 _forward_step  ezpz/test_dist.py:231</span>
<span id="cb6-11"><a></a>   <span class="ex">│</span>  ├─ 0.279 DistributedDataParallel._wrapped_call_impl  torch/nn/modules/module.py:1528</span>
<span id="cb6-12"><a></a>   <span class="ex">│</span>  │     [13 frames hidden]  torch, wandb, <span class="op">&lt;</span>built-in<span class="op">&gt;</span></span>
<span id="cb6-13"><a></a>   <span class="ex">│</span>  │        0.273 Network._call_impl  torch/nn/modules/module.py:1534</span>
<span id="cb6-14"><a></a>   <span class="ex">│</span>  │        └─ 0.076 Network.forward  ezpz/test_dist.py:164</span>
<span id="cb6-15"><a></a>   <span class="ex">│</span>  │           └─ 0.076 Sequential._wrapped_call_impl  torch/nn/modules/module.py:1528</span>
<span id="cb6-16"><a></a>   <span class="ex">│</span>  │                 [7 frames hidden]  torch, <span class="op">&lt;</span>built-in<span class="op">&gt;</span></span>
<span id="cb6-17"><a></a>   <span class="ex">│</span>  └─ 0.046 calc_loss  ezpz/test_dist.py:168</span>
<span id="cb6-18"><a></a>   <span class="ex">├─</span> 0.254 _backward_step  ezpz/test_dist.py:236</span>
<span id="cb6-19"><a></a>   <span class="ex">│</span>  ├─ 0.177 Tensor.backward  torch/_tensor.py:466</span>
<span id="cb6-20"><a></a>   <span class="ex">│</span>  │     [4 frames hidden]  torch, <span class="op">&lt;</span>built-in<span class="op">&gt;</span></span>
<span id="cb6-21"><a></a>   <span class="ex">│</span>  └─ 0.077 wrapper  torch/optim/optimizer.py:374</span>
<span id="cb6-22"><a></a>   <span class="ex">│</span>        [5 frames hidden]  torch</span>
<span id="cb6-23"><a></a>   <span class="ex">├─</span> 0.119 tplot_dict  ezpz/plot.py:136</span>
<span id="cb6-24"><a></a>   <span class="ex">│</span>  └─ 0.069 show  plotext/_core.py:292</span>
<span id="cb6-25"><a></a>   <span class="ex">│</span>        [5 frames hidden]  plotext</span>
<span id="cb6-26"><a></a>   <span class="ex">├─</span> 0.102 Logger.info  logging/__init__.py:1479</span>
<span id="cb6-27"><a></a>   <span class="ex">│</span>     [6 frames hidden]  logging, rich</span>
<span id="cb6-28"><a></a>   <span class="ex">│</span>        0.102 RichHandler.emit  rich/logging.py:126</span>
<span id="cb6-29"><a></a>   <span class="ex">│</span>        └─ 0.100 Console.print  ezpz/log/console.py:79</span>
<span id="cb6-30"><a></a>   <span class="ex">│</span>           └─ 0.100 Console.print  rich/console.py:1624</span>
<span id="cb6-31"><a></a>   <span class="ex">│</span>                 [5 frames hidden]  rich</span>
<span id="cb6-32"><a></a>   <span class="ex">└─</span> 0.099 Run.wrapper  wandb/sdk/wandb_run.py:418</span>
<span id="cb6-33"><a></a>         <span class="ex">[13</span> frames hidden]  wandb, json</span>
<span id="cb6-34"><a></a><span class="ex">[2024-07-17</span> 07:35:37.876629]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">profile:115</span><span class="pp">]</span> <span class="at">-</span> Saving pyinstrument profile output to: /home/foremans/tmp/polaris-talk/2024-07-17-073327/ezpz_pyinstrument_profiles</span>
<span id="cb6-35"><a></a><span class="ex">[2024-07-17</span> 07:35:37.877255]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">profile:123</span><span class="pp">]</span> <span class="at">-</span> PyInstrument profile saved <span class="er">(</span><span class="fu">as</span> html<span class="kw">)</span> <span class="ex">to:</span>  /home/foremans/tmp/polaris-talk/2024-07-17-073327/ezpz_pyinstrument_profiles/pyinstrument-profile-2024-07-17-073537.html</span>
<span id="cb6-36"><a></a><span class="ex">[2024-07-17</span> 07:35:37.877936]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">profile:131</span><span class="pp">]</span> <span class="at">-</span> PyInstrument profile saved <span class="er">(</span><span class="fu">as</span> text<span class="kw">)</span> <span class="ex">to:</span>  /home/foremans/tmp/polaris-talk/2024-07-17-073327/ezpz_pyinstrument_profiles/pyinstrument-profile-2024-07-17-073537.txt</span>
<span id="cb6-37"><a></a><span class="ex">[2024-07-17</span> 07:35:38.391628]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">profile:143</span><span class="pp">]</span> <span class="at">-</span> Finished with pyinstrument profiler. Took: 2.94768s</span>
<span id="cb6-38"><a></a><span class="ex">[2024-07-17</span> 07:35:38.392519]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">test_dist:318</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">0</span><span class="pp">]</span> runtime=8.075730s</span>
<span id="cb6-39"><a></a><span class="ex">wandb:</span> 🚀 View run vibrant-river-284 at: https://wandb.ai/aurora_gpt/ezpz.test_dist/runs/p49rzxtv</span>
<span id="cb6-40"><a></a><span class="ex">wandb:</span> Find logs at: wandb/run-20240717_073532-p49rzxtv/logs</span>
<span id="cb6-41"><a></a><span class="ex">Application</span> cff755ee resources: utime=25s stime=23s maxrss=1434396KB inblock=32 oublock=4320 minflt=670179 majflt=864 nvcsw=195893 nivcsw=1331214</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
</section>
<section id="example-ezpz" class="slide level2 center scrollable" data-background-color="white" style="max-height: 700px!important;">
<h2>Example: <a href="https://github.com/saforem2/ezpz"><code>ezpz</code> 🍋</a></h2>
<ul>
<li>Link<sup>1</sup> to <a href="https://asciinema.org/a/668460">video</a></li>
</ul>
<script src="https://asciinema.org/a/668460.js" id="asciicast-668460" async="true" height="600px" style="max-height: 600px!important;"></script>
<p>Example: using <a href="https://github.com/saforem2/ezpz/blob/main/src/ezpz/test_dist.py">🍋 <code>ezpz.test_dist</code></a> to train a small model using DDP</p>
<aside><ol class="aside-footnotes"><li id="fn8"><p>idk why it doesn’t render correctly in the slide (seems like refreshing helps?)</p></li></ol></aside></section></section>
<section>
<section id="example-wordplay" class="title-slide slide level1 center" data-background-color="white">
<h1>Example: <a href="https://github.com/saforem2/wordplay"><code>wordplay</code> 🎮💬</a></h1>
<div id="fig-nanoGPT" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-nanoGPT-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://github.com/saforem2/nanoGPT/raw/master/assets/nanogpt.jpg" class="lightbox" data-gallery="quarto-lightbox-gallery-28" title="Figure&nbsp;24: The simplest, fastest repository for training / finetuning GPT based models."><img data-src="https://github.com/saforem2/nanoGPT/raw/master/assets/nanogpt.jpg"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-nanoGPT-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;24: The simplest, fastest repository for training / finetuning GPT based models.
</figcaption>
</figure>
</div>
</section>
<section id="prepare-data" class="slide level2 center" data-background-color="white">
<h2>Prepare Data</h2>
<div style="font-size: 0.8em; line-height: 1.0em;">
<div class="sourceCode" id="cb7"><pre class="sourceCode numberSource bash number-lines code-with-copy"><code class="sourceCode bash"><span id="cb7-1"><a></a><span class="co">#[⭐][07:41:20 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327][⏱ 29s]</span></span>
<span id="cb7-2"><a></a><span class="ex">$</span> python3 wordplay/data/shakespeare_char/prepare.py</span>
<span id="cb7-3"><a></a><span class="ex">Using</span> HF_DATASETS_CACHE=/home/foremans/tmp/polaris-talk/2024-07-17-073327/wordplay/data/shakespeare_char/.cache/huggingface</span>
<span id="cb7-4"><a></a><span class="ex">length</span> of dataset in characters: 1,115,394</span>
<span id="cb7-5"><a></a><span class="ex">all</span> the unique characters:</span>
<span id="cb7-6"><a></a> <span class="ex">!$</span><span class="kw">&amp;</span><span class="ex">\',-.3:</span><span class="kw">;</span><span class="ex">?ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz</span></span>
<span id="cb7-7"><a></a><span class="ex">vocab</span> size: 65</span>
<span id="cb7-8"><a></a><span class="ex">train</span> has 1,003,854 tokens</span>
<span id="cb7-9"><a></a><span class="ex">val</span> has 111,540 tokens</span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
</div>
</section>
<section id="launch-training-ddp" class="slide level2 center" data-background-color="white">
<h2>Launch Training (DDP)</h2>
<div style="font-size: 0.8em; line-height: 1.0em;">
<div class="sourceCode" id="cb8"><pre class="sourceCode numberSource bash number-lines code-with-copy"><code class="sourceCode bash"><span id="cb8-1"><a></a><span class="co">#(👻 2024-04-29)</span></span>
<span id="cb8-2"><a></a><span class="co">#[⭐][07:42:02 AM][foremans@x3101c0s13b0n0][~/tmp/polaris-talk/2024-07-17-073327]</span></span>
<span id="cb8-3"><a></a><span class="ex">$</span> launch python3 <span class="at">-m</span> wordplay train.backend=DDP train.eval_interval=100 data=shakespeare train.dtype=bf16 model.batch_size=64 model.block_size=1024 train.max_iters=1000 train.log_interval=10 train.compile=false <span class="kw">|</span> <span class="fu">tee</span> wordplay-gpt2-DDP.log</span>
<span id="cb8-4"><a></a><span class="ex">[2024-07-17</span> 07:42:11.746540]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">__init__:156</span><span class="pp">]</span> <span class="at">-</span> Setting logging level to <span class="st">'INFO'</span> on <span class="st">'RANK == 0'</span></span>
<span id="cb8-5"><a></a><span class="ex">[2024-07-17</span> 07:42:11.748763]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">__init__:157</span><span class="pp">]</span> <span class="at">-</span> Setting logging level to <span class="st">'CRITICAL'</span> on all others <span class="st">'RANK != 0'</span></span>
<span id="cb8-6"><a></a><span class="ex">[2024-07-17</span> 07:42:11.749453]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">__init__:160</span><span class="pp">]</span> <span class="at">-</span> To disable this behavior, and log from ALL ranks <span class="er">(</span><span class="ex">not</span> recommended<span class="kw">)</span><span class="ex">,</span> set: <span class="st">'export LOG_FROM_ALL_RANKS=1'</span>  in your environment, and re-run.</span>
<span id="cb8-7"><a></a><span class="ex">[2024-07-17</span> 07:42:11.772718]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">configs:81</span><span class="pp">]</span> <span class="at">-</span> Setting HF_DATASETS_CACHE to /home/foremans/tmp/polaris-talk/2024-07-17-073327/wordplay/.cache/huggingface/datasets</span>
<span id="cb8-8"><a></a><span class="ex">[2024-07-17</span> 07:42:15.341532]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:358</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">device=</span><span class="st">'cuda'</span><span class="pp">][</span><span class="ss">rank=2/3</span><span class="pp">][</span><span class="ss">local_rank=2/3</span><span class="pp">][</span><span class="ss">node=0/0</span><span class="pp">]</span></span>
<span id="cb8-9"><a></a><span class="ex">[2024-07-17</span> 07:42:15.342381]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:358</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">device=</span><span class="st">'cuda'</span><span class="pp">][</span><span class="ss">rank=1/3</span><span class="pp">][</span><span class="ss">local_rank=1/3</span><span class="pp">][</span><span class="ss">node=0/0</span><span class="pp">]</span></span>
<span id="cb8-10"><a></a><span class="ex">[2024-07-17</span> 07:42:15.342430]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:358</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">device=</span><span class="st">'cuda'</span><span class="pp">][</span><span class="ss">rank=3/3</span><span class="pp">][</span><span class="ss">local_rank=3/3</span><span class="pp">][</span><span class="ss">node=0/0</span><span class="pp">]</span></span>
<span id="cb8-11"><a></a><span class="ex">[2024-07-17</span> 07:42:15.348657]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:95</span><span class="pp">]</span> <span class="at">-</span></span>
<span id="cb8-12"><a></a></span>
<span id="cb8-13"><a></a><span class="ex">[dist_info]:</span></span>
<span id="cb8-14"><a></a>  <span class="ex">•</span> DEVICE=cuda</span>
<span id="cb8-15"><a></a>  <span class="ex">•</span> DEVICE_ID=cuda:0</span>
<span id="cb8-16"><a></a>  <span class="ex">•</span> DISTRIBUTED_BACKEND=nccl</span>
<span id="cb8-17"><a></a>  <span class="ex">•</span> GPUS_PER_NODE=4</span>
<span id="cb8-18"><a></a>  <span class="ex">•</span> HOSTS=<span class="pp">[</span><span class="st">'x3101c0s13b0n0.hsn.cm.polaris.alcf.anl.gov'</span><span class="pp">]</span></span>
<span id="cb8-19"><a></a>  <span class="ex">•</span> HOSTFILE=/var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb8-20"><a></a>  <span class="ex">•</span> HOSTNAME=x3101c0s13b0n0.hsn.cm.polaris.alcf.anl.gov</span>
<span id="cb8-21"><a></a>  <span class="ex">•</span> LOCAL_RANK=0</span>
<span id="cb8-22"><a></a>  <span class="ex">•</span> MACHINE=Polaris</span>
<span id="cb8-23"><a></a>  <span class="ex">•</span> NUM_NODES=1</span>
<span id="cb8-24"><a></a>  <span class="ex">•</span> NGPUS=4</span>
<span id="cb8-25"><a></a>  <span class="ex">•</span> NGPUS_AVAILABLE=4</span>
<span id="cb8-26"><a></a>  <span class="ex">•</span> NODE_ID=0</span>
<span id="cb8-27"><a></a>  <span class="ex">•</span> RANK=0</span>
<span id="cb8-28"><a></a>  <span class="ex">•</span> SCHEDULER=PBS</span>
<span id="cb8-29"><a></a>  <span class="ex">•</span> WORLD_SIZE_TOTAL=4</span>
<span id="cb8-30"><a></a>  <span class="ex">•</span> WORLD_SIZE_IN_USE=4</span>
<span id="cb8-31"><a></a>  <span class="ex">•</span> LAUNCH_CMD=mpiexec <span class="at">--verbose</span> <span class="at">--envall</span> <span class="at">-n</span> 4 <span class="at">-ppn</span> 4 <span class="at">--hostfile</span> /var/spool/pbs/aux/2024084.polaris-pbs-01.hsn.cm.polaris.alcf.anl.gov <span class="at">--cpu-bind</span> depth <span class="at">-d</span> 16</span>
<span id="cb8-32"><a></a></span>
<span id="cb8-33"><a></a></span>
<span id="cb8-34"><a></a><span class="ex">[2024-07-17</span> 07:42:15.351446]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:725</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">0/4</span><span class="pp">]</span> Using device=<span class="st">'cuda'</span> with backend=<span class="st">'DDP'</span> + <span class="st">'nccl'</span> for distributed training.</span>
<span id="cb8-35"><a></a><span class="ex">[2024-07-17</span> 07:42:15.356169]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:358</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="ss">device=</span><span class="st">'cuda'</span><span class="pp">][</span><span class="ss">rank=0/3</span><span class="pp">][</span><span class="ss">local_rank=0/3</span><span class="pp">][</span><span class="ss">node=0/0</span><span class="pp">]</span></span>
<span id="cb8-36"><a></a><span class="ex">[2024-07-17</span> 07:42:15.356692]<span class="pp">[</span><span class="ss">WARNING</span><span class="pp">][</span><span class="ss">dist:364</span><span class="pp">]</span> <span class="at">-</span> Using [4 / 4] available <span class="st">"cuda"</span> devices !!</span>
<span id="cb8-37"><a></a><span class="ex">[2024-07-17</span> 07:42:15.359571]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">configs:317</span><span class="pp">]</span> <span class="at">-</span> Loading val from /home/foremans/tmp/polaris-talk/2024-07-17-073327/wordplay/data/shakespeare_char/val.bin</span>
<span id="cb8-38"><a></a><span class="ex">[2024-07-17</span> 07:42:15.360138]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">configs:317</span><span class="pp">]</span> <span class="at">-</span> Loading train from /home/foremans/tmp/polaris-talk/2024-07-17-073327/wordplay/data/shakespeare_char/train.bin</span>
<span id="cb8-39"><a></a><span class="ex">[2024-07-17</span> 07:42:15.361154]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">configs:442</span><span class="pp">]</span> <span class="at">-</span> Tokens per iteration: 262,144</span>
<span id="cb8-40"><a></a><span class="ex">[2024-07-17</span> 07:42:15.361574]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">configs:465</span><span class="pp">]</span> <span class="at">-</span> Using self.ptdtype=torch.float16 on self.device_type=<span class="st">'cuda'</span></span>
<span id="cb8-41"><a></a><span class="ex">[2024-07-17</span> 07:42:15.362002]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">configs:471</span><span class="pp">]</span> <span class="at">-</span> Initializing a new model from scratch</span>
<span id="cb8-42"><a></a><span class="ex">[2024-07-17</span> 07:42:15.362529]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:874</span><span class="pp">]</span> <span class="at">-</span> Setting up wandb from rank: 0</span>
<span id="cb8-43"><a></a><span class="ex">[2024-07-17</span> 07:42:15.362896]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:875</span><span class="pp">]</span> <span class="at">-</span> Using: WB PROJECT: WordPlay</span>
<span id="cb8-44"><a></a><span class="ex">[2024-07-17</span> 07:42:16.451786]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:905</span><span class="pp">]</span> <span class="at">-</span> W<span class="kw">&amp;</span><span class="ex">B</span> RUN: <span class="pp">[</span><span class="ss">still</span><span class="pp">-</span><span class="ss">frog</span><span class="pp">-</span><span class="ss">17</span><span class="pp">]</span><span class="er">(</span><span class="ex">https://wandb.ai/aurora_gpt/WordPlay/runs/6by9vpcj</span><span class="kw">)</span></span>
<span id="cb8-45"><a></a><span class="ex">[2024-07-17</span> 07:42:16.464106]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:312</span><span class="pp">]</span> <span class="at">-</span> Updating wandb.run: still-frog-17 config with <span class="st">"DIST_INFO"</span></span>
<span id="cb8-46"><a></a><span class="ex">[2024-07-17</span> 07:42:16.469424]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">dist:938</span><span class="pp">]</span> <span class="at">-</span> Running on machine=<span class="st">'Polaris'</span></span>
<span id="cb8-47"><a></a><span class="ex">[2024-07-17</span> 07:42:16.471151]<span class="pp">[</span><span class="ss">WARNING</span><span class="pp">][</span><span class="ss">__main__:89</span><span class="pp">]</span> <span class="at">-</span> {</span>
<span id="cb8-48"><a></a>    <span class="st">"train"</span><span class="ex">:</span> {</span>
<span id="cb8-49"><a></a>        <span class="st">"framework"</span><span class="ex">:</span> <span class="st">"pytorch"</span>,</span>
<span id="cb8-50"><a></a>        <span class="st">"backend"</span><span class="ex">:</span> <span class="st">"DDP"</span>,</span>
<span id="cb8-51"><a></a>        <span class="st">"device"</span><span class="ex">:</span> null,</span>
<span id="cb8-52"><a></a>        <span class="st">"seed"</span><span class="ex">:</span> null,</span>
<span id="cb8-53"><a></a>        <span class="st">"port"</span><span class="ex">:</span> null,</span>
<span id="cb8-54"><a></a>        <span class="st">"ds_config_path"</span><span class="ex">:</span> null,</span>
<span id="cb8-55"><a></a>        <span class="st">"precision"</span><span class="ex">:</span> null,</span>
<span id="cb8-56"><a></a>        <span class="st">"ngpus"</span><span class="ex">:</span> null,</span>
<span id="cb8-57"><a></a>        <span class="st">"use_wandb"</span><span class="ex">:</span> true,</span>
<span id="cb8-58"><a></a>        <span class="st">"eval_interval"</span><span class="ex">:</span> 100,</span>
<span id="cb8-59"><a></a>        <span class="st">"log_interval"</span><span class="ex">:</span> 10,</span>
<span id="cb8-60"><a></a>        <span class="st">"eval_iters"</span><span class="ex">:</span> 200,</span>
<span id="cb8-61"><a></a>        <span class="st">"eval_only"</span><span class="ex">:</span> false,</span>
<span id="cb8-62"><a></a>        <span class="st">"always_save_checkpoint"</span><span class="ex">:</span> false,</span>
<span id="cb8-63"><a></a>        <span class="st">"init_from"</span><span class="ex">:</span> <span class="st">"scratch"</span>,</span>
<span id="cb8-64"><a></a>        <span class="st">"wandb_project"</span><span class="ex">:</span> <span class="st">"WordPlay"</span>,</span>
<span id="cb8-65"><a></a>        <span class="st">"max_iters"</span><span class="ex">:</span> 1000,</span>
<span id="cb8-66"><a></a>        <span class="st">"warmup_iters"</span><span class="ex">:</span> 100,</span>
<span id="cb8-67"><a></a>        <span class="st">"dtype"</span><span class="ex">:</span> <span class="st">"bf16"</span>,</span>
<span id="cb8-68"><a></a>        <span class="st">"compile"</span><span class="ex">:</span> false</span>
<span id="cb8-69"><a></a>    <span class="er">}</span><span class="ex">,</span></span>
<span id="cb8-70"><a></a>    <span class="st">"model"</span><span class="ex">:</span> {</span>
<span id="cb8-71"><a></a>        <span class="st">"n_layer"</span><span class="ex">:</span> 12,</span>
<span id="cb8-72"><a></a>        <span class="st">"n_head"</span><span class="ex">:</span> 12,</span>
<span id="cb8-73"><a></a>        <span class="st">"n_embd"</span><span class="ex">:</span> 768,</span>
<span id="cb8-74"><a></a>        <span class="st">"batch_size"</span><span class="ex">:</span> 64,</span>
<span id="cb8-75"><a></a>        <span class="st">"block_size"</span><span class="ex">:</span> 1024,</span>
<span id="cb8-76"><a></a>        <span class="st">"activation"</span><span class="ex">:</span> <span class="st">"gelu"</span>,</span>
<span id="cb8-77"><a></a>        <span class="st">"dropout"</span><span class="ex">:</span> 0.0,</span>
<span id="cb8-78"><a></a>        <span class="st">"bias"</span><span class="ex">:</span> false,</span>
<span id="cb8-79"><a></a>        <span class="st">"vocab_size"</span><span class="ex">:</span> 65</span>
<span id="cb8-80"><a></a>    <span class="er">}</span><span class="ex">,</span></span>
<span id="cb8-81"><a></a>    <span class="st">"data"</span><span class="ex">:</span> {</span>
<span id="cb8-82"><a></a>        <span class="st">"dataset"</span><span class="ex">:</span> <span class="st">"shakespeare_char"</span>,</span>
<span id="cb8-83"><a></a>        <span class="st">"out_dir"</span><span class="ex">:</span> <span class="st">"out-shakespeare-char"</span>,</span>
<span id="cb8-84"><a></a>        <span class="st">"root_path"</span><span class="ex">:</span> null</span>
<span id="cb8-85"><a></a>    <span class="er">}</span><span class="ex">,</span></span>
<span id="cb8-86"><a></a>    <span class="st">"optimizer"</span><span class="ex">:</span> {</span>
<span id="cb8-87"><a></a>        <span class="st">"gas"</span><span class="ex">:</span> 1,</span>
<span id="cb8-88"><a></a>        <span class="st">"name"</span><span class="ex">:</span> <span class="st">"AdamW"</span>,</span>
<span id="cb8-89"><a></a>        <span class="st">"learning_rate"</span><span class="ex">:</span> 0.0006,</span>
<span id="cb8-90"><a></a>        <span class="st">"weight_decay"</span><span class="ex">:</span> 0.1,</span>
<span id="cb8-91"><a></a>        <span class="st">"beta1"</span><span class="ex">:</span> 0.9,</span>
<span id="cb8-92"><a></a>        <span class="st">"beta2"</span><span class="ex">:</span> 0.95,</span>
<span id="cb8-93"><a></a>        <span class="st">"grad_clip"</span><span class="ex">:</span> 1.0,</span>
<span id="cb8-94"><a></a>        <span class="st">"decay_lr"</span><span class="ex">:</span> true,</span>
<span id="cb8-95"><a></a>        <span class="st">"lr_decay_iters"</span><span class="ex">:</span> 600000,</span>
<span id="cb8-96"><a></a>        <span class="st">"min_lr"</span><span class="ex">:</span> 6e-05</span>
<span id="cb8-97"><a></a>    <span class="er">}</span></span>
<span id="cb8-98"><a></a><span class="er">}</span></span>
<span id="cb8-99"><a></a><span class="ex">[2024-07-17</span> 07:42:16.474305]<span class="pp">[</span><span class="ss">WARNING</span><span class="pp">][</span><span class="ss">__main__:90</span><span class="pp">]</span> <span class="at">-</span> Output dir: /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13</span>
<span id="cb8-100"><a></a><span class="ex">[2024-07-17</span> 07:42:16.474922]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:246</span><span class="pp">]</span> <span class="at">-</span> Initializing a new model from scratch</span>
<span id="cb8-101"><a></a><span class="ex">[2024-07-17</span> 07:42:17.258904]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">model:255</span><span class="pp">]</span> <span class="at">-</span> number of parameters: 85.00M</span>
<span id="cb8-102"><a></a><span class="ex">[2024-07-17</span> 07:42:17.290004]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:264</span><span class="pp">]</span> <span class="at">-</span> Model size: num_params=85003776</span>
<span id="cb8-103"><a></a><span class="ex">[2024-07-17</span> 07:42:17.292626]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">model:445</span><span class="pp">]</span> <span class="at">-</span> num decayed parameter tensors: 50, with 85,771,008 parameters</span>
<span id="cb8-104"><a></a><span class="ex">[2024-07-17</span> 07:42:17.293296]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">model:449</span><span class="pp">]</span> <span class="at">-</span> num non-decayed parameter tensors: 25, with 19,200 parameters</span>
<span id="cb8-105"><a></a><span class="ex">[2024-07-17</span> 07:42:17.515324]<span class="pp">[</span><span class="ss">CRITICAL</span><span class="pp">][</span><span class="ss">trainer:316</span><span class="pp">]</span> <span class="at">-</span> <span class="st">"devid='cuda:1'"</span></span>
<span id="cb8-106"><a></a><span class="ex">[2024-07-17</span> 07:42:17.515340]<span class="pp">[</span><span class="ss">CRITICAL</span><span class="pp">][</span><span class="ss">trainer:316</span><span class="pp">]</span> <span class="at">-</span> <span class="st">"devid='cuda:2'"</span></span>
<span id="cb8-107"><a></a><span class="ex">[2024-07-17</span> 07:42:17.515465]<span class="pp">[</span><span class="ss">CRITICAL</span><span class="pp">][</span><span class="ss">trainer:316</span><span class="pp">]</span> <span class="at">-</span> <span class="st">"devid='cuda:3'"</span></span>
<span id="cb8-108"><a></a><span class="ex">[2024-07-17</span> 07:42:18.431814]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">model:465</span><span class="pp">]</span> <span class="at">-</span> using fused AdamW: True</span>
<span id="cb8-109"><a></a><span class="ex">[2024-07-17</span> 07:42:18.432620]<span class="pp">[</span><span class="ss">CRITICAL</span><span class="pp">][</span><span class="ss">trainer:316</span><span class="pp">]</span> <span class="at">-</span> <span class="st">"devid='cuda:0'"</span></span>
<span id="cb8-110"><a></a><span class="ex">[2024-07-17</span> 07:42:19.951020]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:356</span><span class="pp">]</span> <span class="at">-</span> • self.model=GPT<span class="er">(</span></span>
<span id="cb8-111"><a></a>  <span class="kw">(</span><span class="ex">transformer</span><span class="kw">)</span><span class="bu">:</span> ModuleDict<span class="er">(</span></span>
<span id="cb8-112"><a></a>    <span class="kw">(</span><span class="ex">wte</span><span class="kw">)</span><span class="bu">:</span> Embedding<span class="er">(</span><span class="ex">65,</span> 768<span class="kw">)</span></span>
<span id="cb8-113"><a></a>    <span class="kw">(</span><span class="ex">wpe</span><span class="kw">)</span><span class="bu">:</span> Embedding<span class="er">(</span><span class="ex">1024,</span> 768<span class="kw">)</span></span>
<span id="cb8-114"><a></a>    <span class="kw">(</span><span class="ex">drop</span><span class="kw">)</span><span class="bu">:</span> Dropout<span class="er">(</span><span class="va">p</span><span class="op">=</span>0.0, <span class="va">inplace</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-115"><a></a>    <span class="kw">(</span><span class="ex">h</span><span class="kw">)</span><span class="bu">:</span> ModuleList<span class="er">(</span></span>
<span id="cb8-116"><a></a>      <span class="kw">(</span><span class="ex">0-11</span><span class="kw">)</span><span class="bu">:</span> 12 x Block<span class="er">(</span></span>
<span id="cb8-117"><a></a>        <span class="kw">(</span><span class="ex">ln_1</span><span class="kw">)</span><span class="bu">:</span> LayerNorm<span class="er">(</span><span class="kw">)</span></span>
<span id="cb8-118"><a></a>        <span class="kw">(</span><span class="ex">attn</span><span class="kw">)</span><span class="bu">:</span> CausalSelfAttention<span class="er">(</span></span>
<span id="cb8-119"><a></a>          <span class="kw">(</span><span class="ex">c_attn</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>768, <span class="va">out_features</span><span class="op">=</span>2304, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-120"><a></a>          <span class="kw">(</span><span class="ex">c_proj</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>768, <span class="va">out_features</span><span class="op">=</span>768, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-121"><a></a>          <span class="kw">(</span><span class="ex">attn_dropout</span><span class="kw">)</span><span class="bu">:</span> Dropout<span class="er">(</span><span class="va">p</span><span class="op">=</span>0.0, <span class="va">inplace</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-122"><a></a>          <span class="kw">(</span><span class="ex">resid_dropout</span><span class="kw">)</span><span class="bu">:</span> Dropout<span class="er">(</span><span class="va">p</span><span class="op">=</span>0.0, <span class="va">inplace</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-123"><a></a>        <span class="kw">)</span></span>
<span id="cb8-124"><a></a>        <span class="kw">(</span><span class="ex">ln_2</span><span class="kw">)</span><span class="bu">:</span> LayerNorm<span class="er">(</span><span class="kw">)</span></span>
<span id="cb8-125"><a></a>        <span class="kw">(</span><span class="ex">mlp</span><span class="kw">)</span><span class="bu">:</span> MLP<span class="er">(</span></span>
<span id="cb8-126"><a></a>          <span class="kw">(</span><span class="ex">c_fc</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>768, <span class="va">out_features</span><span class="op">=</span>3072, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-127"><a></a>          <span class="kw">(</span><span class="ex">act_fn</span><span class="kw">)</span><span class="bu">:</span> GELU<span class="er">(</span><span class="va">approximate</span><span class="op">=</span><span class="st">'none'</span><span class="kw">)</span></span>
<span id="cb8-128"><a></a>          <span class="kw">(</span><span class="ex">c_proj</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>3072, <span class="va">out_features</span><span class="op">=</span>768, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-129"><a></a>          <span class="kw">(</span><span class="ex">dropout</span><span class="kw">)</span><span class="bu">:</span> Dropout<span class="er">(</span><span class="va">p</span><span class="op">=</span>0.0, <span class="va">inplace</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-130"><a></a>        <span class="kw">)</span></span>
<span id="cb8-131"><a></a>      <span class="kw">)</span></span>
<span id="cb8-132"><a></a>    <span class="kw">)</span></span>
<span id="cb8-133"><a></a>    <span class="kw">(</span><span class="ex">ln_f</span><span class="kw">)</span><span class="bu">:</span> LayerNorm<span class="er">(</span><span class="kw">)</span></span>
<span id="cb8-134"><a></a>  <span class="kw">)</span></span>
<span id="cb8-135"><a></a>  <span class="kw">(</span><span class="ex">lm_head</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>768, <span class="va">out_features</span><span class="op">=</span>65, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-136"><a></a><span class="kw">)</span></span>
<span id="cb8-137"><a></a><span class="ex">[2024-07-17</span> 07:42:19.955340]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:357</span><span class="pp">]</span> <span class="at">-</span> • self.grad_scaler=<span class="op">&lt;</span>torch.cuda.amp.grad_scaler.GradScaler object at 0x145a38f0f090<span class="op">&gt;</span></span>
<span id="cb8-138"><a></a><span class="ex">[2024-07-17</span> 07:42:19.956897]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:358</span><span class="pp">]</span> <span class="at">-</span> • self.model_engine=DistributedDataParallel<span class="er">(</span></span>
<span id="cb8-139"><a></a>  <span class="kw">(</span><span class="ex">module</span><span class="kw">)</span><span class="bu">:</span> GPT<span class="er">(</span></span>
<span id="cb8-140"><a></a>    <span class="kw">(</span><span class="ex">transformer</span><span class="kw">)</span><span class="bu">:</span> ModuleDict<span class="er">(</span></span>
<span id="cb8-141"><a></a>      <span class="kw">(</span><span class="ex">wte</span><span class="kw">)</span><span class="bu">:</span> Embedding<span class="er">(</span><span class="ex">65,</span> 768<span class="kw">)</span></span>
<span id="cb8-142"><a></a>      <span class="kw">(</span><span class="ex">wpe</span><span class="kw">)</span><span class="bu">:</span> Embedding<span class="er">(</span><span class="ex">1024,</span> 768<span class="kw">)</span></span>
<span id="cb8-143"><a></a>      <span class="kw">(</span><span class="ex">drop</span><span class="kw">)</span><span class="bu">:</span> Dropout<span class="er">(</span><span class="va">p</span><span class="op">=</span>0.0, <span class="va">inplace</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-144"><a></a>      <span class="kw">(</span><span class="ex">h</span><span class="kw">)</span><span class="bu">:</span> ModuleList<span class="er">(</span></span>
<span id="cb8-145"><a></a>        <span class="kw">(</span><span class="ex">0-11</span><span class="kw">)</span><span class="bu">:</span> 12 x Block<span class="er">(</span></span>
<span id="cb8-146"><a></a>          <span class="kw">(</span><span class="ex">ln_1</span><span class="kw">)</span><span class="bu">:</span> LayerNorm<span class="er">(</span><span class="kw">)</span></span>
<span id="cb8-147"><a></a>          <span class="kw">(</span><span class="ex">attn</span><span class="kw">)</span><span class="bu">:</span> CausalSelfAttention<span class="er">(</span></span>
<span id="cb8-148"><a></a>            <span class="kw">(</span><span class="ex">c_attn</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>768, <span class="va">out_features</span><span class="op">=</span>2304, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-149"><a></a>            <span class="kw">(</span><span class="ex">c_proj</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>768, <span class="va">out_features</span><span class="op">=</span>768, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-150"><a></a>            <span class="kw">(</span><span class="ex">attn_dropout</span><span class="kw">)</span><span class="bu">:</span> Dropout<span class="er">(</span><span class="va">p</span><span class="op">=</span>0.0, <span class="va">inplace</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-151"><a></a>            <span class="kw">(</span><span class="ex">resid_dropout</span><span class="kw">)</span><span class="bu">:</span> Dropout<span class="er">(</span><span class="va">p</span><span class="op">=</span>0.0, <span class="va">inplace</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-152"><a></a>          <span class="kw">)</span></span>
<span id="cb8-153"><a></a>          <span class="kw">(</span><span class="ex">ln_2</span><span class="kw">)</span><span class="bu">:</span> LayerNorm<span class="er">(</span><span class="kw">)</span></span>
<span id="cb8-154"><a></a>          <span class="kw">(</span><span class="ex">mlp</span><span class="kw">)</span><span class="bu">:</span> MLP<span class="er">(</span></span>
<span id="cb8-155"><a></a>            <span class="kw">(</span><span class="ex">c_fc</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>768, <span class="va">out_features</span><span class="op">=</span>3072, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-156"><a></a>            <span class="kw">(</span><span class="ex">act_fn</span><span class="kw">)</span><span class="bu">:</span> GELU<span class="er">(</span><span class="va">approximate</span><span class="op">=</span><span class="st">'none'</span><span class="kw">)</span></span>
<span id="cb8-157"><a></a>            <span class="kw">(</span><span class="ex">c_proj</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>3072, <span class="va">out_features</span><span class="op">=</span>768, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-158"><a></a>            <span class="kw">(</span><span class="ex">dropout</span><span class="kw">)</span><span class="bu">:</span> Dropout<span class="er">(</span><span class="va">p</span><span class="op">=</span>0.0, <span class="va">inplace</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-159"><a></a>          <span class="kw">)</span></span>
<span id="cb8-160"><a></a>        <span class="kw">)</span></span>
<span id="cb8-161"><a></a>      <span class="kw">)</span></span>
<span id="cb8-162"><a></a>      <span class="kw">(</span><span class="ex">ln_f</span><span class="kw">)</span><span class="bu">:</span> LayerNorm<span class="er">(</span><span class="kw">)</span></span>
<span id="cb8-163"><a></a>    <span class="kw">)</span></span>
<span id="cb8-164"><a></a>    <span class="kw">(</span><span class="ex">lm_head</span><span class="kw">)</span><span class="bu">:</span> Linear<span class="er">(</span><span class="va">in_features</span><span class="op">=</span>768, <span class="va">out_features</span><span class="op">=</span>65, <span class="va">bias</span><span class="op">=</span>False<span class="kw">)</span></span>
<span id="cb8-165"><a></a>  <span class="kw">)</span></span>
<span id="cb8-166"><a></a><span class="kw">)</span></span>
<span id="cb8-167"><a></a><span class="ex">[2024-07-17</span> 07:42:19.961066]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:359</span><span class="pp">]</span> <span class="at">-</span> • self.optimizer=AdamW <span class="er">(</span></span>
<span id="cb8-168"><a></a><span class="ex">Parameter</span> Group 0</span>
<span id="cb8-169"><a></a>    <span class="ex">amsgrad:</span> False</span>
<span id="cb8-170"><a></a>    <span class="ex">betas:</span> <span class="er">(</span><span class="ex">0.9,</span> 0.95<span class="kw">)</span></span>
<span id="cb8-171"><a></a>    <span class="ex">capturable:</span> False</span>
<span id="cb8-172"><a></a>    <span class="ex">differentiable:</span> False</span>
<span id="cb8-173"><a></a>    <span class="ex">eps:</span> 1e-08</span>
<span id="cb8-174"><a></a>    <span class="ex">foreach:</span> None</span>
<span id="cb8-175"><a></a>    <span class="ex">fused:</span> True</span>
<span id="cb8-176"><a></a>    <span class="ex">lr:</span> 0.0006</span>
<span id="cb8-177"><a></a>    <span class="ex">maximize:</span> False</span>
<span id="cb8-178"><a></a>    <span class="ex">weight_decay:</span> 0.1</span>
<span id="cb8-179"><a></a></span>
<span id="cb8-180"><a></a><span class="ex">Parameter</span> Group 1</span>
<span id="cb8-181"><a></a>    <span class="ex">amsgrad:</span> False</span>
<span id="cb8-182"><a></a>    <span class="ex">betas:</span> <span class="er">(</span><span class="ex">0.9,</span> 0.95<span class="kw">)</span></span>
<span id="cb8-183"><a></a>    <span class="ex">capturable:</span> False</span>
<span id="cb8-184"><a></a>    <span class="ex">differentiable:</span> False</span>
<span id="cb8-185"><a></a>    <span class="ex">eps:</span> 1e-08</span>
<span id="cb8-186"><a></a>    <span class="ex">foreach:</span> None</span>
<span id="cb8-187"><a></a>    <span class="ex">fused:</span> True</span>
<span id="cb8-188"><a></a>    <span class="ex">lr:</span> 0.0006</span>
<span id="cb8-189"><a></a>    <span class="ex">maximize:</span> False</span>
<span id="cb8-190"><a></a>    <span class="ex">weight_decay:</span> 0.0</span>
<span id="cb8-191"><a></a><span class="kw">)</span></span>
<span id="cb8-192"><a></a><span class="ex">[2024-07-17</span> 07:42:19.988827]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:802</span><span class="pp">]</span> <span class="at">-</span> Startup time: 6.7125</span>
<span id="cb8-193"><a></a>                <span class="ex">Training</span> Legend</span>
<span id="cb8-194"><a></a><span class="ex">┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓</span></span>
<span id="cb8-195"><a></a><span class="ex">┃</span>    abbr     ┃ desc                           ┃</span>
<span id="cb8-196"><a></a><span class="ex">┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┩</span></span>
<span id="cb8-197"><a></a><span class="ex">│</span>    step     │ Current training iteration     │</span>
<span id="cb8-198"><a></a><span class="ex">│</span>    loss     │ Loss value                     │</span>
<span id="cb8-199"><a></a><span class="ex">│</span>     dt      │ Elapsed time per training step │</span>
<span id="cb8-200"><a></a><span class="ex">│</span>     dtf     │ Elapsed time per forward step  │</span>
<span id="cb8-201"><a></a><span class="ex">│</span>     dtb     │ Elapsed time per backward step │</span>
<span id="cb8-202"><a></a><span class="ex">│</span>     sps     │ Samples per second             │</span>
<span id="cb8-203"><a></a><span class="ex">│</span> sps_per_gpu │ Samples per second <span class="er">(</span><span class="ex">per</span> GPU<span class="kw">)</span>   <span class="ex">│</span></span>
<span id="cb8-204"><a></a><span class="ex">│</span>     tps     │ Tokens per second              │</span>
<span id="cb8-205"><a></a><span class="ex">│</span> tps_per_gpu │ Tokens per second <span class="er">(</span><span class="ex">per</span> GPU<span class="kw">)</span>    <span class="ex">│</span></span>
<span id="cb8-206"><a></a><span class="ex">│</span>     mfu     │ Model flops utilization        │</span>
<span id="cb8-207"><a></a><span class="ex">│</span> train_loss  │ Training loss value            │</span>
<span id="cb8-208"><a></a><span class="ex">│</span>  val_loss   │ Validation loss value          │</span>
<span id="cb8-209"><a></a><span class="ex">└─────────────┴────────────────────────────────┘</span></span>
<span id="cb8-210"><a></a><span class="ex">[2024-07-17</span> 07:42:21.451865]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:820</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="st">'prompt'</span><span class="pp">]</span>: <span class="st">'What is an LLM?'</span></span>
<span id="cb8-211"><a></a><span class="ex">[2024-07-17</span> 07:42:21.452667]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:824</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="st">'response'</span><span class="pp">]</span>:</span>
<span id="cb8-212"><a></a><span class="ex">What</span> is an LLM<span class="pp">?</span>eelEl\'<span class="va">$nltPwBSWal</span>,<span class="kw">;</span><span class="ex">PWw</span> bbu<span class="dt">\'</span>HiyP<span class="dt">\'</span>FWwF <span class="kw">&amp;</span><span class="ex">AhW:ygrn</span> kk-<span class="dt">\'\'</span>KFlMwnlEfflkc,elpWaWtgml<span class="va">$Pgglhllw</span> lglhFllzczPAFHpeAAPPSltgkrWPPhlEMgcrN ggPWt-WPSSzHSkkrzzk.FFrtSSkgMll<span class="kw">&amp;</span><span class="ex">gFXr,hghaueaVPW-pHFF-gg,,,FF,,kbApgg</span> gg<span class="dt">\'</span>aWWzzkk<span class="dt">\'</span>a<span class="dt">\'</span>CggHl<span class="va">$bGeA</span>,FFk,,SF<span class="kw">;</span><span class="ex">UF,,aZ</span> <span class="kw">;</span><span class="ex">gglee$,k.US</span><span class="kw">&amp;</span><span class="ex">kg:S,,zVzzc</span></span>
<span id="cb8-213"><a></a><span class="ex">[2024-07-17</span> 07:43:01.573073]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=10 loss=3.154310 dt=0.282833 dtf=0.005247 dtb=0.011417 sps=14.142633 sps_per_gpu=3.535658 tps=926851.609409 tps_per_gpu=231712.902352 mfu=46.288281 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-214"><a></a><span class="ex">[2024-07-17</span> 07:43:04.402750]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=20 loss=2.660851 dt=0.306263 dtf=0.005233 dtb=0.011419 sps=13.060678 sps_per_gpu=3.265170 tps=855944.613638 tps_per_gpu=213986.153409 mfu=45.934162 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-215"><a></a><span class="ex">[2024-07-17</span> 07:43:07.237507]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=30 loss=2.543283 dt=0.283021 dtf=0.005238 dtb=0.011245 sps=14.133211 sps_per_gpu=3.533303 tps=926234.088226 tps_per_gpu=231558.522057 mfu=45.966490 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-216"><a></a><span class="ex">[2024-07-17</span> 07:43:10.077248]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=40 loss=2.503963 dt=0.285001 dtf=0.005213 dtb=0.011471 sps=14.035061 sps_per_gpu=3.508765 tps=919801.749941 tps_per_gpu=229950.437485 mfu=45.963461 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-217"><a></a><span class="ex">[2024-07-17</span> 07:43:12.917039]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=50 loss=2.477469 dt=0.283532 dtf=0.005166 dtb=0.011294 sps=14.107763 sps_per_gpu=3.526941 tps=924566.380009 tps_per_gpu=231141.595002 mfu=45.984530 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-218"><a></a><span class="ex">[2024-07-17</span> 07:43:15.760749]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=60 loss=2.471083 dt=0.284630 dtf=0.005140 dtb=0.011224 sps=14.053326 sps_per_gpu=3.513332 tps=920998.786204 tps_per_gpu=230249.696551 mfu=45.985675 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-219"><a></a><span class="ex">[2024-07-17</span> 07:43:18.602785]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=70 loss=2.458894 dt=0.283926 dtf=0.005219 dtb=0.010383 sps=14.088155 sps_per_gpu=3.522039 tps=923281.352698 tps_per_gpu=230820.338174 mfu=45.998106 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-220"><a></a><span class="ex">[2024-07-17</span> 07:43:21.451433]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=80 loss=2.489088 dt=0.285537 dtf=0.005183 dtb=0.011373 sps=14.008683 sps_per_gpu=3.502171 tps=918073.060430 tps_per_gpu=229518.265108 mfu=45.983282 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-221"><a></a><span class="ex">[2024-07-17</span> 07:43:24.302241]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=90 loss=2.471990 dt=0.300767 dtf=0.005445 dtb=0.010290 sps=13.299337 sps_per_gpu=3.324834 tps=871585.359388 tps_per_gpu=217896.339847 mfu=45.737774 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-222"><a></a><span class="ex">[2024-07-17</span> 07:43:27.153275]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=100 loss=2.445556 dt=0.285869 dtf=0.005182 dtb=0.011251 sps=13.992403 sps_per_gpu=3.498101 tps=917006.151328 tps_per_gpu=229251.537832 mfu=45.743655 train_loss=4.125778 val_loss=4.128809</span>
<span id="cb8-223"><a></a><span class="ex">[2024-07-17</span> 07:43:28.182553]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:820</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="st">'prompt'</span><span class="pp">]</span>: <span class="st">'What is an LLM?'</span></span>
<span id="cb8-224"><a></a><span class="ex">[2024-07-17</span> 07:43:28.183179]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:824</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="st">'response'</span><span class="pp">]</span>:</span>
<span id="cb8-225"><a></a></span>
<span id="cb8-226"><a></a><span class="ex">What</span> is an LLM<span class="pp">?</span></span>
<span id="cb8-227"><a></a></span>
<span id="cb8-228"><a></a><span class="ex">Goupay</span> my winghimithell bls ger t bon sinthard ht omind be,</span>
<span id="cb8-229"><a></a><span class="ex">And</span> lereind h py balithand frd oforondof wimon me hageas thinero mand,</span>
<span id="cb8-230"><a></a><span class="ex">Thacanes,</span></span>
<span id="cb8-231"><a></a><span class="ex">An</span> frift ghik med d herthecke ntore thack couthen ale, t thit ang d m t h chy me fache ag, wit my hathan glat ng</span>
<span id="cb8-232"><a></a><span class="ex">[2024-07-17</span> 07:44:06.025837]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:760</span><span class="pp">]</span> <span class="at">-</span> Saving checkpoint to: /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13</span>
<span id="cb8-233"><a></a><span class="ex">[2024-07-17</span> 07:44:06.026607]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:761</span><span class="pp">]</span> <span class="at">-</span> Saving model to: /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13/model.pth</span>
<span id="cb8-234"><a></a><span class="ex">[2024-07-17</span> 07:44:07.682968]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">configs:141</span><span class="pp">]</span> <span class="at">-</span> Appending /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13 to /home/foremans/tmp/polaris-talk/2024-07-17-073327/wordplay/src/ckpts/checkpoints.log</span>
<span id="cb8-235"><a></a><span class="ex">[2024-07-17</span> 07:44:10.519506]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=110 loss=2.433923 dt=0.285038 dtf=0.005757 dtb=0.011762 sps=14.033209 sps_per_gpu=3.508302 tps=919680.367894 tps_per_gpu=229920.091974 mfu=45.762304 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-236"><a></a><span class="ex">[2024-07-17</span> 07:44:13.362148]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=120 loss=2.429014 dt=0.284445 dtf=0.005222 dtb=0.011486 sps=14.062460 sps_per_gpu=3.515615 tps=921597.361532 tps_per_gpu=230399.340383 mfu=45.788661 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-237"><a></a><span class="ex">[2024-07-17</span> 07:44:16.210694]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=130 loss=2.402059 dt=0.285559 dtf=0.005199 dtb=0.011765 sps=14.007633 sps_per_gpu=3.501908 tps=918004.211586 tps_per_gpu=229501.052897 mfu=45.794438 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-238"><a></a><span class="ex">[2024-07-17</span> 07:44:19.061546]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=140 loss=2.374062 dt=0.285476 dtf=0.005239 dtb=0.011453 sps=14.011662 sps_per_gpu=3.502916 tps=918268.297093 tps_per_gpu=229567.074273 mfu=45.800956 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-239"><a></a><span class="ex">[2024-07-17</span> 07:44:21.917283]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=150 loss=2.365385 dt=0.285846 dtf=0.005125 dtb=0.011320 sps=13.993568 sps_per_gpu=3.498392 tps=917082.475791 tps_per_gpu=229270.618948 mfu=45.800900 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-240"><a></a><span class="ex">[2024-07-17</span> 07:44:24.771924]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=160 loss=2.317337 dt=0.280788 dtf=0.005173 dtb=0.011249 sps=14.245602 sps_per_gpu=3.561401 tps=933599.792506 tps_per_gpu=233399.948127 mfu=45.883340 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-241"><a></a><span class="ex">[2024-07-17</span> 07:44:27.626812]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=170 loss=2.256231 dt=0.284973 dtf=0.005141 dtb=0.011299 sps=14.036416 sps_per_gpu=3.509104 tps=919890.544506 tps_per_gpu=229972.636126 mfu=45.889069 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-242"><a></a><span class="ex">[2024-07-17</span> 07:44:30.480952]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=180 loss=2.216419 dt=0.286555 dtf=0.005180 dtb=0.011402 sps=13.958906 sps_per_gpu=3.489726 tps=914810.852170 tps_per_gpu=228702.713043 mfu=45.868857 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-243"><a></a><span class="ex">[2024-07-17</span> 07:44:33.337342]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=190 loss=2.145123 dt=0.291456 dtf=0.005409 dtb=0.019347 sps=13.724205 sps_per_gpu=3.431051 tps=899429.467247 tps_per_gpu=224857.366812 mfu=45.773849 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-244"><a></a><span class="ex">[2024-07-17</span> 07:44:36.194584]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=200 loss=2.068149 dt=0.285703 dtf=0.005153 dtb=0.011286 sps=14.000555 sps_per_gpu=3.500139 tps=917540.393411 tps_per_gpu=229385.098353 mfu=45.778791 train_loss=2.439494 val_loss=2.478951</span>
<span id="cb8-245"><a></a><span class="ex">[2024-07-17</span> 07:44:37.224149]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:820</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="st">'prompt'</span><span class="pp">]</span>: <span class="st">'What is an LLM?'</span></span>
<span id="cb8-246"><a></a><span class="ex">[2024-07-17</span> 07:44:37.224745]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:824</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="st">'response'</span><span class="pp">]</span>:</span>
<span id="cb8-247"><a></a></span>
<span id="cb8-248"><a></a><span class="ex">What</span> is an LLM<span class="pp">?</span></span>
<span id="cb8-249"><a></a></span>
<span id="cb8-250"><a></a><span class="ex">LORTESS</span> LA:</span>
<span id="cb8-251"><a></a><span class="ex">No,</span> sighappat selace<span class="pp">?</span> don downd sourciceans note cancen up sof liond</span>
<span id="cb8-252"><a></a><span class="ex">This</span> and my man, werame, of re thee</span>
<span id="cb8-253"><a></a><span class="ex">Thise</span> not will I on land brond sul me a fingore<span class="pp">?</span></span>
<span id="cb8-254"><a></a></span>
<span id="cb8-255"><a></a><span class="ex">FLER:</span></span>
<span id="cb8-256"><a></a><span class="ex">Tisint</span> your not nare lame o igen,-to brorst.</span>
<span id="cb8-257"><a></a></span>
<span id="cb8-258"><a></a><span class="ex">SamERS:</span></span>
<span id="cb8-259"><a></a><span class="ex">Sin:</span></span>
<span id="cb8-260"><a></a><span class="ex">I\'l</span> hell she lor hen w</span>
<span id="cb8-261"><a></a><span class="ex">[2024-07-17</span> 07:45:14.409129]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:760</span><span class="pp">]</span> <span class="at">-</span> Saving checkpoint to: /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13</span>
<span id="cb8-262"><a></a><span class="ex">[2024-07-17</span> 07:45:14.409820]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:761</span><span class="pp">]</span> <span class="at">-</span> Saving model to: /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13/model.pth</span>
<span id="cb8-263"><a></a><span class="ex">[2024-07-17</span> 07:45:16.366935]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">configs:141</span><span class="pp">]</span> <span class="at">-</span> Appending /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13 to /home/foremans/tmp/polaris-talk/2024-07-17-073327/wordplay/src/ckpts/checkpoints.log</span>
<span id="cb8-264"><a></a><span class="ex">[2024-07-17</span> 07:45:19.245061]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=210 loss=1.982169 dt=0.283305 dtf=0.005223 dtb=0.011284 sps=14.119042 sps_per_gpu=3.529760 tps=925305.515083 tps_per_gpu=231326.378771 mfu=45.822019 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-265"><a></a><span class="ex">[2024-07-17</span> 07:45:22.092430]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=220 loss=1.897731 dt=0.284759 dtf=0.005217 dtb=0.011187 sps=14.046945 sps_per_gpu=3.511736 tps=920580.608106 tps_per_gpu=230145.152026 mfu=45.837327 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-266"><a></a><span class="ex">[2024-07-17</span> 07:45:24.942639]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=230 loss=1.817213 dt=0.285266 dtf=0.005208 dtb=0.011446 sps=14.022003 sps_per_gpu=3.505501 tps=918945.985503 tps_per_gpu=229736.496376 mfu=45.842940 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-267"><a></a><span class="ex">[2024-07-17</span> 07:45:27.797910]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=240 loss=1.779287 dt=0.285465 dtf=0.005189 dtb=0.011220 sps=14.012250 sps_per_gpu=3.503062 tps=918306.793546 tps_per_gpu=229576.698387 mfu=45.844800 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-268"><a></a><span class="ex">[2024-07-17</span> 07:45:30.653597]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=250 loss=1.704220 dt=0.289284 dtf=0.005471 dtb=0.010346 sps=13.827253 sps_per_gpu=3.456813 tps=906182.836379 tps_per_gpu=226545.709095 mfu=45.785926 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-269"><a></a><span class="ex">[2024-07-17</span> 07:45:33.512769]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=260 loss=1.671318 dt=0.287679 dtf=0.005125 dtb=0.011250 sps=13.904380 sps_per_gpu=3.476095 tps=911237.442617 tps_per_gpu=227809.360654 mfu=45.758182 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-270"><a></a><span class="ex">[2024-07-17</span> 07:45:36.373461]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=270 loss=1.650952 dt=0.298661 dtf=0.005118 dtb=0.011520 sps=13.393107 sps_per_gpu=3.348277 tps=877730.651421 tps_per_gpu=219432.662855 mfu=45.565875 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-271"><a></a><span class="ex">[2024-07-17</span> 07:45:39.236930]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=280 loss=1.573242 dt=0.285970 dtf=0.005171 dtb=0.011290 sps=13.987477 sps_per_gpu=3.496869 tps=916683.279847 tps_per_gpu=229170.819962 mfu=45.587333 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-272"><a></a><span class="ex">[2024-07-17</span> 07:45:42.100605]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=290 loss=1.533265 dt=0.286487 dtf=0.005432 dtb=0.011288 sps=13.962259 sps_per_gpu=3.490565 tps=915030.617828 tps_per_gpu=228757.654457 mfu=45.598392 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-273"><a></a><span class="ex">[2024-07-17</span> 07:45:44.964424]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:885</span><span class="pp">]</span> <span class="at">-</span> step=300 loss=1.492064 dt=0.288480 dtf=0.005355 dtb=0.011480 sps=13.865774 sps_per_gpu=3.466443 tps=908707.340870 tps_per_gpu=227176.835218 mfu=45.576766 train_loss=2.045786 val_loss=2.148510</span>
<span id="cb8-274"><a></a><span class="ex">[2024-07-17</span> 07:45:45.995833]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:820</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="st">'prompt'</span><span class="pp">]</span>: <span class="st">'What is an LLM?'</span></span>
<span id="cb8-275"><a></a><span class="ex">[2024-07-17</span> 07:45:45.996497]<span class="pp">[</span><span class="ss">INFO</span><span class="pp">][</span><span class="ss">trainer:824</span><span class="pp">]</span> <span class="at">-</span> <span class="pp">[</span><span class="st">'response'</span><span class="pp">]</span>:</span>
<span id="cb8-276"><a></a></span>
<span id="cb8-277"><a></a><span class="ex">What</span> is an LLM<span class="pp">?</span></span>
<span id="cb8-278"><a></a></span>
<span id="cb8-279"><a></a><span class="ex">RICHMORD:</span></span>
<span id="cb8-280"><a></a><span class="ex">Char</span> stire<span class="pp">?</span> how in those are name the range hone.</span>
<span id="cb8-281"><a></a></span>
<span id="cb8-282"><a></a><span class="ex">GLOUCESTER:</span></span>
<span id="cb8-283"><a></a><span class="ex">Nay,</span> in lond<span class="st">'s time the palt are worder more</span></span>
<span id="cb8-284"><a></a><span class="st">That wilt in the purpose be a pey</span></span>
<span id="cb8-285"><a></a><span class="st">And thou thine onter hands, and the which broth.</span></span>
<span id="cb8-286"><a></a></span>
<span id="cb8-287"><a></a><span class="st">ELBOWINCA:</span></span>
<span id="cb8-288"><a></a><span class="st">At lie my lord with the me an arms be a s</span></span>
<span id="cb8-289"><a></a><span class="st">[2024-07-17 07:46:23.549987][INFO][trainer:760] - Saving checkpoint to: /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13</span></span>
<span id="cb8-290"><a></a><span class="st">[2024-07-17 07:46:23.550696][INFO][trainer:761] - Saving model to: /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13/model.pth</span></span>
<span id="cb8-291"><a></a><span class="st">[2024-07-17 07:46:25.496559][INFO][configs:141] - Appending /home/foremans/tmp/polaris-talk/outputs/runs/pytorch/DDP/2024-07-17/07-42-13 to /home/foremans/tmp/polaris-talk/2024-07-17-073327/wordplay/src/ckpts/checkpoints.log</span></span>
<span id="cb8-292"><a></a><span class="st">[2024-07-17 07:46:28.374854][INFO][trainer:885] - step=310 loss=1.444200 dt=0.299907 dtf=0.005333 dtb=0.010637 sps=13.337481 sps_per_gpu=3.334370 tps=874085.133345 tps_per_gpu=218521.283336 mfu=45.384395 train_loss=1.495372 val_loss=1.713714</span></span>
<span id="cb8-293"><a></a><span class="st">[2024-07-17 07:46:31.223079][INFO][trainer:885] - step=320 loss=1.429350 dt=0.285238 dtf=0.005245 dtb=0.011485 sps=14.023353 sps_per_gpu=3.505838 tps=919034.479880 tps_per_gpu=229758.619970 mfu=45.435743 train_loss=1.495372 val_loss=1.713714</span></span>
<span id="cb8-294"><a></a><span class="st">[2024-07-17 07:46:34.074957][INFO][trainer:885] - step=330 loss=1.362220 dt=0.285027 dtf=0.005165 dtb=0.011407 sps=14.033736 sps_per_gpu=3.508434 tps=919714.904826 tps_per_gpu=229928.726207 mfu=45.485355 train_loss=1.495372 val_loss=1.713714</span></span>
<span id="cb8-295"><a></a><span class="st">[2024-07-17 07:46:36.929464][INFO][trainer:885] - step=340 loss=1.350888 dt=0.284436 dtf=0.005199 dtb=0.011287 sps=14.062893 sps_per_gpu=3.515723 tps=921625.744709 tps_per_gpu=230406.436177 mfu=45.539549 train_loss=1.495372 val_loss=1.713714</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
</div>
</section>
<section id="wordplay" class="slide level2 center scrollable" data-backgound-color="white">
<h2><a href="https://github.com/saforem2/wordplay"><code>wordplay</code> 🎮💬</a></h2>
<ul>
<li>Link<sup>1</sup> to <a href="https://asciinema.org/a/668462">video</a></li>
</ul>
<script src="https://asciinema.org/a/668462.js" id="asciicast-668462" async="true" style="max-height: 600px!important;"></script>
<p>Example: Training a LLM to talk like Shakespeare using <a href="https://github.com/saforem2/wordplay"><code>saforem2/wordplay</code> 🎮💬</a></p>
<aside><ol class="aside-footnotes"><li id="fn9"><p>idk why it doesn’t render correctly in the slide (seems like refreshing helps?)</p></li></ol></aside></section></section>
<section id="thank-you" class="title-slide slide level1 center" data-background-color="white">
<h1>Thank you!</h1>
<ul>
<li><p>Organizers</p></li>
<li><p>ALCF Data Science &amp; Operations</p></li>
<li><p>Feel free to reach out! <split even=""></split></p>
<p><a href="https://samforeman.me"><i class="fas fa-home"></i></a> <a href="mailto:///foremans@anl.gov"><i class="far fa-paper-plane"></i></a> <a href="https://www.twitter.com/saforem2"><i class="fab fa-twitter"></i></a> </p></li>
</ul>
<div title="🙏 Acknowledgements">
<div class="callout callout-note no-icon callout-titled callout-style-default">
<div class="callout-body">
<div class="callout-title">
<p><strong>🙏 Acknowledgements</strong></p>
</div>
<div class="callout-content">
<p>This research used resources of the Argonne Leadership Computing Facility, which is a DOE Office of Science User Facility supported under Contract DE-AC02-06CH11357.</p>
</div>
</div>
</div>
</div>
</section>

<section>
<section id="extras" class="title-slide slide level1 center" data-background-color="white">
<h1>🎁 Extras</h1>

</section>
<section id="deepspeed-zero-offloading" class="slide level2 center" data-background-color="white">
<h2><iconify-icon role="img" inline="" icon="logos:microsoft-icon" aria-label="Icon microsoft-icon from logos Iconify.design set." title="Icon microsoft-icon from logos Iconify.design set."></iconify-icon> DeepSpeed <code>ZeRO</code> Offloading</h2>
<div id="fig-zero-stages" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-zero-stages-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<div class="quarto-figure quarto-figure-center">
<figure>
<p><a href="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/parallelism-zero.png" class="lightbox" data-gallery="quarto-lightbox-gallery-29" title="ZeRO Offloading Stages"><img data-src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/parallelism-zero.png"></a></p>
<figcaption>ZeRO Offloading Stages</figcaption>
</figure>
</div>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig quarto-uncaptioned" id="fig-zero-stages-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;25
</figcaption>
</figure>
</div>
</section>
<section id="deepspeed-zero-offloading-1" class="slide level2 center" data-background-color="white">
<h2><iconify-icon role="img" inline="" icon="logos:microsoft-icon" aria-label="Icon microsoft-icon from logos Iconify.design set." title="Icon microsoft-icon from logos Iconify.design set."></iconify-icon> DeepSpeed <code>ZeRO</code> Offloading</h2>
<div id="fig-ds-video" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-float-fig">
<div aria-describedby="fig-ds-video-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<div id="fig-zero-offload" class="quarto-float quarto-figure quarto-figure-center">
<figure class="quarto-float quarto-subfloat-fig">
<div aria-describedby="fig-zero-offload-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<a href="https://www.microsoft.com/en-us/research/uploads/prod/2020/02/MSResearch_20200207_DeepZeroBlogGraphic_r2t3_1400x788-3.gif" class="lightbox" data-gallery="fig-ds-video" title="Figure&nbsp;26&nbsp;(a): DeepSpeed + ZeRO"><img data-src="https://www.microsoft.com/en-us/research/uploads/prod/2020/02/MSResearch_20200207_DeepZeroBlogGraphic_r2t3_1400x788-3.gif" data-ref-parent="fig-ds-video"></a>
</div>
<figcaption class="quarto-float-caption-bottom quarto-subfloat-caption quarto-subfloat-fig" id="fig-zero-offload-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
(a) <a href="deepspeed.ai">DeepSpeed</a> + <code>ZeRO</code>
</figcaption>
</figure>
</div>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig quarto-uncaptioned" id="fig-ds-video-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;26
</figcaption>
</figure>
</div>
</section>
<section id="hands-on" class="slide level2 center" data-background-color="white">
<h2>Hands-On</h2>
<ul>
<li><p><a href="https://github.com/argonne-lcf/ai-science-training-series/blob/main/06_parallel_training/README.md">Instructions</a></p>
<ul>
<li><i class="fa-brands fa-github" aria-label="github"></i> <a href="https://saforem2.github.io/wordplay/"><code>saforem2/wordplay</code> 🎮💬</a> [<a href="https://saforem2.github.io/wordplay/">web</a>]</li>
</ul></li>
</ul>
</section></section>
<section>
<section id="references" class="title-slide slide level1 center" data-background-color="white">
<h1>References</h1>
<ul>
<li>🔗 See also:
<ul>
<li><a href="https://pytorch.org/tutorials/beginner/dist_overview.html">PyTorch Distributed Overview</a></li>
<li><a href="https://pytorch.org/docs/master/notes/ddp.html">Distributed Data Parallel — PyTorch master documentation</a></li>
<li><a href="https://huggingface.co/docs/transformers/en/perf_train_gpu_many">🤗 Efficient Training on Multiple GPUs</a></li>
<li><a href="https://www.deepspeed.ai/getting-started/">Getting Started - DeepSpeed</a></li>
</ul></li>
<li>See my slides on:
<ul>
<li><a href="https://saforem2.github.io/parallel-training-slides">Parallel Training Techniques</a> for additional details</li>
<li><a href="https://github.com/Hannibal046/Awesome-LLM"><i class="fa-brands fa-github" aria-label="github"></i> <code>saforem2/llm-lunch-talk</code></a> <a href="https://saforem2.github.io/llm-lunch-talk">(slides)</a></li>
</ul></li>
</ul>
</section>
<section id="bibliography" class="slide level2 smaller scrollable" data-background-color="white">
<h2>Bibliography</h2>
<div id="refs" class="references csl-bib-body hanging-indent" data-entry-spacing="0" role="list">
<div id="ref-wei2022emergentabilitieslargelanguage" class="csl-entry" role="listitem">
Wei, Jason, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, et al. 2022. <span>“Emergent Abilities of Large Language Models.”</span> <a href="https://arxiv.org/abs/2206.07682">https://arxiv.org/abs/2206.07682</a>.
</div>
<div id="ref-yang2023harnessing" class="csl-entry" role="listitem">
Yang, Jingfeng, Hongye Jin, Ruixiang Tang, Xiaotian Han, Qizhang Feng, Haoming Jiang, Bing Yin, and Xia Hu. 2023. <span>“Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond.”</span> <a href="https://arxiv.org/abs/2304.13712">https://arxiv.org/abs/2304.13712</a>.
</div>
<div id="ref-yao2023tree" class="csl-entry" role="listitem">
Yao, Shunyu, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, and Karthik Narasimhan. 2023. <span>“Tree of Thoughts: Deliberate Problem Solving with Large Language Models.”</span> <a href="https://arxiv.org/abs/2305.10601">https://arxiv.org/abs/2305.10601</a>.
</div>
</div>


</section></section>

    </div>
  <div class="quarto-auto-generated-content" style="display: none;">
<p><img src="../../assets/anl.svg" class="slide-logo"></p>
<div class="footer footer-default">

</div>
</div></div>

  <script>window.backupDefine = window.define; window.define = undefined;</script>
  <script src="../../site_libs/revealjs/dist/reveal.js"></script>
  <!-- reveal.js plugins -->
  <script src="../../site_libs/revealjs/plugin/quarto-line-highlight/line-highlight.js"></script>
  <script src="../../site_libs/revealjs/plugin/pdf-export/pdfexport.js"></script>
  <script src="../../site_libs/revealjs/plugin/reveal-menu/menu.js"></script>
  <script src="../../site_libs/revealjs/plugin/reveal-menu/quarto-menu.js"></script>
  <script src="../../site_libs/revealjs/plugin/reveal-chalkboard/plugin.js"></script>
  <script src="../../site_libs/revealjs/plugin/quarto-support/support.js"></script>
  

  <script src="../../site_libs/revealjs/plugin/notes/notes.js"></script>
  <script src="../../site_libs/revealjs/plugin/search/search.js"></script>
  <script src="../../site_libs/revealjs/plugin/zoom/zoom.js"></script>
  <script>window.define = window.backupDefine; window.backupDefine = undefined;</script>

  <script>

      // Full list of configuration options available at:
      // https://revealjs.com/config/
      Reveal.initialize({
'controlsAuto': false,
'previewLinksAuto': false,
'pdfSeparateFragments': false,
'autoAnimateEasing': "ease",
'autoAnimateDuration': 1,
'autoAnimateUnmatched': true,
'jumpToSlide': true,
'menu': {"side":"left","useTextContentForMissingTitles":true,"markers":false,"loadIcons":false,"custom":[{"title":"Tools","icon":"<i class=\"fas fa-gear\"></i>","content":"<ul class=\"slide-menu-items\">\n<li class=\"slide-tool-item active\" data-item=\"0\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.fullscreen(event)\"><kbd>f</kbd> Fullscreen</a></li>\n<li class=\"slide-tool-item\" data-item=\"1\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.speakerMode(event)\"><kbd>s</kbd> Speaker View</a></li>\n<li class=\"slide-tool-item\" data-item=\"2\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.overview(event)\"><kbd>o</kbd> Slide Overview</a></li>\n<li class=\"slide-tool-item\" data-item=\"3\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.togglePdfExport(event)\"><kbd>e</kbd> PDF Export Mode</a></li>\n<li class=\"slide-tool-item\" data-item=\"4\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.toggleScrollView(event)\"><kbd>r</kbd> Scroll View Mode</a></li>\n<li class=\"slide-tool-item\" data-item=\"5\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.toggleChalkboard(event)\"><kbd>b</kbd> Toggle Chalkboard</a></li>\n<li class=\"slide-tool-item\" data-item=\"6\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.toggleNotesCanvas(event)\"><kbd>c</kbd> Toggle Notes Canvas</a></li>\n<li class=\"slide-tool-item\" data-item=\"7\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.downloadDrawings(event)\"><kbd>d</kbd> Download Drawings</a></li>\n<li class=\"slide-tool-item\" data-item=\"8\"><a href=\"#\" onclick=\"RevealMenuToolHandlers.keyboardHelp(event)\"><kbd>?</kbd> Keyboard Help</a></li>\n</ul>"}],"openButton":true},
'chalkboard': {"buttons":false},
'smaller': false,
 
        // Display controls in the bottom right corner
        controls: false,

        // Help the user learn the controls by providing hints, for example by
        // bouncing the down arrow when they first encounter a vertical slide
        controlsTutorial: true,

        // Determines where controls appear, "edges" or "bottom-right"
        controlsLayout: 'edges',

        // Visibility rule for backwards navigation arrows; "faded", "hidden"
        // or "visible"
        controlsBackArrows: 'faded',

        // Display a presentation progress bar
        progress: true,

        // Display the page number of the current slide
        slideNumber: 'c',

        // 'all', 'print', or 'speaker'
        showSlideNumber: 'all',

        // Add the current slide number to the URL hash so that reloading the
        // page/copying the URL will return you to the same slide
        hash: true,

        // Start with 1 for the hash rather than 0
        hashOneBasedIndex: false,

        // Flags if we should monitor the hash and change slides accordingly
        respondToHashChanges: true,

        // Push each slide change to the browser history
        history: false,

        // Enable keyboard shortcuts for navigation
        keyboard: true,

        // Enable the slide overview mode
        overview: true,

        // Disables the default reveal.js slide layout (scaling and centering)
        // so that you can use custom CSS layout
        disableLayout: false,

        // Vertical centering of slides
        center: true,

        // Enables touch navigation on devices with touch input
        touch: true,

        // Loop the presentation
        loop: false,

        // Change the presentation direction to be RTL
        rtl: false,

        // see https://revealjs.com/vertical-slides/#navigation-mode
        navigationMode: 'linear',

        // Randomizes the order of slides each time the presentation loads
        shuffle: false,

        // Turns fragments on and off globally
        fragments: true,

        // Flags whether to include the current fragment in the URL,
        // so that reloading brings you to the same fragment position
        fragmentInURL: false,

        // Flags if the presentation is running in an embedded mode,
        // i.e. contained within a limited portion of the screen
        embedded: false,

        // Flags if we should show a help overlay when the questionmark
        // key is pressed
        help: true,

        // Flags if it should be possible to pause the presentation (blackout)
        pause: false,

        // Flags if speaker notes should be visible to all viewers
        showNotes: false,

        // Global override for autoplaying embedded media (null/true/false)
        autoPlayMedia: null,

        // Global override for preloading lazy-loaded iframes (null/true/false)
        preloadIframes: null,

        // Number of milliseconds between automatically proceeding to the
        // next slide, disabled when set to 0, this value can be overwritten
        // by using a data-autoslide attribute on your slides
        autoSlide: 0,

        // Stop auto-sliding after user input
        autoSlideStoppable: true,

        // Use this method for navigation when auto-sliding
        autoSlideMethod: null,

        // Specify the average time in seconds that you think you will spend
        // presenting each slide. This is used to show a pacing timer in the
        // speaker view
        defaultTiming: null,

        // Enable slide navigation via mouse wheel
        mouseWheel: false,

        // The display mode that will be used to show slides
        display: 'block',

        // Hide cursor if inactive
        hideInactiveCursor: true,

        // Time before the cursor is hidden (in ms)
        hideCursorTime: 5000,

        // Opens links in an iframe preview overlay
        previewLinks: true,

        // Transition style (none/fade/slide/convex/concave/zoom)
        transition: 'none',

        // Transition speed (default/fast/slow)
        transitionSpeed: 'default',

        // Transition style for full page slide backgrounds
        // (none/fade/slide/convex/concave/zoom)
        backgroundTransition: 'none',

        // Number of slides away from the current that are visible
        viewDistance: 3,

        // Number of slides away from the current that are visible on mobile
        // devices. It is advisable to set this to a lower number than
        // viewDistance in order to save resources.
        mobileViewDistance: 2,

        // The "normal" size of the presentation, aspect ratio will be preserved
        // when the presentation is scaled to fit different resolutions. Can be
        // specified using percentage units.
        width: 1050,

        height: 700,

        // Factor of the display size that should remain empty around the content
        margin: 0.1,

        // reveal.js plugins
        plugins: [QuartoLineHighlight, PdfExport, RevealMenu, RevealChalkboard, QuartoSupport,

          RevealNotes,
          RevealSearch,
          RevealZoom
        ]
      });
    </script>
    <script id="quarto-html-after-body" type="application/javascript">
    window.document.addEventListener("DOMContentLoaded", function (event) {
      const toggleBodyColorMode = (bsSheetEl) => {
        const mode = bsSheetEl.getAttribute("data-mode");
        const bodyEl = window.document.querySelector("body");
        if (mode === "dark") {
          bodyEl.classList.add("quarto-dark");
          bodyEl.classList.remove("quarto-light");
        } else {
          bodyEl.classList.add("quarto-light");
          bodyEl.classList.remove("quarto-dark");
        }
      }
      const toggleBodyColorPrimary = () => {
        const bsSheetEl = window.document.querySelector("link#quarto-bootstrap");
        if (bsSheetEl) {
          toggleBodyColorMode(bsSheetEl);
        }
      }
      toggleBodyColorPrimary();  
      const tabsets =  window.document.querySelectorAll(".panel-tabset-tabby")
      tabsets.forEach(function(tabset) {
        const tabby = new Tabby('#' + tabset.id);
      });
      const isCodeAnnotation = (el) => {
        for (const clz of el.classList) {
          if (clz.startsWith('code-annotation-')) {                     
            return true;
          }
        }
        return false;
      }
      const onCopySuccess = function(e) {
        // button target
        const button = e.trigger;
        // don't keep focus
        button.blur();
        // flash "checked"
        button.classList.add('code-copy-button-checked');
        var currentTitle = button.getAttribute("title");
        button.setAttribute("title", "Copied!");
        let tooltip;
        if (window.bootstrap) {
          button.setAttribute("data-bs-toggle", "tooltip");
          button.setAttribute("data-bs-placement", "left");
          button.setAttribute("data-bs-title", "Copied!");
          tooltip = new bootstrap.Tooltip(button, 
            { trigger: "manual", 
              customClass: "code-copy-button-tooltip",
              offset: [0, -8]});
          tooltip.show();    
        }
        setTimeout(function() {
          if (tooltip) {
            tooltip.hide();
            button.removeAttribute("data-bs-title");
            button.removeAttribute("data-bs-toggle");
            button.removeAttribute("data-bs-placement");
          }
          button.setAttribute("title", currentTitle);
          button.classList.remove('code-copy-button-checked');
        }, 1000);
        // clear code selection
        e.clearSelection();
      }
      const getTextToCopy = function(trigger) {
          const codeEl = trigger.previousElementSibling.cloneNode(true);
          for (const childEl of codeEl.children) {
            if (isCodeAnnotation(childEl)) {
              childEl.remove();
            }
          }
          return codeEl.innerText;
      }
      const clipboard = new window.ClipboardJS('.code-copy-button:not([data-in-quarto-modal])', {
        text: getTextToCopy
      });
      clipboard.on('success', onCopySuccess);
      if (window.document.getElementById('quarto-embedded-source-code-modal')) {
        const clipboardModal = new window.ClipboardJS('.code-copy-button[data-in-quarto-modal]', {
          text: getTextToCopy,
          container: window.document.getElementById('quarto-embedded-source-code-modal')
        });
        clipboardModal.on('success', onCopySuccess);
      }
        var localhostRegex = new RegExp(/^(?:http|https):\/\/localhost\:?[0-9]*\//);
        var mailtoRegex = new RegExp(/^mailto:/);
          var filterRegex = new RegExp("https:\/\/samforeman\.me");
        var isInternal = (href) => {
            return filterRegex.test(href) || localhostRegex.test(href) || mailtoRegex.test(href);
        }
        // Inspect non-navigation links and adorn them if external
     	var links = window.document.querySelectorAll('a[href]:not(.nav-link):not(.navbar-brand):not(.toc-action):not(.sidebar-link):not(.sidebar-item-toggle):not(.pagination-link):not(.no-external):not([aria-hidden]):not(.dropdown-item):not(.quarto-navigation-tool):not(.about-link)');
        for (var i=0; i<links.length; i++) {
          const link = links[i];
          if (!isInternal(link.href)) {
            // undo the damage that might have been done by quarto-nav.js in the case of
            // links that we want to consider external
            if (link.dataset.originalHref !== undefined) {
              link.href = link.dataset.originalHref;
            }
          }
        }
      function tippyHover(el, contentFn, onTriggerFn, onUntriggerFn) {
        const config = {
          allowHTML: true,
          maxWidth: 500,
          delay: 100,
          arrow: false,
          appendTo: function(el) {
              return el.closest('section.slide') || el.parentElement;
          },
          interactive: true,
          interactiveBorder: 10,
          theme: 'light-border',
          placement: 'bottom-start',
        };
        if (contentFn) {
          config.content = contentFn;
        }
        if (onTriggerFn) {
          config.onTrigger = onTriggerFn;
        }
        if (onUntriggerFn) {
          config.onUntrigger = onUntriggerFn;
        }
          config['offset'] = [0,0];
          config['maxWidth'] = 700;
        window.tippy(el, config); 
      }
      const noterefs = window.document.querySelectorAll('a[role="doc-noteref"]');
      for (var i=0; i<noterefs.length; i++) {
        const ref = noterefs[i];
        tippyHover(ref, function() {
          // use id or data attribute instead here
          let href = ref.getAttribute('data-footnote-href') || ref.getAttribute('href');
          try { href = new URL(href).hash; } catch {}
          const id = href.replace(/^#\/?/, "");
          const note = window.document.getElementById(id);
          if (note) {
            return note.innerHTML;
          } else {
            return "";
          }
        });
      }
      const findCites = (el) => {
        const parentEl = el.parentElement;
        if (parentEl) {
          const cites = parentEl.dataset.cites;
          if (cites) {
            return {
              el,
              cites: cites.split(' ')
            };
          } else {
            return findCites(el.parentElement)
          }
        } else {
          return undefined;
        }
      };
      var bibliorefs = window.document.querySelectorAll('a[role="doc-biblioref"]');
      for (var i=0; i<bibliorefs.length; i++) {
        const ref = bibliorefs[i];
        const citeInfo = findCites(ref);
        if (citeInfo) {
          tippyHover(citeInfo.el, function() {
            var popup = window.document.createElement('div');
            citeInfo.cites.forEach(function(cite) {
              var citeDiv = window.document.createElement('div');
              citeDiv.classList.add('hanging-indent');
              citeDiv.classList.add('csl-entry');
              var biblioDiv = window.document.getElementById('ref-' + cite);
              if (biblioDiv) {
                citeDiv.innerHTML = biblioDiv.innerHTML;
              }
              popup.appendChild(citeDiv);
            });
            return popup.innerHTML;
          });
        }
      }
    });
    </script>
    <script>var lightboxQuarto = GLightbox({"closeEffect":"zoom","descPosition":"bottom","loop":false,"openEffect":"zoom","selector":".lightbox"});
    (function() {
      let previousOnload = window.onload;
      window.onload = () => {
        if (previousOnload) {
          previousOnload();
        }
        lightboxQuarto.on('slide_before_load', (data) => {
          const { slideIndex, slideNode, slideConfig, player, trigger } = data;
          const href = trigger.getAttribute('href');
          if (href !== null) {
            const imgEl = window.document.querySelector(`a[href="${href}"] img`);
            if (imgEl !== null) {
              const srcAttr = imgEl.getAttribute("src");
              if (srcAttr && srcAttr.startsWith("data:")) {
                slideConfig.href = srcAttr;
              }
            }
          } 
        });
      
        lightboxQuarto.on('slide_after_load', (data) => {
          const { slideIndex, slideNode, slideConfig, player, trigger } = data;
          if (window.Quarto?.typesetMath) {
            window.Quarto.typesetMath(slideNode);
          }
        });
      
      };
      
    })();
              </script>
    

</body></html>