langchain-ai · baskaryan · Dec 3, 2024 · Nov 27, 2024 · Nov 27, 2024 · Nov 27, 2024
diff --git a/js/src/evaluation/_runner.ts b/js/src/evaluation/_runner.ts
@@ -27,26 +27,72 @@ export type TargetT<TInput = any, TOutput = KVMap> =
 // Data format: dataset-name, dataset_id, or examples
 export type DataT = string | AsyncIterable<Example> | Example[];
 
-// Summary evaluator runs over the whole dataset
 // and reports aggregate metric(s)
+/** @deprecated Use object parameter version instead: (args: { runs, examples, inputs, outputs, referenceOutputs }) => ... */
+type DeprecatedSyncSummaryEvaluator = (
+  runs: Array<Run>,
+  examples: Array<Example>
+) => EvaluationResult | EvaluationResults;
+
+/** @deprecated Use object parameter version instead: (args: { runs, examples, inputs, outputs, referenceOutputs }) => ... */
+type DeprecatedAsyncSummaryEvaluator = (
+  runs: Array<Run>,
+  examples: Array<Example>
+) => Promise<EvaluationResult | EvaluationResults>;
+
+// Summary evaluator runs over the whole dataset
 export type SummaryEvaluatorT =
-  | ((
-      runs: Array<Run>,
-      examples: Array<Example>
-    ) => Promise<EvaluationResult | EvaluationResults>)
-  | ((
-      runs: Array<Run>,
-      examples: Array<Example>
-    ) => EvaluationResult | EvaluationResults);
+  | DeprecatedSyncSummaryEvaluator
+  | DeprecatedAsyncSummaryEvaluator
+  | ((args: {
+      runs?: Array<Run>;
+      examples?: Array<Example>;
+      inputs?: Array<Record<string, any>>;
+      outputs?: Array<Record<string, any>>;
+      referenceOutputs?: Array<Record<string, any>>;
+    }) => EvaluationResult | EvaluationResults)
+  | ((args: {
+      runs?: Array<Run>;
+      examples?: Array<Example>;
+      inputs?: Array<Record<string, any>>;
+      outputs?: Array<Record<string, any>>;
+      referenceOutputs?: Array<Record<string, any>>;
+    }) => Promise<EvaluationResult | EvaluationResults>);
+
+/** @deprecated Use object parameter version instead: (args: { run, example, inputs, outputs, referenceOutputs }) => ... */
+type DeprecatedRunEvaluator = RunEvaluator;
+
+/** @deprecated Use object parameter version instead: (args: { run, example, inputs, outputs, referenceOutputs }) => ... */
+type DeprecatedFunctionEvaluator = (
+  run: Run,
+  example?: Example
+) => EvaluationResult | EvaluationResults;
+
+/** @deprecated Use object parameter version instead: (args: { run, example, inputs, outputs, referenceOutputs }) => ... */
+type DeprecatedAsyncFunctionEvaluator = (
+  run: Run,
+  example?: Example
+) => Promise<EvaluationResult | EvaluationResults>;
 
 // Row-level evaluator
 export type EvaluatorT =
-  | RunEvaluator
-  | ((run: Run, example?: Example) => EvaluationResult | EvaluationResults)
-  | ((
-      run: Run,
-      example?: Example
-    ) => Promise<EvaluationResult | EvaluationResults>);
+  | DeprecatedRunEvaluator
+  | DeprecatedFunctionEvaluator
+  | DeprecatedAsyncFunctionEvaluator
+  | ((args: {
+      run?: Run;
+      example?: Example;
+      inputs?: Record<string, any>;
+      outputs?: Record<string, any>;
+      referenceOutputs?: Record<string, any>;
+    }) => EvaluationResult | EvaluationResults)
+  | ((args: {
+      run?: Run;
+      example?: Example;
+      inputs?: Record<string, any>;
+      outputs?: Record<string, any>;
+      referenceOutputs?: Record<string, any>;
+    }) => Promise<EvaluationResult | EvaluationResults>);
 
 interface _ForwardResults {
   run: Run;
@@ -658,6 +704,7 @@ export class _ExperimentManager {
       for (const evaluator of wrappedEvaluators) {
         try {
           const summaryEvalResult = await evaluator(runsArray, examples);
+
           const flattenedResults =
             this.client._selectEvalResults(summaryEvalResult);
           aggregateFeedback.push(...flattenedResults);
@@ -965,6 +1012,31 @@ async function wrapSummaryEvaluators(
           _runs_: string,
           _examples_: string
         ): Promise<EvaluationResult | EvaluationResults> => {
+          // Check if the evaluator expects an object parameter
+          if (evaluator.length === 1) {
+            const inputs = examples.map((ex) => ex.inputs);
+            const outputs = runs.map((run) => run.outputs || {});
+            const referenceOutputs = examples.map((ex) => ex.outputs || {});
+
+            return Promise.resolve(
+              (
+                evaluator as (args: {
+                  runs?: Run[];
+                  examples?: Example[];
+                  inputs?: Record<string, any>[];
+                  outputs?: Record<string, any>[];
+                  referenceOutputs?: Record<string, any>[];
+                }) => EvaluationResult | EvaluationResults
+              )({
+                runs,
+                examples,
+                inputs,
+                outputs,
+                referenceOutputs,
+              })
+            );
+          }
+          // Otherwise use the traditional (runs, examples) signature
           return Promise.resolve(evaluator(runs, examples));
         },
         { ...optionsArray, name: evalName }

diff --git a/js/src/evaluation/evaluate_comparative.ts b/js/src/evaluation/evaluate_comparative.ts
@@ -69,16 +69,29 @@ async function loadTraces(
   return results;
 }
 
+/** @deprecated Use ComparativeEvaluatorNew instead: (args: { runs, example, inputs, outputs, referenceOutputs }) => ... */
+export type _ComparativeEvaluatorLegacy = (
+  runs: Run[],
+  example: Example
+) => ComparisonEvaluationResultRow | Promise<ComparisonEvaluationResultRow>;
+
+export type _ComparativeEvaluator = (args: {
+  runs?: Run[];
+  example?: Example;
+  inputs?: Record<string, any>;
+  outputs?: Record<string, any>[];
+  referenceOutputs?: Record<string, any>;
+}) => ComparisonEvaluationResultRow | Promise<ComparisonEvaluationResultRow>;
+
+export type ComparativeEvaluator =
+  | _ComparativeEvaluatorLegacy
+  | _ComparativeEvaluator;
+
 export interface EvaluateComparativeOptions {
   /**
    * A list of evaluators to use for comparative evaluation.
    */
-  evaluators: Array<
-    (
-      runs: Run[],
-      example: Example
-    ) => ComparisonEvaluationResultRow | Promise<ComparisonEvaluationResultRow>
-  >;
+  evaluators: Array<ComparativeEvaluator>;
   /**
    * Randomize the order of outputs for each evaluation
    * @default false
@@ -306,16 +319,20 @@ export async function evaluateComparative(
   async function evaluateAndSubmitFeedback(
     runs: Run[],
     example: Example,
-    evaluator: (
-      runs: Run[],
-      example: Example
-    ) => ComparisonEvaluationResultRow | Promise<ComparisonEvaluationResultRow>
+    evaluator: ComparativeEvaluator
   ) {
     const expectedRunIds = new Set(runs.map((r) => r.id));
-    const result = await evaluator(
-      options.randomizeOrder ? shuffle(runs) : runs,
-      example
-    );
+    // Check if evaluator expects an object parameter
+    const result =
+      evaluator.length === 1
+        ? await (evaluator as _ComparativeEvaluator)({
+            runs: options.randomizeOrder ? shuffle(runs) : runs,
+            example,
+            inputs: example.inputs,
+            outputs: runs.map((run) => run.outputs || {}),
+            referenceOutputs: example.outputs || {},
+          })
+        : await (evaluator as _ComparativeEvaluatorLegacy)(runs, example);
 
     for (const [runId, score] of Object.entries(result.scores)) {
       // validate if the run id

diff --git a/js/src/evaluation/evaluator.ts b/js/src/evaluation/evaluator.ts
@@ -95,7 +95,21 @@ export type RunEvaluatorLike =
       run: Run,
       example?: Example
     ) => Promise<EvaluationResult | EvaluationResults>)
-  | ((run: Run, example?: Example) => EvaluationResult | EvaluationResults);
+  | ((run: Run, example?: Example) => EvaluationResult | EvaluationResults)
+  | ((args: {
+      run?: Run;
+      example?: Example;
+      inputs?: Record<string, any>;
+      outputs?: Record<string, any>;
+      referenceOutputs?: Record<string, any>;
+    }) => EvaluationResult | EvaluationResults)
+  | ((args: {
+      run?: Run;
+      example?: Example;
+      inputs?: Record<string, any>;
+      outputs?: Record<string, any>;
+      referenceOutputs?: Record<string, any>;
+    }) => Promise<EvaluationResult | EvaluationResults>);
 
 /**
  * Wraps an evaluator function + implements the RunEvaluator interface.
@@ -110,7 +124,18 @@ export class DynamicRunEvaluator<Func extends (...args: any[]) => any>
       langSmithRunAndExample: { run: Run; example: Example };
     }) => {
       const { run, example } = input.langSmithRunAndExample;
-      return evaluator(run, example);
+
+      return evaluator(
+        {
+          ...run,
+          run,
+          example,
+          inputs: example?.inputs,
+          outputs: run?.outputs,
+          referenceOutputs: example?.outputs,
+        },
+        example
+      );
     }) as Func;
   }