Word2vec n_similarity returning numpy matrix instead of float with empty list #743

smagnan · 2016-06-14T15:55:25Z

I don't know if this should be seen as a bug or not, but it the case where we give at least an empty list to n_similarity is not handled. (The result is not surprising tho)

>>> from gensim.models import Word2Vec
>>> model = Word2Vec.load("frwiki.model")
>>> model.n_similarity(['real','world'],['everyday','life'])
0.46619348966885127
>>> model.n_similarity(['real','world'],[])
/usr/local/lib/python3.5/dist-packages/numpy/core/_methods.py:59: RuntimeWarning: Mean of empty slice.
  warnings.warn("Mean of empty slice.", RuntimeWarning)
/usr/local/lib/python3.5/dist-packages/numpy/core/_methods.py:70: RuntimeWarning: invalid value encountered in double_scalars
  ret = ret.dtype.type(ret / rcount)
array([ nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,  nan,
        nan,  nan,  nan])

I would have expected that to raise an exception but maybe it is not what was intended ...

Source code is rather simple:

def n_similarity(self, ws1, ws2):
        """
        Compute cosine similarity between two sets of words.
        Example::
          >>> trained_model.n_similarity(['sushi', 'shop'], ['japanese', 'restaurant'])
          0.61540466561049689
          >>> trained_model.n_similarity(['restaurant', 'japanese'], ['japanese', 'restaurant'])
          1.0000000000000004
          >>> trained_model.n_similarity(['sushi'], ['restaurant']) == trained_model.similarity('sushi', 'restaurant')
          True
        """
        v1 = [self[word] for word in ws1]
        v2 = [self[word] for word in ws2]
        return dot(matutils.unitvec(array(v1).mean(axis=0)), matutils.unitvec(array(v2).mean(axis=0)))

The text was updated successfully, but these errors were encountered:

piskvorky · 2016-06-15T00:56:10Z

Yes, good catch. This is numpy trying to be clever and issuing a warning, instead of a normal exception for division by zero.

I agree that this is unintuitive, and we should detect this and raise an exception ourselves. Is ZeroDivisionError what you would have expected, @smagnan ?

tmylk · 2016-06-21T23:29:18Z

@smagnan Ping - is it ok if we implement ZeroDivisionError exception here? Or is there a better way?

smagnan · 2016-06-22T07:42:19Z

Sorry for the delay to reply, I planned to do a patch at first but then forgot about it... Yes I guess a ZeroDivisionError is what I would have expected, or a specific ValueError. I am no python expert so I'm not sure about what's best: a custom error or a generic one

Fixes Issue piskvorky#743, n_similarity method now raises ZeroDivisionError if atleast one empty list is passed to it.

Added new test cases in testSimilarities method which makes sure whether ZeroDivisionError is raised if atleast one empty list is passed to word2vec.n_similarities method Related to fix for issue piskvorky#743

tmylk · 2016-10-04T15:17:37Z

Fixed in #883

tmylk added the difficulty easy Easy issue: required small fix label Jun 27, 2016

droudy mentioned this issue Jun 28, 2016

n_similarity() in word2vec and doc2vec raises ValueError if an empty list is passed #761

Closed

pranay360 mentioned this issue Sep 25, 2016

Fix Issue #743: Added exception handling for n_similarity method #882

Closed

pranay360 added a commit to pranay360/gensim that referenced this issue Sep 25, 2016

Updated n_similarity method

809f2ba

Fixes Issue piskvorky#743, n_similarity method now raises ZeroDivisionError if atleast one empty list is passed to it.

tmylk mentioned this issue Sep 26, 2016

Fix Issue #743, Updated word2vec.n_similarities and test_word2vec.testSimilarities methods #883

Merged

tmylk pushed a commit that referenced this issue Sep 26, 2016

Fix Issue #743. Raise ZeroDivisionError on empty list (#883)

0c5c5ed

tmylk closed this as completed Oct 4, 2016

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Word2vec n_similarity returning numpy matrix instead of float with empty list #743

Word2vec n_similarity returning numpy matrix instead of float with empty list #743

smagnan commented Jun 14, 2016 •

edited

Loading

piskvorky commented Jun 15, 2016

tmylk commented Jun 21, 2016

smagnan commented Jun 22, 2016

tmylk commented Oct 4, 2016

Word2vec n_similarity returning numpy matrix instead of float with empty list #743

Word2vec n_similarity returning numpy matrix instead of float with empty list #743

Comments

smagnan commented Jun 14, 2016 • edited Loading

piskvorky commented Jun 15, 2016

tmylk commented Jun 21, 2016

smagnan commented Jun 22, 2016

tmylk commented Oct 4, 2016

smagnan commented Jun 14, 2016 •

edited

Loading