fix docker and orangeci

gnes-ai · Apr 12, 2019 · 5998558 · 5998558
1 parent fa2b312
commit 5998558
Show file tree

Hide file tree

Showing 7 changed files with 25 additions and 17 deletions.
diff --git a/.dockerignore b/.dockerignore
@@ -1,7 +1,13 @@
 .pyre/
 .idea/
-.orange-ci.yml
 docker-push.sh
+download-models.sh
+docker-up.sh
+.orange-ci.yml
+docker-compose.yml
+docker-compose-simple.yml
+README.ms
 MAINTAINERS
 test*.yml
-toy*
+toy*
+release.sh
diff --git a/download_model.sh → download-models.sh b/download_model.sh → download-models.sh
@@ -10,11 +10,13 @@ URL_TRANSFORMER_XL="https://gnes-1252847528.cos.ap-guangzhou.myqcloud.com/transf
 URL_WORD2VEC="https://gnes-1252847528.cos.ap-guangzhou.myqcloud.com/sgns.wiki.bigram-char.bz2"
 
 wget ${URL_CHINESE_BERT} -qO temp.zip; unzip temp.zip; rm temp.zip
+wget ${URL_WORD2VEC} -qO tmp.bz2; bzip2 -d tmp.bz2; rm tmp.bz2
 
-bz2array=($URL_CHINESE_ELMO $URL_GPT $URL_GPT2 $URL_TRANSFORMER_XL $URL_WORD2VEC)
+tarbz2array=($URL_CHINESE_ELMO $URL_GPT $URL_GPT2 $URL_TRANSFORMER_XL)
 
-for url in "${bz2array[@]}"
+for url in "${tarbz2array[@]}"
 do
     printf "downloading ${url}\n"
     wget ${url} -qO tmp.tar.bz2; tar -xjf tmp.tar.bz2; rm tmp.tar.bz2
-done
+done
+
diff --git a/gnes/encoder/gpt.py b/gnes/encoder/gpt.py
@@ -11,15 +11,15 @@
 class GPTEncoder(BaseEncoder):
 
     def __init__(self,
-                 model_path: str,
+                 model_dir: str,
                  batch_size: int = 64,
                  use_cuda: bool = False,
                  pooling_strategy: str = 'REDUCE_MEAN',
                  *args,
                  **kwargs):
         super().__init__(*args, **kwargs)
 
-        self.model_path = model_path
+        self.model_dir = model_dir
         self.batch_size = batch_size
 
         # Load pre-trained model tokenizer (vocabulary)
@@ -41,8 +41,8 @@ def _get_output_tensor(self, x):
         return self._model(x)
 
     def _init_model_tokenizer(self):
-        self._tokenizer = OpenAIGPTTokenizer.from_pretrained(self.model_path)
-        self._model = OpenAIGPTModel.from_pretrained(self.model_path)
+        self._tokenizer = OpenAIGPTTokenizer.from_pretrained(self.model_dir)
+        self._model = OpenAIGPTModel.from_pretrained(self.model_dir)
         self._model.eval()
 
     @batching

diff --git a/gnes/encoder/gpt2.py b/gnes/encoder/gpt2.py
@@ -11,6 +11,6 @@ def _get_output_tensor(self, x):
         return self._model(x)[0]
 
     def _init_model_tokenizer(self):
-        self._tokenizer = GPT2Tokenizer.from_pretrained(self.model_path)
-        self._model = GPT2Model.from_pretrained(self.model_path)
+        self._tokenizer = GPT2Tokenizer.from_pretrained(self.model_dir)
+        self._model = GPT2Model.from_pretrained(self.model_dir)
         self._model.eval()
diff --git a/gnes/encoder/w2v.py b/gnes/encoder/w2v.py
@@ -8,20 +8,20 @@
 
 
 class Word2VecEncoder(BaseEncoder):
-    def __init__(self, model_path,
+    def __init__(self, model_dir,
                  skiprows: int = 1,
                  batch_size: int = 64,
                  pooling_strategy: str = 'REDUCE_MEAN', *args, **kwargs):
         super().__init__(*args, **kwargs)
-        self.model_path = model_path
+        self.model_dir = model_dir
         self.skiprows = skiprows
         self.batch_size = batch_size
         self.pooling_strategy = pooling_strategy
         self.is_trained = True
         self._init_word_embedding()
 
     def _init_word_embedding(self):
-        self.word2vec_df = pd.read_table(self.model_path, sep=' ', quoting=3,
+        self.word2vec_df = pd.read_table(self.model_dir, sep=' ', quoting=3,
                                          header=None, skiprows=self.skiprows,
                                          index_col=0)
         self.word2vec_df = self.word2vec_df.astype(np.float32).dropna(axis=1).dropna(axis=0)

diff --git a/tests/test_gpt_encoder.py b/tests/test_gpt_encoder.py
@@ -25,7 +25,7 @@ def setUp(self):
 
     def test_encoding(self):
         _encoder = GPTEncoder(
-            model_path=os.environ.get(
+            model_dir=os.environ.get(
                 'GPT_CI_MODEL',
                 '/openai_gpt'
             ),

diff --git a/tests/test_w2v_encoder.py b/tests/test_w2v_encoder.py
@@ -19,15 +19,15 @@ def setUp(self):
 
     def test_encoding(self):
         w2v_encoder = Word2VecEncoder(
-            model_path=os.environ['WORD2VEC_MODEL'],
+            model_dir=os.environ['WORD2VEC_MODEL'],
             pooling_strategy="REDUCE_MEAN")
         vec = w2v_encoder.encode(self.test_str)
         self.assertEqual(vec.shape[0], len(self.test_str))
         self.assertEqual(vec.shape[1], 300)
 
     def test_dump_load(self):
         w2v_encoder = Word2VecEncoder(
-            model_path=os.environ['WORD2VEC_MODEL'],
+            model_dir=os.environ['WORD2VEC_MODEL'],
             pooling_strategy="REDUCE_MEAN")
         w2v_encoder.dump(self.dump_path)
         w2v_encoder2 = Word2VecEncoder.load(self.dump_path)