JohnSnowLabs · maziyarpanahi · Apr 5, 2024 · Nov 21, 2022 · Nov 25, 2022 · Dec 15, 2022
diff --git a/docs/_posts/DevinTDHa/2024-01-10-mpnet_sequence_classifier_ukr_message_en.md b/docs/_posts/DevinTDHa/2024-01-10-mpnet_sequence_classifier_ukr_message_en.md
@@ -0,0 +1,127 @@
+---
+layout: model
+title: MPNet Sequence Classification - UKR Message Classifier
+author: John Snow Labs
+name: mpnet_sequence_classifier_ukr_message
+date: 2024-01-10
+tags: [en, mpnet, sequence, classification, open_source, onnx]
+task: Text Classification
+language: en
+edition: Spark NLP 5.2.3
+spark_version: 3.0
+supported: true
+engine: onnx
+annotator: MPNetForSequenceClassification
+article_header:
+  type: cover
+use_language_switcher: "Python-Scala-Java"
+---
+
+## Description
+
+MPNet Sequence Classification imported from huggingface. 
+
+Originally a SetFit model, reference: https://huggingface.co/rodekruis/sml-ukr-message-classifier
+
+## Predicted Entities
+
+`ANOMALY`, `ARMY`, `CHILDREN`, `CONNECTIVITY`, `CONNECTWITHREDCROSS`, `EDUCATION`, `FOOD`, `GOODSSERVICES`, `HEALTH`, `INCLUSIONCVA`, `LEGAL`, `MONEY/BANKING`, `NFINONFOODITEMS`, `OTHERPROGRAMSOTHERNGOS`, `PARCEL`, `PAYMENTCVA`, `PETS`, `PMER/NEWPROGRAMOPERTUNITIES`, `PROGRAMINFO`, `PROGRAMINFORMATION`, `PSSRFL`, `REGISTRATIONCVA`, `SENTIMENT/FEEDBACK`, `SHELTER`, `TRANSLATION/LANGUAGE`, `TRANSPORT/CAR`, `TRANSPORT/MOVEMENT`, `WASH`, `WORK/JOBS`
+
+{:.btn-box}
+<button class="button button-orange" disabled>Live Demo</button>
+<button class="button button-orange" disabled>Open in Colab</button>
+[Download](https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/mpnet_sequence_classifier_ukr_message_en_5.2.3_3.0_1704907644396.zip){:.button.button-orange.button-orange-trans.arr.button-icon}
+[Copy S3 URI](s3://auxdata.johnsnowlabs.com/public/models/mpnet_sequence_classifier_ukr_message_en_5.2.3_3.0_1704907644396.zip){:.button.button-orange.button-orange-trans.button-icon.button-copy-s3}
+
+## How to use
+
+
+
+<div class="tabs-box" markdown="1">
+{% include programmingLanguageSelectScalaPythonNLU.html %}
+```python
+import sparknlp
+from sparknlp.base import *
+from sparknlp.annotator import *
+from pyspark.ml import Pipeline
+document = DocumentAssembler() \
+    .setInputCol("text") \
+    .setOutputCol("document")
+tokenizer = Tokenizer() \
+    .setInputCols(["document"]) \
+    .setOutputCol("token")
+sequenceClassifier = MPNetForSequenceClassification \
+    .pretrained() \
+    .setInputCols(["document", "token"]) \
+    .setOutputCol("label")
+data = spark.createDataFrame([
+    ["I love driving my car."],
+    ["The next bus will arrive in 20 minutes."],
+    ["pineapple on pizza is the worst 🤮"],
+]).toDF("text")
+pipeline = Pipeline().setStages([document, tokenizer, sequenceClassifier])
+pipelineModel = pipeline.fit(data)
+results = pipelineModel.transform(data)
+results.select("label.result").show()
+```
+```scala
+import com.johnsnowlabs.nlp.base._
+import com.johnsnowlabs.nlp.annotator._
+import org.apache.spark.ml.Pipeline
+import spark.implicits._
+
+val document = new DocumentAssembler()
+  .setInputCol("text")
+  .setOutputCol("document")
+
+val tokenizer = new Tokenizer()
+  .setInputCols(Array("document"))
+  .setOutputCol("token")
+
+val modelPath = "onnx_exported/rodekruis/sml-ukr-message-classifier"
+
+val sequenceClassifier = MPNetForSequenceClassification
+  .loadSavedModel(modelPath, spark)
+//        .pretrained()
+  .setInputCols(Array("document", "token"))
+  .setOutputCol("label")
+
+val texts: Seq[String] = Seq(
+  "I love driving my car.",
+  "The next bus will arrive in 20 minutes.",
+  "pineapple on pizza is the worst 🤮")
+val data = texts.toDF("text")
+
+val pipeline = new Pipeline().setStages(Array(document, tokenizer, sequenceClassifier))
+val pipelineModel = pipeline.fit(data)
+val results = pipelineModel.transform(data)
+
+results.select("label.result").show()
+```
+</div>
+
+## Results
+
+```bash
++--------------------+
+|              result|
++--------------------+
+|     [TRANSPORT/CAR]|
+|[TRANSPORT/MOVEMENT]|
+|              [FOOD]|
++--------------------+
+```
+
+{:.model-param}
+## Model Information
+
+{:.table-model}
+|---|---|
+|Model Name:|mpnet_sequence_classifier_ukr_message|
+|Compatibility:|Spark NLP 5.2.3+|
+|License:|Open Source|
+|Edition:|Official|
+|Input Labels:|[document, token]|
+|Output Labels:|[label]|
+|Language:|en|
+|Size:|403.5 MB|
diff --git a/docs/_posts/DevinTDHa/2024-01-20-mpnet_base_question_answering_squad2_en.md b/docs/_posts/DevinTDHa/2024-01-20-mpnet_base_question_answering_squad2_en.md
@@ -0,0 +1,116 @@
+---
+layout: model
+title: MPNet Base For Question Answering - Squad2
+author: John Snow Labs
+name: mpnet_base_question_answering_squad2
+date: 2024-01-20
+tags: [mpnet, base, qa, question, answer, answering, squad, en, open_source, onnx]
+task: Question Answering
+language: en
+edition: Spark NLP 5.2.4
+spark_version: 3.0
+supported: true
+engine: onnx
+annotator: MPNetForQuestionAnswering
+article_header:
+  type: cover
+use_language_switcher: "Python-Scala-Java"
+---
+
+## Description
+
+MPNet Base For Question Answering fine tuned on the Squad2 dataset.
+
+Reference: https://huggingface.co/haddadalwi/multi-qa-mpnet-base-dot-v1-finetuned-squad2-all
+
+## Predicted Entities
+
+
+
+{:.btn-box}
+<button class="button button-orange" disabled>Live Demo</button>
+<button class="button button-orange" disabled>Open in Colab</button>
+[Download](https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/mpnet_base_question_answering_squad2_en_5.2.4_3.0_1705756189243.zip){:.button.button-orange.button-orange-trans.arr.button-icon}
+[Copy S3 URI](s3://auxdata.johnsnowlabs.com/public/models/mpnet_base_question_answering_squad2_en_5.2.4_3.0_1705756189243.zip){:.button.button-orange.button-orange-trans.button-icon.button-copy-s3}
+
+## How to use
+
+
+
+<div class="tabs-box" markdown="1">
+{% include programmingLanguageSelectScalaPythonNLU.html %}
+```python
+import sparknlp
+from sparknlp.base import *
+from sparknlp.annotator import *
+from pyspark.ml import Pipeline
+
+documentAssembler = MultiDocumentAssembler() \
+    .setInputCols(["question", "context"]) \
+    .setOutputCol(["document_question", "document_context"])
+
+spanClassifier = MPNetForQuestionAnswering.pretrained() \
+    .setInputCols(["document_question", "document_context"]) \
+    .setOutputCol("answer") \
+    .setCaseSensitive(False)
+
+pipeline = Pipeline().setStages([
+    documentAssembler,
+    spanClassifier
+])
+
+data = spark.createDataFrame([["What's my name?", "My name is Clara and I live in Berkeley."]]).toDF("question", "context")
+result = pipeline.fit(data).transform(data)
+result.select("answer.result").show(truncate=False)
+
+```
+```scala
+import spark.implicits._
+import com.johnsnowlabs.nlp.base._
+import com.johnsnowlabs.nlp.annotator._
+import org.apache.spark.ml.Pipeline
+
+val document = new MultiDocumentAssembler()
+  .setInputCols("question", "context")
+  .setOutputCols("document_question", "document_context")
+
+val questionAnswering = MPNetForQuestionAnswering.pretrained()
+  .setInputCols(Array("document_question", "document_context"))
+  .setOutputCol("answer")
+  .setCaseSensitive(true)
+
+val pipeline = new Pipeline().setStages(Array(
+  document,
+  questionAnswering
+))
+
+val data = Seq("What's my name?", "My name is Clara and I live in Berkeley.").toDF("question", "context")
+val result = pipeline.fit(data).transform(data)
+
+result.select("label.result").show(false)
+```
+</div>
+
+## Results
+
+```bash
++---------------------+
+|result               |
++---------------------+
+|[Clara]              |
+++--------------------+
+```
+
+{:.model-param}
+## Model Information
+
+{:.table-model}
+|---|---|
+|Model Name:|mpnet_base_question_answering_squad2|
+|Compatibility:|Spark NLP 5.2.4+|
+|License:|Open Source|
+|Edition:|Official|
+|Input Labels:|[document_question, document_context]|
+|Output Labels:|[answer]|
+|Language:|en|
+|Size:|403.5 MB|
diff --git a/docs/_posts/ahmedlone127/2024-01-01-1030_1_en.md b/docs/_posts/ahmedlone127/2024-01-01-1030_1_en.md
@@ -0,0 +1,97 @@
+---
+layout: model
+title: English 1030_1 DistilBertForSequenceClassification from tingchih
+author: John Snow Labs
+name: 1030_1
+date: 2024-01-01
+tags: [bert, en, open_source, sequence_classification, onnx]
+task: Text Classification
+language: en
+edition: Spark NLP 5.2.2
+spark_version: 3.0
+supported: true
+engine: onnx
+annotator: DistilBertForSequenceClassification
+article_header:
+  type: cover
+use_language_switcher: "Python-Scala-Java"
+---
+
+## Description
+
+Pretrained DistilBertForSequenceClassification model, adapted from Hugging Face and curated to provide scalability and production-readiness using Spark NLP.`1030_1` is a English model originally trained by tingchih.
+
+{:.btn-box}
+<button class="button button-orange" disabled>Live Demo</button>
+<button class="button button-orange" disabled>Open in Colab</button>
+[Download](https://s3.amazonaws.com/auxdata.johnsnowlabs.com/public/models/1030_1_en_5.2.2_3.0_1704117975641.zip){:.button.button-orange.button-orange-trans.arr.button-icon}
+[Copy S3 URI](s3://auxdata.johnsnowlabs.com/public/models/1030_1_en_5.2.2_3.0_1704117975641.zip){:.button.button-orange.button-orange-trans.button-icon.button-copy-s3}
+
+## How to use
+
+
+
+<div class="tabs-box" markdown="1">
+{% include programmingLanguageSelectScalaPythonNLU.html %}
+```python
+
+document_assembler = DocumentAssembler()\
+    .setInputCol("text")\
+    .setOutputCol("document")
+
+tokenizer = Tokenizer()\
+    .setInputCols("document")\
+    .setOutputCol("token")  
+
+sequenceClassifier = DistilBertForSequenceClassification.pretrained("1030_1","en")\
+            .setInputCols(["document","token"])\
+            .setOutputCol("class")
+
+pipeline = Pipeline().setStages([document_assembler, tokenizer, sequenceClassifier])
+
+data = spark.createDataFrame([["PUT YOUR STRING HERE"]]).toDF("text")
+
+result = pipeline.fit(data).transform(data)
+
+```
+```scala
+
+val document_assembler = new DocumentAssembler()
+    .setInputCol("text")
+    .setOutputCol("document")
+
+val tokenizer = new Tokenizer()
+    .setInputCols("document") 
+    .setOutputCol("token")  
+
+val sequenceClassifier = DistilBertForSequenceClassification.pretrained("1030_1","en")
+            .setInputCols(Array("document","token"))
+            .setOutputCol("class")
+
+val pipeline = new Pipeline().setStages(Array(documentAssembler, tokenizer, sequenceClassifier))
+
+val data = Seq("PUT YOUR STRING HERE").toDS.toDF("text")
+
+val result = pipeline.fit(data).transform(data)
+
+
+```
+</div>
+
+{:.model-param}
+## Model Information
+
+{:.table-model}
+|---|---|
+|Model Name:|1030_1|
+|Compatibility:|Spark NLP 5.2.2+|
+|License:|Open Source|
+|Edition:|Official|
+|Input Labels:|[documents, token]|
+|Output Labels:|[class]|
+|Language:|en|
+|Size:|249.5 MB|
+
+## References
+
+https://huggingface.co/tingchih/1030-1