-
Notifications
You must be signed in to change notification settings - Fork 121
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Resource] Useful tools & lecture related to data science #131
Comments
分词
将text转换为特征向量
关于NLP的模型
关于NLP的task
可视化
|
这个issue打算放一些我个人觉得不错的工具和教程,做一个备份。
2025/02
What is an Agent?
2024/09
2024/07
2024/06
2024/04
2024/03
2024/02
いまこそ学ぶLLMベースのAIエージェント入門―基本的なしくみ/開発ツール/有名なOSSや論文の紹介: 介绍了很多关于agent开发相关的工具和trend
labml.ai Deep Learning Paper Implementations: 有很多论文和代码实现
OpeanAI Cookbook
RAGの性能を改善するための8つの戦略: 总结的文章
RAG質問応答システムに使うRetrieverの精度比較
langchain-tutorials
Langchain-Full-Course:有一些高级使用方法的教程
LangChainを利用したハイブリッド検索の実装:实现了hybrid检索,写的不错
Let's build the GPT Tokenizer
2024/01
2023/11
2023/09
2023/07
2023/03
2023/02
tokenizer.add_tokens(list(new_tokens))
,解释了为什么需要添加新词。主要是因为subword在specific domain上效果不好,容易忽视该词在特定领域中的含义,所以最好还是添加一些domain词典比较好2023/01
%store value
, 读取:%store -r value
2022
2022/12
sampler.query = MagicMock(return_value=2
,会被pydantic报错,说sampler没有query这个属性值,但实际上query是函数。根据这次的经验,对pydantic的适用场景有了一些感想。主要适用于一些数据结构比较简单的,很少用到第三方依赖的项目。对于涉及到pytorch, tensorflow这种比较复杂的深度学习项目,还是直接用if进行判断做数据验证比较好2022/10
PyCon JP的一些资料:
How to Transform Research Oriented Code into Machine Learning APIs with Python:将代码分成 preparation, preprocessing, ml三部分
続・小さく始めて大きく育てるMLOps2020 / Start small and grow big MLOps2020:用于MLop的工具,控制变量,记录log,管理workflow
Python × AWS × Serverless 初学者が次の一歩を踏み出すためのテクニック/Python & AWS & Serverless - Step to the next stage from a beginner: 做个记录
最先端自然言語処理ライブラリの最適な選択と有用な利用方法 / pycon-jp-2020:比较了不同日语文本处理工具,还有之后用于模型训练的工具。处理日语文本的时候,可以参考这个文档
実践Streamlit & Flask - AIプロジェクトをいい感じにする技術 / Service development with Streamlit and Flask: 不论是enginner还是数据科学家,都希望能用可以展示的app进行演示。原型展示用streamlit,实际部署是将flask部署到GAE上
Pandas卒業?大規模データを様々なパッケージで高速処理してみる/pyconjp2022-hpc
:介绍了包括pandas在内的分析处理数据的工具,pandas, dask, vaex, pyspark。有实际的代码和例子可以自己尝试。各个工具有各自的优点,根据数据量,选择合适的工具
Fast API と学ぶ WebRTC: 有实际的代码和演示,如果以后遇到WebRTC,可以回顾一下
SQLクエリ解析によるE2Eデータリネージの実現 / E2E-data-lineage: 主要介绍了用Stairlight给SQL得到的数据添加一些信息,方便之后使用的时候,知道信息的来源
Pythonで公的統計APIのオープンデータ活用(PyConJP2022): 介绍了很多获取政府公开数据的方法,还有一些比较便利的工具
Python ライブラリ開発における失敗談 〜開発者に選ばれるライブラリを作るために必要なこと〜 / pycon-jp-2022:里面涉及到的比较不同nlp工具解析时间的部分还挺有用,而且介绍了很多针对日语的工具
Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて #PyConJP 2022: 基于google的云服务,构建了一个分析棒球的服务。主要用到了PySpark。整个slide的制作和介绍非常值得参考
データに関する堅牢性と可読性を向上させるpydanticとpanderaの活用方法の提案.pdf: 主要介绍了pydantic和pandera的使用方法。pydantic针对所有的项目,pandera针对pandas里的dataframe。
pydantic: 用于验证python类型的工具
codespell:检查代码拼写错误的工具
日本的病例标注数据:70种NER标签,35种关系标签
基于日语的诊断文本学习的BERT:添加了很多病名的数据
抽取日语病名的工具
2022/09
2022/04
2022/03
2022/02
通过cProfile来调查代码耗时最大的地方(プロファイリング)
一些关于如何写好代码的建议
YAGNI(You ain't gonna need it): 不要写自己觉得可能会用到的代码
关于test的文章
介绍代码复杂度Cyclomatic Complexity
2021
2021/08
2021/05
2021/04
2021/01
2020
2020/12
cp932
起效果了<feature/bugfix/experimental>/<issue-number>-<dscription_for_branch>
2020/11
2020/10
2020/8
2020/7
2020/6
关于抗疫的视频,太感动了:
2020/5
关于投资
关于开发:
关于日语:
2020/4
2020/3
2020/2
2020/1
pip install torch==1.2.0 torchvision==0.4.0
2019
2019/12
https://translate.google.com/translate_tts?ie=UTF-8&client=tw-ob&tl=zh-CN&q=我想测试一下这个语音能不能支持日语(天気がいいから散歩しましょう。できないみたいだな)以及英语(Ramen is delicious)
_
)方法,还是能访问并修改的。而private(__
)则不能被外界访问。PyCon china 2018:
关于健身:
2019/11
Some information about fuzzy matching: 没有找到日语的相关工具
2019/10
twine upload --repository-url https://upload.pypi.org/legacy/ dist/*
2019/09
(图1)
(图2)
Linux basic
挺有方便的,写bash脚本的话直接拿来参考。
Deep Learning Tools
可视化
文章
关于RE的文章
关于Transformer的文章
关于BERT的文章
The text was updated successfully, but these errors were encountered: