

ชุมชนผู้สนใจการประมวลผลภาษาธรรมชาติ (natural language processing) ในภาษาไทย และแบ่งปันความรู้ตามแนวทางซอฟต์แวร์เสรีและข้อมูลเปิด มีงานพบปะแลกเปลี่ยนชื่อ Thai NLP Meetup ไม่เกี่ยวข้องกับบริษัทหรือสถาบันใด ๆ #ThaiNLP
Common Voice Dataset 9.0 มาแล้วนะครับ
ขอบคุณทุกท่านที่ช่วยเข้าไปฟังเสียง อัดเสียง เลือกประโยค เพิ่มประโยคครับ
FOSS Asia Summit จะมีเรื่อง Common Voice นะครับทุ่มนึง คุณ Robert Reyes พูดครับ
FOSS Asia Summit จะมีเรื่อง Common Voice นะครับทุ่มนึง คุณ Robert Reyes พูดครับ
JSON-RPC server สำหรับโปรแกรมตัดคำ
Wordcut JSON-RPC server. Contribute to veer66/wordcut-json-rpc-server development by creating an account on GitHub.
ผมทำ JSON-RPC server สำหรับโปรแกรมตัดคำ โดยสรุปคือรันแบบนี้เลย คำสั่งเดียว
undefined
docker run -d --name wordcut --net=host veer66/wordcut-json-rpc-server
ในตัวอย่างนี้ผมเรียกใช้งานจาก PHP แต่จริง ๆ ใช้อย่างอื่นก็ได้
php
<?php require __DIR__ . '/vendor/autoload.php'; use JsonRPC\Client; $client = new Client("http://localhost:8999/"); var_dump($client->execute("put_delimiters", ["กากากา", "|"])); ?>
PyThaiNLP v3.0.0 Released! · PyThaiNLP/pythainlp
After a long time of the development of PyThaiNLP 3.0, We released PyThaiNLP 3.0. PyThaiNLP 3.0 has many improvements and new features to help with Thai language processing tasks. You can install b...
PyThaiNLP v3.0.0-beta0 released!
PyThaiNLP 3.0 have many improvement and new features to help you in Thai language processing tasks. This release is PyThaiNLP v3.0.0-beta0. It is The first beta release of PyThaiNLP 3.0 You can in...
PyThaiNLP v3.0.0-beta0 released! #PyThaiNLP #ThaiNLP PyThaiNLP 3.0 have many improvement and new features to help you in Thai language processing tasks. This release is PyThaiNLP v3.0.0-beta0. It is The first beta release of PyThaiNLP 3.0.
ใช้ชำฆ้อบน Windows
Khmer, Lao, Myanmar, and Thai word segmentation/breaking library and command line - veer66/chamkho
ผมลองติดตั้งโปรแกรมตัดคำชำฆ้อบน Windows ดูก็ใช้ได้ครับ ตามภาพผมใช้ Windows Terminal เปิด Powershell ขึ้นมา หรือจะใช้ vscode เปิด Powershell ก็ได้ครับ แล้วใช้คำสั่งตามนี้ครับ
undefined
PS C:\ex1> $OutputEncoding = [console]::InputEncoding = [console]::OutputEncoding = New-Object System.Text.UTF8Encoding PS C:\ex1> Invoke-WebRequest -uri https://github.com/veer66/chamkho/releases/download/1.1.0/chamkho-1.1.0-windows-amd64.zip -OutFile chamkho.zip PS C:\ex1> Expand-Archive -Path .\chamkho.zip -DestinationPath . PS C:\ex1> cd .\chamkho-1.1.0-windows-amd64\ PS C:\ex1\chamkho-1.1.0-windows-amd64> echo ฉันง่วงมาก | .\wordcut. exe
PyThaiASR
Python Thai Automatic Speech Recognition. Contribute to PyThaiNLP/pythaiasr development by creating an account on GitHub.
PyThaiASR is a Python package for Automatic Speech Recognition with focus on Thai language. It have offline thai automatic speech recognition model from Artificial Intelligence Research Institute of Thailand (AIResearch.in.th).
AIResearch.in.th และ PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Speech-to-Text) ความแม่นยำทัดเทียมผู้นำตลาดอย่าง Microsoft, Google, Amazon ให้ใช้ฟรีภายใต้ลิขสิทธิ์ CC-BY-SA 4.0 (Open Source)
ลองโมเดลได้ที่ airesearch/wav2vec2-large-xlsr-53-th / vistec-ai/commonvoice-th
Apertium Stream Parser อีกตัวหนึ่งเขียนด้วย Rust ครับ
Apertium Stream Parser in Rust. Contribute to veer66/reinars development by creating an account on GitHub.
พรุ่งนี้จะลองกับข้อมูลจริงครับ
mC4: A multilingual colossal, cleaned version of Common Crawl's web crawl corpus.
A multilingual colossal, cleaned version of Common Crawl's web crawl corpus. Based on Common Crawl dataset: "https://commoncrawl.org/".
Haystack
AI orchestration framework to build customizable, production-ready LLM applications. Connect components (models, vector DBs, file converters) to pipelines or agents that can interact with your data...
🔍 End-to-end Python framework for building natural language search interfaces to data. Leverages Transformers and the State-of-the-Art of NLP. Supports DPR, Elasticsearch, Hugging Face’s Hub, and much more!
OSKut: Out-of-domain StacKed cut for Word Segmentation
OSKut: Out-of-domain StacKed cut for Word Segmentation
Thanathip Suntorntip Gorlph ported Korakot Chaovavanich's Thai word tokenizer - Newmm, written in...
ห้อง Apertium ย้ายไป OFTC ครับ
The #Apertium channel has already moved from Freenode to OFTC
Apertium เป็น rule-based machine translation
Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks.