- ทำงานได้ดีกับข้อมูลที่ได้จากระบบฐานข้อมูลโดยเฉพาะ
- เป็นระบบ 2 ภาษาคือ ไทย-อังกฤษ ใช้พยางค์เป็นหน่วยย่อยที่สุดในการประมวลผล การออกแบบใช้สมมุติฐานดังนี้
- ข้อมูลที่ใช้อักขระไทย อาจเป็นได้ทั้งภาษาไทย ภาษาอังกฤษ หรือภาษาอื่นก็ได้
- ข้อมูลที่ใช้อักขระลาติน อาจเป็นภาษาอังกฤษ ภาษาอเมริกัน ภาษาไทย หรือภาษาอื่นๆ ก็ได้
- คำ/พยางค์ไทย ที่เราพบในข้อมูล อาจพบอยู่ในพจนานุกรมไทย หรือไม่ก็ได้
- คำ/พยางค์ภาษาอังกฤษ อาจพบหรือไม่พบในพจนานุกรมอังกฤษ/อเมริกันก็ได้
- มีระบบการตัดพยางค์ เช่น ตัดพยางค์ -> ตัด-พ-ยางค์ หรือ samudprakan -> sa-mud-pra-kan จะเห็นว่า ThaiEngine สามารถตัดพยางค์ภาษาอังกฤษได้ด้วย
- สามารถค้นหาข้อมูลต่างๆ ได้อย่างเป็นธรรมชาติ เช่น
- หา “ใบไม้” จะพบ “ใบไม้” , “ไม้ใบ”, “ไม้xxxใบ” แต่จะไม่พบ “ใบ้ไม้”
- หา “samud” จะพบ “samudprakan” “samudsongkram”
- สามารถบีบให้เอาผลลัพธ์เฉพาะที่เป็น exact match ได้ เช่น จากตัวอย่าง “ใบไม้” สามารถระบุว่าไม่เอา “ไม้ใบ”, “ไม้xxxใบ” ได้
- คำ/พยางค์ภาษาอังกฤษ อาจพบหรือไม่พบในพจนานุกรมอังกฤษ/อเมริกันก็ได้
- จะเห็นว่าทำงานได้ดีกับ คำที่ไม่พบในพจนานุกรม (ไทย-อังกฤษ) ซึ่งมีสัดส่วนสูงมากในข้อมูลภาษาไทยในปัจจุบัน