Deepseek คู่แข่งรายใหม่ในวงการ AI

อาจเรียกได้ว่าวันที่ 27 มกราคม 2568 เป็น Black Monday สำหรับตลาดหุ้นของอมเริกา โดยเฉพาะหุ้นกลุ่มเทคที่มีการลงทุนเกี่ยวกับ AI ที่ราคาร่วงอย่างหนักหลังจากการเปิดตัว AI chatbot โมเดลใหม่จากทาง Deepseek อย่าง Deepseek-R1 ที่มีประสิทธิภาพเทียบเคียง chatGPT-o1 ด้วยต้นทุนที่ถูกกว่า จนนักลงทุนเกิดความสงสัยในการลงทุนของ AI ฝั่งประเทศตะวันตก และเทขายหุ้นต่างๆที่เกี่ยวข้อง โดยหุ้น Nvidia เมื่อตลาดหุ้นเปิดทำการโดยลบถึง 12% มูลค่าทางตลาดหายไปกว่า 15 ล้านล้านบาทเลยทีเดียว

Image source https://www.bankinfosecurity.com/chinas-deekseek-aims-to-rival-openais-reasoning-model-a-26883

Deepseek คืออะไร?

Deepseek เป็นบริษัท Startup เกี่ยวกับ AI จากประเทศจีน ก่อตั้งโดย Co-founder ของบริษัท High-Flyer ที่มีชื่อว่าเหลียง เหวินเฟิง (Liang Wenfeng) ได้ก่อตั้งบริษัทขึ้นมาช่วงเดือนพฤษภาคม ปี 2023 ซึ่งใช้เงินทุนจากบริษัทเดิมที่มีการลงทุนและพัฒนาด้าน AI เพื่อนำมาใช้ในการเทรดในตลาดหุ้น ซึ่งบริษัท High-Flyer มีทรัพย์สินรวมในปี 2019 มากกว่า 3 แสนล้านบาท หลังจากด่อตั้งบริษัทได้เพียง 4 ปีเท่านั้น (เริ่มก่อตั้งในปี 2015)

Image source https://telanganatoday.com/when-deepseek-was-asked-who-liang-wenfeng-is

Products ของ Deepseek

ทาง Deepseek ได้เริ่มต้นพัฒนาโมเดล AI มาตั้งแต่ก่อนก่อตั้งบริษัท จนเมื่อเดือนพฤศจิกายน ปี2023 ได้เปิดตัวโมเดลแรกคือ DeepSeek Coder ซึ่งเป็นโมเดลสำหรับ coding ต่อมาในเวลาไม่ห่างกันมากนัก ได้เปิดใช้งาน DeepSeek LLM ที่เป็นโมเดลที่ใช้ parameters ในการเทรนโมเดล 67B ซึ่งนำมาใช้แข่งกับบริษัทอื่นๆ ที่เป็น LLMs เหมือนกัน ต่อมาในเดือนพฤษภาคม ปี2024 ได้เปิดตัว DeepSeek-V2 ซึ่งเน้นประสิทธิภาพที่มากขึ้นและค่าใช้จ่ายในการเทรนที่ลดลง และล่าสุด ได้พัฒนาจนมีด้วยกัน 2 โมเดล ดังนี้

DeepSeek-V3

โมเดลนี้ใช้ parameters ในการเทรนสูงถึง 671B และใช้การเทรนแบบ MoE (MIxture of experts) ซึ่งทำให้เทรนได้ไวและลดค่าใช้จ่ายในการประมวลผล แต่ต้องใช้การ์ดจอเป็นจำนวนมากในการเทรนโมเดลนี้ ซึ่งโมเดลนี้มีจุดเด่นที่สามารถตอบคำถามได้หลากหลาย และสามารถให้คำตอบได้รวดเร็ว รวมถึงทาง Deepseek อ้างว่าโมเดลนี้มีประสิทธิภาพต่อราคาที่สูงกว่าทุกโมเดลในตลาด AI

Image source https://api-docs.deepseek.com/news/news1226

DeepSeek-R1

เมื่อเทียบกับ DeepSeek-V3 โมเดลนี้เสมือนเป็น optimized version ซึ่งมีขนาดโมเดลที่เล็กกว่า และจำนวน parameters ที่ใช้เทรนน้อยกว่า แต่ให้ประสิทธิภาพที่ใกล้เคียงกับโมเดล V3 หรือเรียกว่าการทำ Distillation เพื่อให้สามารถรันโมเดลบนเครื่องที่ใช้การ์ดจอเพียง 1 ตัวโดยไม่ต้องใช้การ์ดจอจำนวนมาก

โมเดลนี้มีจุดเด่นที่ใช้เวลามากขึ้นในการคิดและเรียบเรียงคำตอบ เพื่อตอบคำถามที่มีความซับซ้อนได้ดี มีการเทรนแบบ Pure RL (Reinforcement Learning) ซึ่งเป็นการเรียนรู้จากตัวเลือกที่ดีที่สุด มีวิธีใช้เหตุผลแบบ Chain of Thought เพื่อแสดงกระบวนการคิดก่อนจะได้คำตอบออกมา ซึ่งเราสามารถเข้าใจกระบวนการคิดของโมเดลและปรับปรุงจุดที่ผิดพลาดได้

Image source https://medium.com/@tahirbalarabe2/deepseek-r1-explained-chain-of-thought-reinforcement-learning-and-model-distillation-0eb165d928c9

ดีกว่า chatGPT หรือ AI chatbot ตัวอื่นอย่างไร?

ประสิทธิภาพโดยรวมที่เหนือกว่า

ด้วยการพัฒนาที่ใช้เทคโนโลยีหลายๆอย่าง ทาง Deepseek อ้างว่าสามารถทำแบบทดสอบต่างๆ อย่าง AIME2024, MATH-500 หรือ SWE-bench Verified ได้เหนือกว่าคู่แข่งบริษัทอื่นๆ รูปด้านล่างเปรียบเทียบ Benchmark performance แบบทดสอบในเรื่องต่าง ๆ

Image source https://github.com/deepseek-ai/DeepSeek-R1/blob/main/figures/benchmark.jpg

ต้นทุนที่ถูกกว่า

Deepseek มีค่าใช้จ่ายในการเทรนโมเดลอย่าง DeepSeek-V3 ด้วยการ์ดจอ H800* อยู่ที่ประมาณ 190 ล้านบาท เมื่อเทียบกับบริษัทอื่นอย่าง OpenAI ที่มีค่าใช้จ่ายในการเทรน chatGPT-4 มากกว่า 2 พันล้านบาท

Image source https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

*H800 เป็นการ์ดจอของทาง Nvidia รุ่นพิเศษที่ถูกลดทอนประสิทธิภาพลงเมื่อเทียบกับตัวที่ใช้ Hopper Architecture อย่างรุ่น H100 ซึ่ง H800 ถูกขายให้กับทางประเทศจีนเท่านั้น เนื่องจากประเทศสหรัฐอเมริกามีคำสั่งให้จำกัดการส่งออกสินค้าประเภท Semiconductor ไปยังประเทศจีน

เป็น Open source

เช่นเดียวกันกับทาง Meta ที่มีโมเดล AI เป็น Open source อย่าง LLaMA (ดู Source code ได้ ที่นี่) ทาง Deepseek ได้เปิดเผยทุกโมเดลเป็น Open source เพื่อให้ผู้พัฒนาคนอื่นๆ ได้เข้ามาตรวจสอบและสามารถนำไปใช้พัฒนาต่อยอดได้ สามารถดู source code ของโมเดล DeepSeek-R1 เพิ่มเติมได้ ที่นี่

Image source https://hix.ai/th/l/meta-releases-llama-31-the-largest-open-source-ai-model-to-date

การประยุกต์ใช้กับ DevOps

ได้มีการนำโมเดล DeepSeek-R1 ไปใช้กับ CSP (Cloud Service Provider) ในหลายๆ บริษัทเพื่อพัฒนาและใช้งานเป็นของตัวเอง ยกตัวอย่างเช่น

Microsoft

ทาง Microsoft ได้นำโมเดล DeepSeek-R1 มาใช้ใน Azure AI Foundry ซึ่งผู้ใช้งานสามารถ deploy โมเดลนี้เพื่อรับ Inference API และ key ในการเข้าใช้งาน Chat playground

Image source https://blog.colbyford.com/4-ways-to-run-your-own-deepseek-ai-instance-today-922f8e45767e

AWS

ผู้ใช้งานสามารถ deploy โมเดล DeepSeek-R1 ได้ใน Amazon Bedrock ซึ่งเหมาะกับการ integrate โมเดล pre-trained ผ่าน API และ Amazon SageMaker AI ที่เหมาะกับการ custom, train หรือพัฒนาโมเดลในระดับ Physical infrastructure

Image source https://dgallitelli95.medium.com/deepseek-r1-on-aws-70c1c4b692f3

Google

การ deploy DeepSeek-R1 บน GCP (Google Cloud Platform) จำเป็นต้องตั้งค่า environment การใช้ GPU และโมเดลสำหรับ inference อย่าง FastAPI inference server

Image source https://medium.com/google-cloud/running-deepseek-from-open-source-model-to-production-ready-api-on-google-cloud-vertexai-8d3f57e488b9

DigitalOcean

ผู้ใช้งานสามารถใช้งาน DeepSeek ได้ผ่าน 1-Click model จาก DigitalOcean ด้วยไม่กี่ขั้นตอนในการเลือกโมเดลและเลือก GPU plan ก็สามารถ Deploy โมเดลได้เลย

Image source https://www.digitalocean.com/blog/now-available-deepseek-r1-on-gpu-droplets

ทั้งนี้การใช้ DeepSeek-R1 ช่วยให้นักพัฒนาสามารถลดค่าใช้จ่ายจากการเทรนได้ เพราะสามารถนำโมเดลใช้งานได้เลย หรือปรับแต่งตามความต้องการเนื่องจากเป็น open source หรือค่า API token ที่มีราคาถูกกว่าโมเดลจากบริษัทอื่นๆ

ข้อสังเกตจากการใช้ Deepseek-R1

หลังจากเปิดตัวโมเดลใหม่ และมีผู้คนจากทั่วโลกให้ความสนใจอย่างล้นหลาม จนเกิด feedback ต่างๆโดยเฉพาะข้อกังขาที่มีต่อบริษัท Deepseek ยกตัวอย่างเช่น

ความปลอดภัยในการใช้งานหรือการเข้าถึงข้อมูลส่วนตัว

หลายๆคน อาจมีความกังวลกับความปลอดภัยในการใช้งาน กลัวโดนเก็บข้อมูลส่วนตัว ซึ่งถ้าอ่านข้อกำหนดความเป็นส่วนตัว (Privacy policy) ของทาง Deepseek พบว่ามีการเก็บข้อมูลใน server ที่มีความปลอดภัยสูงในประเทศจีน แต่ในความเป็นจริงแล้ว กฏหมายของประเทศจีนกำหนดให้บริษัทเหล่านี้ต้องส่งข้อมูลให้กับทางรัฐบาลของจีนเพื่อการป้องกันการกระทำที่ผิดกฏมายที่อาจเกิดขึ้นได้ แต่ถ้าผู้ใช้งานเลือกที่จะใช้งานแบบ local โดยการ download เฉพาะโมเดลลงบนเครื่องของตัวเองนั้นเป็นตัวเลือกที่ปลอดภัย เพราะข้อมูลจะไม่มีการส่งไปยัง server ของประเทศจีน เรื่องนี้ส่งผลต่อบางประเทศในยุโรปอย่างอิตาลี ห้ามใช้งาน Deepseek ในประเทศของตัวเองเป็นการชั่วคราวด้วยเหตุผลการเข้าถึงข้อมูลส่วนตัว

การปิดกั้นการให้ข้อมูลที่อาจกระทบต่อความมั่นคงของประเทศจีน

มีผู้ใช้งานจำนวนไม่น้อย เมื่อได้ลองใช้งาน เพื่อทดสอบความเสรีในการให้ข้อมูลจากบริษัทสัญชาติจีน ซึ่งก็ไม่ใช่เรื่องน่าแปลกใจ เมื่อได้ถามคำถามต่างๆ ที่เป็นประเด็นทางการเมือง มักจะโดนตอบกลับมาเชิงว่าไม่สามารถให้คำตอบได้ ให้ถามเรื่องอื่นๆ แทน
หมายเหตุ ทางผู้เขียนขอไม่ลงรายละเอียดในเรื่องนี้ แต่จะมุ่งประเด็นในทางเทคโนโลยีของ Deepseek แต่ถ้าผู้อ่านอยากลองทดสอบ สามารถถามคำถามเบื้องต้นอย่าง “มีเหตุการณ์อะไรเกิดขึ้นในปี 1989” ได้

Deepseek คือ chatGPT

ในที่นี้ไม่ได้หมายถึงประสิทธภาพที่สูสีกับ chatGPT แต่อย่างใด แต่หมายถึงตัว chatbot ของ Deepseek มีเข้าใจผิดว่าตัวเองเป็น chatGPT เมื่อผู้ใช้งานหลายๆคนพบว่า เมื่อลองถาม Deepseek คืออะไรหรือคำถามที่ใกล้เคียงกัน ซึ่งในเวลาไม่นานทาง OpenAI (ที่เป็นเจ้าของ chatGPT) ได้ออกมากล่าว หาว่าทาง Deepseek ได้ขโมยเทคโนโลยีของทาง OpenAI ไปใช้โดยไม่ได้รับอนุญาต

สรุป

ทั้ง DeepSeek-V3 และ DeepSeek-R1 มีประสิทธิภาพเทียบเคียงกับโมเดลในรุ่นใกล้เคียงกันของบริษัทอื่นๆ ด้วยต้นทุนและราคาจำหน่ายที่ถูกกว่ามาก และจากการใช้งานของหลายๆคน มีความกังวลถึงความเป็นส่วนตัวในการใช้งานของ AI chatbot นี้ว่ามีการเก็บข้อมูลส่วนตัวไปใช้ ข้อจำกัดในการใช้งานในการถามบางอย่างที่อาจส่งผลกระทบต่อความมั่นคงของจีน หลังจากเปิดตัวไม่นาน ได้มีการจำกัดผู้ใช้งานโดยให้ลงทะเบียนเป็นเบอร์โทรศัพท์จากจีนเท่านั้น ด้วยเหตุจากการใช้งานจากคนทั่วโลกอย่างล้นหลาม หรือมีการโจมตีระบบก็ตาม แต่ในส่วนของการใช้โมเดล DeepSeek-R1 นั้น บริษัทใหญ่ๆ อย่าง Microsoft หรือ AWS ได้นำมาใช้งานในระบบของตัวเองแล้ว และล่าสุดทาง Alibaba ได้เปิดตัว AI โมเดลอย่าง Qwen 2.5 max โดยอ้างว่าเหนือว่า AI ทั้งหมดที่เคยมีมาทั้งของ OpenAI, Google หรือทั้งของ Deepseek เอง ซึ่ง Deepseek ยังต้องพิสูจน์ตัวเองต่อไปว่าจะมาขึ้นเป็นเบอร์ 1 ในวงการ AI ได้จริงๆหรือไม่

อ้างอิง

https://api-docs.deepseek.com/news/news250120
https://www.forbes.com/sites/janakirammsv/2025/01/26/all-about-deepseekthe-chinese-ai-startup-challenging-the-us-big-tech/
https://www.theguardian.com/technology/2025/jan/28/who-is-behind-deepseek-and-how-did-it-achieve-its-ai-sputnik-moment
https://www.reuters.com/technology/artificial-intelligence/what-is-deepseek-why-is-it-disrupting-ai-sector-2025-01-27/
https://www.theguardian.com/us-news/2022/oct/07/biden-administration-tech-restrictions-china
https://medium.com/@tahirbalarabe2/deepseek-r1-explained-chain-of-thought-reinforcement-learning-and-model-distillation-0eb165d928c9
https://www.geeksforgeeks.org/deepseek-r1-vs-deepseek-v3/
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
https://team-gpt.com/blog/how-much-did-it-cost-to-train-gpt-4/?utm_source=chatgpt.com
https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/
https://aws.amazon.com/blogs/aws/deepseek-r1-models-now-available-on-aws/
https://www.digitalocean.com/blog/now-available-deepseek-r1-on-gpu-droplets
https://docs.vultr.com/how-to-deploy-deepseek-r1-reasoning-large-language-model-llm-using-sglang
https://stancsz.medium.com/deploying-deepseek-r1-on-google-cloud-platform-gcp-13978c7ec1de
https://venturebeat.com/ai/is-deepseek-really-sending-data-to-china-lets-decode/
https://www.reuters.com/technology/deepseek-app-unavailable-apple-google-app-stores-italy-2025-01-29/
https://www.generativeaipub.com/p/openai-accuses-deepseek-of-copying?utm_campaign=post&utm_medium=web