Difyでハッカソン運営を自動化した話

Difyでハッカソン運営を自動化した話

Difyでハッカソン運営を自動化した話

Difyでハッカソン運営を自動化した話

コラム

2025/07/21

はじめに

先日開催した第2回 Dify Studioハッカソンで、200名近くの参加者の作品を自動評価するシステムを構築しました。今回は、AIが他のAIを評価する「LLM-as-a-Judge」という仕組みをDifyで実装し、ハッカソン運営を効率化した事例を紹介します。


第2回Dify Studioハッカソンの概要

Dify Studioは、Difyユーザーが集まる日本最大級のコミュニティです。2025年7月時点で1,700名以上のメンバーが参加し、日々Difyの活用方法について情報交換を行っています。このコミュニティが主催する第2回ハッカソンは、Difyの実践的な活用スキルを競う場として企画されました。

Dify Studioについてはこちら

https://note.com/conaxam/n/nd086149b15b4

https://note.com/dify_studio/n/n679b276d08a3


ハッカソンのテーマと課題

今回のハッカソンのテーマは株式会社ログラス CEO 布川さんより、実務に沿ったお題をいただいておりまして、「HR勤怠管理システム『TimeSync』の営業支援AI bot開発」でした。参加者は、架空の勤怠管理システムTimeSyncの営業担当者を支援するチャットボットを、Difyを使って開発するという課題に取り組みました。

画像

株式会社ログラスCEO布川さんからご提供いただいたテーマ

TimeSyncは、多様な打刻方法と勤務形態を一元管理し、AIで工数と人件費を最適化するエンタープライズ向け勤怠管理システムという設定です。参加者には以下の4つの資料が提供されました。

  • TimeSync仕様書:製品の機能・仕様・特徴をまとめた資料

  • TimeSync導入事例集:導入企業の具体的な成功事例

  • 営業トークスクリプト:営業活動で利用するトーク例

  • 技術的問い合わせ集:よくある技術的な質問とその回答

参加者は、これらの資料を活用して、営業担当者がクライアントからの質問に的確に回答できるよう支援するAIボットを開発することが求められました。

画像

参加者には実務さながらのデータが提供される

ハッカソン運営における評価の課題

ハッカソンは、参加者が限られた時間内でアイデアを形にする創造的なイベントです。しかし、運営側にとって大きな課題となるのが、短時間で多数の作品を公平に評価することです。

画像

ハッカソン運営における従来の手動評価プロセスの課題

今回のハッカソンでは200名近くの参加者が集まっており、さらに個人戦を想定していたので、全員が作成したチャットボットを迅速に評価する必要がありました。評価作業には次のような課題が存在していました。

  • 評価者の負担が大きい:各作品に対して複数のテストケースを実行し、回答の品質を確認する作業は膨大な時間を要する

  • 評価基準のばらつき:複数の評価者が関わると、同じ回答でも評価が分かれることがある

  • リアルタイム性の欠如:手動評価では結果の集計に時間がかかり、イベント進行に支障をきたす

これらの課題を解決するため、AIを活用した自動評価システムの構築に取り組みました。

LLM-as-a-Judgeという解決策

LLM-as-a-Judgeは、大規模言語モデル(LLM)を評価者として活用する手法です。人間の評価者が行っていた「テストケースの実行」「回答の品質評価」「スコアリング」という一連のプロセスを、AIが代行します。

画像

LLM-as-a-Judgeのしくみ

技術的な詳細について知りたい方はこちらで説明しております。

www.docswell.com

システムのアーキテクチャ

今回構築したLLM-as-a-Judgeシステムは、参加者が開発したアプリケーションを外部から呼び出し、その応答を評価する仕組みです。

画像

LLM-as-a-Judgeを利用したハッカソン運営自動化システムのアーキテクチャ

このアーキテクチャにより、200名近くの参加者のアプリケーションを同時並行で評価することが可能になりました。また、評価の公平性を保ちながら、運営の負荷を大幅に削減することに成功しています。

Difyでの実装方法

実際の実装では、Difyのワークフロー機能を活用しました。参加者が作成したアプリケーションのAPIキーを受け取り、自動的にテストケースを実行して評価を行うシステムです。

画像

作成したDifyアプリケーション

システムの全体構成

評価システムは3つの主要コンポーネントで構成されています。

  1. テストケース:評価用の質問リストを保持し、順次実行します

  2. API実行:参加者のDifyアプリケーションをAPI経由で呼び出し、回答を取得します

  3. 評価エンジン:取得した回答をLLMが評価し、スコアを算出します

これらのコンポーネントをDifyのワークフローで連携させることで、完全自動化を実現しました。

評価基準の設計

今回のハッカソンのテーマは「架空のHR勤怠管理システム『TimeSync』の営業支援AI bot開発」でした。評価基準は以下の2つの観点から設計しました。

  • 正確性:製品仕様や導入事例に基づいた適切な情報を提供しているか

  • 課題解決力:顧客の課題を理解し、それに対する解決策を提案できているか

これらの基準は、実際の営業現場で求められる要素を反映したものです。単に正しい情報を返すだけでなく、顧客のビジネスに価値を提供できるAIボットを評価できるよう工夫しました。

リアルタイム評価による新しい参加体験

今回のハッカソンで最も革新的だったのは、参加者が自分のスコアをリアルタイムで確認できる仕組みを提供したことです。

画像

自動評価システムを利用したハッカソン運営の流れ

参加者がGoogleフォームでAPIキーを提出すると、評価システムが自動的に起動します。そして、10分ごとにスプレッドシートが更新され、全参加者の最新スコアと順位が公開されるという、これまでにない体験を実現しました。

画像

ユーザー毎のスコアがリアルタイムで更新される

この仕組みにより、参加者は以下のような新しい体験を得ることができました。

  • 改善のサイクル:スコアを見て改良を加え、再提出することで、リアルタイムに順位が変動

  • 競争の可視化:他の参加者との差を常に確認でき、モチベーションが維持

  • 透明性の確保:評価プロセスがブラックボックスではなく、誰もが同じ条件で評価

従来のハッカソンでは、作品を提出してから結果発表まで時間を待つ必要があり、評価タイミングも一度だけでした。その間、参加者は自分の作品がどう評価されているのか全く分からない状態でした。しかし、このリアルタイム評価システムにより、まるでオンラインゲームのランキングのように、刻々と変化する順位を確認しながら開発を進めることができました。

このように、従来は長時間かかっていた評価作業が、システムが常に最新の評価を保持しているため、締切時点のスナップショットを取るだけで即座に結果を発表できました。

画像

当日の様子(オンラインとオフライン同時開催で200名近くの方にご参加いただきました)

まとめ

Difyを使ってLLM-as-a-Judgeシステムを構築することで、ハッカソンの評価プロセスを大幅に効率化できました。100名以上の参加者の作品をリアルタイムで公平に評価し、運営負荷を軽減しながら参加者満足度の向上も実現できました。

Difyの柔軟なワークフロー機能を活用すれば、評価基準や処理フローをノーコードで構築・調整できます。プログラミングの専門知識がなくても、業務に合わせた評価システムを作ることができます。

Dify Studioとして第3回となる次回のイベントは、さらにより大きなものにしていきたいと思っておりますので、ぜひご参加お待ちしております。

株式会社Omlucでは法人向けのDify導入支援パッケージをご提供しております。
自社の業務をDifyで効率化したい、Difyを自社で使えるようになりたいなど、Difyに関するお問い合わせはお気軽にご相談ください。

Contact

お問い合わせ・ご相談

生成AIの導入に関することならお気軽にご相談ください。お見積もり依頼も可能です。お問い合わせでよくある質問もご用意しています。

Contact

Dify導入支援サービス概要ダウンロード

当社の生成AI導入支援サービスや事業内容をまとめた資料をダウンロードいただけます。導入の流れやAI活用を検討されている企業様に役立つ情報を掲載しています。

株式会社Omluc

株式会社Omluc

株式会社Omluc

〒105-0013 

東京都港区浜松町二丁目2番15号浜松町ダイヤビル2F

〒105-0013 

東京都港区浜松町二丁目2番15号浜松町ダイヤビル2F

〒105-0013 

東京都港区浜松町二丁目2番15号浜松町ダイヤビル2F

© 2025 Omluc Co., Ltd. All Right Reserved.